中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

本文主要是介绍中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

本文作者:叨叨 2017-07-09 22:22专题:GAIR 2017
导语:特别是做低级的投行从业者,他们每天都在撰写各种金融文档、各种募集说明书

雷锋网(公众号:雷锋网)按:光鲜亮丽的投行工作看似有着羡煞旁人的超高回报,但在几百页“金融文档”的日常重压之下,会被瞬间秒回原形。在雷锋网 CCF-GAIR 2017 的第二天,中科院计算所副研究员、微信人工智能首席科学顾问、博士生导师罗平教授带来了题为《人工智能在智能投行中的应用》的分享,讲解了如何用 AI 来解救金融民工,给金融文档的复核和撰写带来福音。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

以下为罗平演讲速记全文整理,雷锋网在不改变原意的基础上做了精编:

非常荣幸参加 CCF-GAIR 2017 金融科技专场,特别是外地的同事,到这儿来的都是真爱,而且是一种缘分。为什么这样说?昨天晚上我坐在飞机上,本来飞机已经停了一两个小时了,准备要飞了,结果北京下冰雹。我觉得可能没有缘分跟大家见面了,但是它最终还是飞过来了,得以顺利跟大家见面。

刚才主持人说希望跟大家讲讲干货,我是做技术的,切入到金融行业,希望能跟大家分享一些技术方面的干货。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

我的演讲主题是《AI在智能投行中的应用》,任何的技术要切入到一个非常具体的场景才有价值。我们看看智能投行场景需要解决什么问题。

首先投行是做什么的呢?

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

其实投行是一个金融的媒介,它实际上是资金需求方和投资方的媒介,让资金能够顺利的给到资金需求方。投行基本的工作有几个步骤:

  • 承揽

  • 尽调与承做

  • 发行与承销

  • 后续督导

这是从前台到后台的顺序。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

知乎上有一个调查:整个金融行业什么样的职位最苦逼,排在第一名的是投资银行家,他们非常的苦,他们苦在哪儿呢?投行的从业者门槛非常高,每个人都必须要有光鲜的背景,都是海归、或名校毕业。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

但是实际上他们每天都做着非常苦逼的工作,特别是事业初期的投行从业者,每天都在撰写各种金融文档、各种募集说明书,包括债券募集说明书、IPO或者资产证券化说明书。这些说明书平均都是500页以上,撰写起来非常的痛苦。而且这些东西都有 Deadline,你不能错过,错过要等好几个月才能重新审批。这么大的工作量,他们非常非常的痛苦。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

同时,金融监管机构对文档的质量要求非常高,有三个词:真实、准确、完整,这是他们必须做到的基本原则。如果你没有做到这个要求会有什么后果呢?

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017因为公开的金融文档是具有一定法律效力的,公布出来的行业数据有错误,可能会承担诉讼的连带责任。监管部门也会对文档质量有非常高的要求。文档质量往往关乎IPO是否能成功;文档质量也是证监会考评每个投资银行的重要指标。如果级别从A降到B,投行每年将支付更多的监管费用,这是很大的一笔运营成本。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

那么,我们来看看一些报道出来的金融文档出错的例子,大量的例子实际上是没有报道出来的。

2011年,高盛的一个私募产品,里面存在数字方面的错误,带来超过 4500 万美金的赔偿诉讼。另外,国内某银行在财报中公布“负债8亿亿”,实际上是8万亿。该新闻上就有投资者质问:财报这么不负责任,我们也无法信赖所提供的金融服务。所以,金融文档撰写的操作风险高,所面临的声誉损失和经济损失非常大。

所以,撰写这些文档的投资银行家们压力山大。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

最苦逼的是什么呢?这个市场每年都在壮大,也就是说,投行从业者每年的工作量都在增加。这确实是一个深刻的痛点。我们看看能不能用AI技术来消除这些痛点。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

我们给这项技术取了一个很酷的名字,叫做庖丁解文。大家都知道一个成语叫庖丁解牛。我们希望AI技术能够像庖丁一样,干净利落的把金融文档结构化。

这项自然语言结构化的技术有三个特点

  • 瞬时:全自动的,都是机器自动做,没有人工干预

  • 精准:非常准确

  • 深度:要把所有的语义,特别是金融数据间的勾稽关系,都解析出来。


中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

我给大家举一个例子:大量的金融文档中都有一些对公司各种财务指标的描述。

实际上,这句话要让机器去理解,是非常难的事情。大家都知道,现在机器翻译是做得很好的,但其实机器翻译没有做任何理解,它可以把这句话翻译成英文,但是你要是询问:2014年公司第一大客户的营业额是多少,翻译程序是回答不了的。

如果要精确问答这样的问题,机器需要做什么呢?需要把自然语言的描述都结构化。我们研发的深度结构化技术包含两个层面:

  • 第一个层面是 Text2Tuple,从文本到元组。元组是时间、财务指标、值的三元组,比如说:2013、2014、2015年第一大客户的营业额分别是多少钱,我们需要提取出来。

  • 第二个层面是 Text2Equ,我们需要把文本中这些比例数字,如60%、58%、55%,解释为语义相同的计算公式;同时文中提到“呈现逐渐下降的趋势”,所以,也需要提取出这个不等式的关系。

这就是我们的核心技术:从非结构化的文档中自动提取出对应语义的元组和公式。因此,我们研发的模型,输入为非结构化或半结构化的文本,输出为可供计算机搜索、比对、分析的结构化的数据。这其实是自动构建知识图谱的核心技术。有了知识图谱,后续可以支撑很多应用。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

我们现在关注的是金融文档复核的应用。什么是文档复核呢?简言之,就是对金融文档中的数字的勾稽关系进行复核。任何公开的募集说明书都包含大量的数字,同样的一个财务指标,它可能会在文字和表格中被多次描述。由于,撰写过程可能多次修改原始数据;这将导致数据前后不一致的情况。

复核文档,英文叫 Authorized Reading,是投行业的一项重要工作。有了深度结构化技术,我们将能将这项工作完全自动化。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

举一个实际的例子,文本中提到:发行人的固定资产在2014年是红色的数字;但是在表格中,2014年的固定资产对应不上。这显然是一个错误。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

因此,我们研发了一个自动复核的产品,AutoDoc。使用起来很简单,用户只需上传需要复核的金融文档,经过自动解析和比对,机器会自动标注出数据不一致的地方。

效果怎么样呢?我们在1000个已公开的债券募集说明书上进行测试和人工确认。测试结果是令人惊讶的。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

我们发现这1000个募集说明书里面,有68.92%的文档存在错误,平均包含4.26个错误。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

有了这样的测试,我们在4月26日把这个功能发布在微信公众号 “债有主”上。到目前为止,已经有近1000份募集说明书上传。我们的数据是:98.4%的文档存在错误,平均每个文档中有6.5个错误。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

我们解密一下这项功能背后究竟是什么样的技术。实际上,我们打造一个 NeuSALG 的平台,什么是 SALG 呢?就是 Semantic Acquisition和 Language Generation。这个平台最核心的一点是打造一个通路平台,沟通标注、训练、预测、反馈4个部分。只有数据在通路中反复扭转,系统的性能才会越来越好。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

其实,性能的突破并不是单点的突破,需要从底层深度学习框架、模型能力、数据等各方面发力。这也是我们多年研究的积累。比如,在优化算法方面,今年我们在 KDD 上发表了一项研究,能够动态确定随机梯度下降每轮所需数据的大小,这一研究能够减少多机多卡的环境下进行训练的通信开销,从而减少训练时间。这将大幅度提供模型的迭代速度。


中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

最后,我想给大家一些对 FinTech 和 AI 的思考。我觉得金融科技应该特别关注金融业务场景的中后台,其实金融这个领域非常大,它有各式各样的业务场景。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

比如说,在投行领域,从前台到后台的流程是承揽、尽调与承做、发行与承销或者后续督导。承揽的工作,通常需要跟发行人和客户打交道,这是靠关系、靠人脉的,这个环节机器做不了,而机器能做的是中后台的业务。又比如,二级市场的资金业务,从交易、风控到清算与结账。

我觉得金融科技应该在中后台的业务领域里面发挥作用。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

为什么?我们发现,金融中后台的这些工作有两个特点:第一是每天都做同样的事,重复的做;第二个特点是:单次工作的难度相对较低。例如:对一句话进行复核,这是很简单的事情。

但是,整个任务的难度是两个方面的乘积, W是完成单次任务的难度,Dur是持久性难度系数。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

我们需要指出:单次完成任务的难度,需要区分人和机器的差异。我们看看,人擅长什么,机器擅长什么。机器擅长计算、存储、检索,只要插上电,机器就能完成。但是,机器不擅长下棋、不擅长听、说、写、理解。阿尔法狗做的事情是把下棋这个事情转换成一个计算的问题,一旦完成这样的转换,人是永远都不能够战胜机器的。

但是对于人来讲,下棋是非常难的,计算、逻辑推理稍微简单一点;最简单的是听说读写,就是每个人的基本功能,但是这个事情恰恰是机器难以做到的。

当前AI技术的成功,实际都是“弱人工智能”的胜利,它实质是将所谓的“智能”功能转化为计算的问题。

中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017

所以,我们现在想做的事情,实际上是把人类的听说读写和理解的智能功能转换成计算的过程。如果完成了这样的转换,那么机器就能反复运行,一切都会变得简单。

因此,我们的愿景是:把 paperwork 变成 happywork;释放人力,让投资银行家们完成更多创造性的有价值的工作。

谢谢大家!

这篇关于中科院罗平演讲全文:自动撰写金融文档如何实现,用 AI 解救“金融民工” | CCF-GAIR 2017的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/670896

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

AI儿童绘本创作

之前分享过AI儿童绘画的项目,但是主要问题是角色一致要花费很长的时间! 今天发现了这款,非常奈斯! 只需输入故事主题、风格、模板,软件就会自动创作故事内容,自动生成插画配图,自动根据模板生成成品,测试效果如下图。 变现方式:生成儿童绘本发布到各平台,吸引宝妈群体进私域。  百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全

通过SSH隧道实现通过远程服务器上外网

搭建隧道 autossh -M 0 -f -D 1080 -C -N user1@remotehost##验证隧道是否生效,查看1080端口是否启动netstat -tuln | grep 1080## 测试ssh 隧道是否生效curl -x socks5h://127.0.0.1:1080 -I http://www.github.com 将autossh 设置为服务,隧道开机启动

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

vue项目集成CanvasEditor实现Word在线编辑器

CanvasEditor实现Word在线编辑器 官网文档:https://hufe.club/canvas-editor-docs/guide/schema.html 源码地址:https://github.com/Hufe921/canvas-editor 前提声明: 由于CanvasEditor目前不支持vue、react 等框架开箱即用版,所以需要我们去Git下载源码,拿到其中两个主

android一键分享功能部分实现

为什么叫做部分实现呢,其实是我只实现一部分的分享。如新浪微博,那还有没去实现的是微信分享。还有一部分奇怪的问题:我QQ分享跟QQ空间的分享功能,我都没配置key那些都是原本集成就有的key也可以实现分享,谁清楚的麻烦详解下。 实现分享功能我们可以去www.mob.com这个网站集成。免费的,而且还有短信验证功能。等这分享研究完后就研究下短信验证功能。 开始实现步骤(新浪分享,以下是本人自己实现

基于Springboot + vue 的抗疫物质管理系统的设计与实现

目录 📚 前言 📑摘要 📑系统流程 📚 系统架构设计 📚 数据库设计 📚 系统功能的具体实现    💬 系统登录注册 系统登录 登录界面   用户添加  💬 抗疫列表展示模块     区域信息管理 添加物资详情 抗疫物资列表展示 抗疫物资申请 抗疫物资审核 ✒️ 源码实现 💖 源码获取 😁 联系方式 📚 前言 📑博客主页:

探索蓝牙协议的奥秘:用ESP32实现高质量蓝牙音频传输

蓝牙(Bluetooth)是一种短距离无线通信技术,广泛应用于各种电子设备之间的数据传输。自1994年由爱立信公司首次提出以来,蓝牙技术已经经历了多个版本的更新和改进。本文将详细介绍蓝牙协议,并通过一个具体的项目——使用ESP32实现蓝牙音频传输,来展示蓝牙协议的实际应用及其优点。 蓝牙协议概述 蓝牙协议栈 蓝牙协议栈是蓝牙技术的核心,定义了蓝牙设备之间如何进行通信。蓝牙协议