中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工”

本文主要是介绍中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

本文作者：叨叨

2017-07-09 22:22

专题：GAIR 2017

导语：特别是做低级的投行从业者，他们每天都在撰写各种金融文档、各种募集说明书

雷锋网(公众号：雷锋网)按：光鲜亮丽的投行工作看似有着羡煞旁人的超高回报，但在几百页“金融文档”的日常重压之下，会被瞬间秒回原形。在雷锋网 CCF-GAIR 2017 的第二天，中科院计算所副研究员、微信人工智能首席科学顾问、博士生导师罗平教授带来了题为《人工智能在智能投行中的应用》的分享，讲解了如何用 AI 来解救金融民工，给金融文档的复核和撰写带来福音。

以下为罗平演讲速记全文整理，雷锋网在不改变原意的基础上做了精编：

非常荣幸参加 CCF-GAIR 2017 金融科技专场，特别是外地的同事，到这儿来的都是真爱，而且是一种缘分。为什么这样说？昨天晚上我坐在飞机上，本来飞机已经停了一两个小时了，准备要飞了，结果北京下冰雹。我觉得可能没有缘分跟大家见面了，但是它最终还是飞过来了，得以顺利跟大家见面。

刚才主持人说希望跟大家讲讲干货，我是做技术的，切入到金融行业，希望能跟大家分享一些技术方面的干货。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

我的演讲主题是《AI在智能投行中的应用》，任何的技术要切入到一个非常具体的场景才有价值。我们看看智能投行场景需要解决什么问题。

首先投行是做什么的呢？

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

其实投行是一个金融的媒介，它实际上是资金需求方和投资方的媒介，让资金能够顺利的给到资金需求方。投行基本的工作有几个步骤：

承揽
尽调与承做
发行与承销
后续督导

这是从前台到后台的顺序。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

知乎上有一个调查：整个金融行业什么样的职位最苦逼，排在第一名的是投资银行家，他们非常的苦，他们苦在哪儿呢？投行的从业者门槛非常高，每个人都必须要有光鲜的背景，都是海归、或名校毕业。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

但是实际上他们每天都做着非常苦逼的工作，特别是事业初期的投行从业者，每天都在撰写各种金融文档、各种募集说明书，包括债券募集说明书、IPO或者资产证券化说明书。这些说明书平均都是500页以上，撰写起来非常的痛苦。而且这些东西都有 Deadline，你不能错过，错过要等好几个月才能重新审批。这么大的工作量，他们非常非常的痛苦。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

同时，金融监管机构对文档的质量要求非常高，有三个词：真实、准确、完整，这是他们必须做到的基本原则。如果你没有做到这个要求会有什么后果呢？

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017 因为公开的金融文档是具有一定法律效力的，公布出来的行业数据有错误，可能会承担诉讼的连带责任。监管部门也会对文档质量有非常高的要求。文档质量往往关乎IPO是否能成功；文档质量也是证监会考评每个投资银行的重要指标。如果级别从A降到B，投行每年将支付更多的监管费用，这是很大的一笔运营成本。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

那么，我们来看看一些报道出来的金融文档出错的例子，大量的例子实际上是没有报道出来的。

2011年，高盛的一个私募产品，里面存在数字方面的错误，带来超过 4500 万美金的赔偿诉讼。另外，国内某银行在财报中公布“负债8亿亿”，实际上是8万亿。该新闻上就有投资者质问：财报这么不负责任，我们也无法信赖所提供的金融服务。所以，金融文档撰写的操作风险高，所面临的声誉损失和经济损失非常大。

所以，撰写这些文档的投资银行家们压力山大。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

最苦逼的是什么呢？这个市场每年都在壮大，也就是说，投行从业者每年的工作量都在增加。这确实是一个深刻的痛点。我们看看能不能用AI技术来消除这些痛点。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

我们给这项技术取了一个很酷的名字，叫做庖丁解文。大家都知道一个成语叫庖丁解牛。我们希望AI技术能够像庖丁一样，干净利落的把金融文档结构化。

这项自然语言结构化的技术有三个特点：

瞬时：全自动的，都是机器自动做，没有人工干预
精准：非常准确
深度：要把所有的语义，特别是金融数据间的勾稽关系，都解析出来。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

我给大家举一个例子：大量的金融文档中都有一些对公司各种财务指标的描述。

实际上，这句话要让机器去理解，是非常难的事情。大家都知道，现在机器翻译是做得很好的，但其实机器翻译没有做任何理解，它可以把这句话翻译成英文，但是你要是询问：2014年公司第一大客户的营业额是多少，翻译程序是回答不了的。

如果要精确问答这样的问题，机器需要做什么呢？需要把自然语言的描述都结构化。我们研发的深度结构化技术包含两个层面：

第一个层面是 Text2Tuple，从文本到元组。元组是时间、财务指标、值的三元组，比如说：2013、2014、2015年第一大客户的营业额分别是多少钱，我们需要提取出来。
第二个层面是 Text2Equ，我们需要把文本中这些比例数字，如60%、58%、55%，解释为语义相同的计算公式；同时文中提到“呈现逐渐下降的趋势”，所以，也需要提取出这个不等式的关系。

这就是我们的核心技术：从非结构化的文档中自动提取出对应语义的元组和公式。因此，我们研发的模型，输入为非结构化或半结构化的文本，输出为可供计算机搜索、比对、分析的结构化的数据。这其实是自动构建知识图谱的核心技术。有了知识图谱，后续可以支撑很多应用。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

我们现在关注的是金融文档复核的应用。什么是文档复核呢？简言之，就是对金融文档中的数字的勾稽关系进行复核。任何公开的募集说明书都包含大量的数字，同样的一个财务指标，它可能会在文字和表格中被多次描述。由于，撰写过程可能多次修改原始数据；这将导致数据前后不一致的情况。

复核文档，英文叫 Authorized Reading，是投行业的一项重要工作。有了深度结构化技术，我们将能将这项工作完全自动化。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

举一个实际的例子，文本中提到：发行人的固定资产在2014年是红色的数字；但是在表格中，2014年的固定资产对应不上。这显然是一个错误。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

因此，我们研发了一个自动复核的产品，AutoDoc。使用起来很简单，用户只需上传需要复核的金融文档，经过自动解析和比对，机器会自动标注出数据不一致的地方。

效果怎么样呢？我们在1000个已公开的债券募集说明书上进行测试和人工确认。测试结果是令人惊讶的。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

我们发现这1000个募集说明书里面，有68.92%的文档存在错误，平均包含4.26个错误。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

有了这样的测试，我们在4月26日把这个功能发布在微信公众号 “债有主”上。到目前为止，已经有近1000份募集说明书上传。我们的数据是：98.4%的文档存在错误，平均每个文档中有6.5个错误。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

我们解密一下这项功能背后究竟是什么样的技术。实际上，我们打造一个 NeuSALG 的平台，什么是 SALG 呢？就是 Semantic Acquisition和 Language Generation。这个平台最核心的一点是打造一个通路平台，沟通标注、训练、预测、反馈4个部分。只有数据在通路中反复扭转，系统的性能才会越来越好。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

其实，性能的突破并不是单点的突破，需要从底层深度学习框架、模型能力、数据等各方面发力。这也是我们多年研究的积累。比如，在优化算法方面，今年我们在 KDD 上发表了一项研究，能够动态确定随机梯度下降每轮所需数据的大小，这一研究能够减少多机多卡的环境下进行训练的通信开销，从而减少训练时间。这将大幅度提供模型的迭代速度。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

最后，我想给大家一些对 FinTech 和 AI 的思考。我觉得金融科技应该特别关注金融业务场景的中后台，其实金融这个领域非常大，它有各式各样的业务场景。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

比如说，在投行领域，从前台到后台的流程是承揽、尽调与承做、发行与承销或者后续督导。承揽的工作，通常需要跟发行人和客户打交道，这是靠关系、靠人脉的，这个环节机器做不了，而机器能做的是中后台的业务。又比如，二级市场的资金业务，从交易、风控到清算与结账。

我觉得金融科技应该在中后台的业务领域里面发挥作用。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

为什么？我们发现，金融中后台的这些工作有两个特点：第一是每天都做同样的事，重复的做；第二个特点是：单次工作的难度相对较低。例如：对一句话进行复核，这是很简单的事情。

但是，整个任务的难度是两个方面的乘积， W是完成单次任务的难度，Dur是持久性难度系数。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017

我们需要指出：单次完成任务的难度，需要区分人和机器的差异。我们看看，人擅长什么，机器擅长什么。机器擅长计算、存储、检索，只要插上电，机器就能完成。但是，机器不擅长下棋、不擅长听、说、写、理解。阿尔法狗做的事情是把下棋这个事情转换成一个计算的问题，一旦完成这样的转换，人是永远都不能够战胜机器的。

但是对于人来讲，下棋是非常难的，计算、逻辑推理稍微简单一点；最简单的是听说读写，就是每个人的基本功能，但是这个事情恰恰是机器难以做到的。

当前AI技术的成功，实际都是“弱人工智能”的胜利，它实质是将所谓的“智能”功能转化为计算的问题。

中科院罗平演讲全文：自动撰写金融文档如何实现，用 AI 解救“金融民工” | CCF-GAIR 2017