技术界与翻译界的交锋:机器翻译离我们还有多远? | 清华AI Time

2024-04-13 23:18

本文主要是介绍技术界与翻译界的交锋:机器翻译离我们还有多远? | 清华AI Time,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png

来源:大数据文摘

本文约4350字,建议阅读7分钟。

机器翻译对于人工翻译而言是威胁还是可利用工具?在多大程度上机器翻译又能帮助普通用户呢?

640?wx_fmt=jpeg

作为自然语言处理中一项非常重要的应用,现代意义上的机器翻译概念从上世纪40年代提出至今,经过了几代革新,现已初步实现了多场景的落地和应用。近几年随着机器翻译质量的提高,机器翻译代替人工翻译的声势逐渐浩大起来,那么机器翻译对于人工翻译而言是威胁还是可利用工具?在多大程度上机器翻译又能帮助普通用户呢?


640?wx_fmt=jpeg


在AI Time第六期的辩论中,中科院自动化研究所研究员宗成庆、北京外国语大学高级翻译学院副院长李长栓、苏州大学计算机学院副院长国家杰青张民、东北大学计算机学院教授朱靖波、清华大学计算机科学与技术系长聘副教授刘洋一起论道了机器翻译的相关问题。


640?wx_fmt=png


机器翻译历史

机器翻译的历史大体可以分为两大阶段,第一阶段是从60年代到90年代初期,理性主义方法是主流,主要是让人类专家观察语言规律,把它描述成规则,让机器按照既定规则进行翻译。 第二个阶段是90年代,特别是互联网出现以后,开始从事统计机器翻译研究,此时数据以及相应的数据驱动方法得到蓬勃发展。

统计方法比较经典的模型叫做隐变量对数线性模型,它的特点是要设计特征,X代表输入,Y代表输出,Z就代表中间的语言结构,通过定义各种特征函数来训练一个参数,很多工作都集中在如何设计好的特征来描述翻译规律上。

但语言太过复杂,穷尽人类智慧也很难把这个特征设计全面,其中一个难点称之为调序,比如“就中东局势举行了一个小时会谈”,这是一个典型的介词短语和动词短语的组合,在中文中先说介词短语,再说动词短语,但在英文中都是反过来的。

2015年后,深度学习在机器翻译得到应用。 深度学习的主要意义在于它可以从数据中自动提取表示,就不需要像以前一样设计特征来描述翻译规则,只需要设计一个网络,让机器自动在数据去寻找表述,效果非常好。 但还是有难解决的问题,它根本不知道数字是什么意思,不知道为什么出错,不知道怎么去改动它,而且很难控制。

目前最核心的技术叫做注意力机制,希望通过自动计算发现中英文之间的相关性,这在整个深度学习里也是非常核心的技术。 现在可以利用一些比较新的技术,这个是transformer,希望能够处理更长的序列。

640?wx_fmt=jpeg

机器翻译旨在弥补人类干不了的场景

最近几年出现了一系列机器翻译应用,比如翻译机、微信的翻译服务。 机器翻译很大程度上是为解决不同国家、不同文化之间的沟通问题,如果机器翻译能在一定程度上取代人、帮助人,沟通的信道会有一个巨大的释放。 那么机器翻译究竟能否代替人呢?

宗成庆老师认为,机器翻译近几年的进步很大,可以大幅提高翻译效率,但是机器翻译的运用需要基于场景和任务,机器翻译在一些场景下确实能帮助人,比如旅游问路,但是在某些领域,比如高层次的翻译,要对机器翻译寄予太多的希望还为时过早。

640?wx_fmt=jpeg

张民老师对宗老师的观点表示赞同,他补充道,机器翻译要从学术界和产业界两个侧面看。 学术界一直可以做下去,产业界里机器翻译已经蓬勃发展,产业对学术界技术需求强烈,技术达到了产业低端门坎,产业推动技术发展、技术服务行业。

李长栓老师也认为虽然机器翻译进步惊人,但不会有取代人的一天,其主要原因在于机器翻译质量还达不到专业翻译的要求,单个句子能理解,但通篇没有逻辑。

朱靖波老师同意宗老师和张老师的观点,并举例说,通常假设翻译人员的结果完全正确,而技术想要超过100%去达到101%的正确率,这在真理上是无法超越的。

但是机器翻译在大数据之后蓬勃发展,并非意在取代人类,比如国家知识产权里几百万个专利文档,只能利用机器翻译,非人工所为; 再比如身在国外,人工翻译不可能随时在身边,只能利用机器翻译,这都不能算是代替人工翻译,而是去弥补人工翻译干不了的应用场景。

640?wx_fmt=jpeg

是机器翻译的问题,还是技术尚未成熟?

李长栓老师根据自己的使用经验,归纳了一下机器翻译中遇到的主要问题:

  • 以句子为基础翻译,忽略上下文

中文长句子翻译成英文,需要断成几句,但断开之后,后面的句子就没有主语了,这时候要补充主语。而机器翻译根据什么补充主语成迷。

  • 同一个词出现多个译文版本

比如“诉裁程序”,机器翻译给出了十几个译文版本,这个问题应该可以解决,但是神经网络翻译似乎还没有解决这个问题。

  • 机械处理信息

机器翻译是依赖于形式的转换,遇到歧义时是根据概率决定修饰关系;一词多义也是,即便给了语料库,但是在同一个专业领域,一个词也有很多意思。

640?wx_fmt=jpeg


朱靖波老师对此表示部分赞同:

首先,目前基于句子级翻译系统主要因为具体实现机制的问题,实际上学术界关于篇章级机器翻译有不少研究工作。 基于上下文分析主语省略和指代消解等问题,他更倾向于认为是理解问题而非翻译问题,但可以将两者结合起来实现更好的翻译结果。

其次,有些问题应该分成两个环节来考虑,比如原文错误,人会通过理解对其进行纠正错误后翻译,但是对于机器翻译来说,它认为这是用户想要表达的意思,不能轻易自动修改原文,导致错误的翻译。 这就引出一点,机器翻译是不是和别的技术融合在一起使用的效果更好。

最后,一词多义跟结构歧义的问题是现在做得不够好,不是机器翻译没有能力解决,机器翻译建模的核心就是为了解决这两个问题。

宗成庆老师指出,现在机器翻译的基本假设是,只要收集到足够多样本就行。 但这个假设是有问题的,第一,模型能否学成存疑,第二,不应该只基于样本,还有日常生活经历和常识等。 现在的模型还不够智能,提供足够的样本也无法学成,这也是提出基于知识的机器翻译的原因。

张民老师从学术界的角度分析了机器翻译存在的两个重大问题。 一是篇章问题,翻译本来应该根据上下文理解和逻辑分析,但目前机器翻译建模方法都是句子对句子,在句子层面把翻译看作是纯数学映射,因此深度学习的方法如果遇上语料训练缺失的情况急剧下降。 二是知识和推理驱动,不仅仅是语言学知识,还包括常识知识、领域知识、世界知识等。

640?wx_fmt=jpeg

预训练的提出与背景补充构想

刘洋老师举了一个例子,有高翻在法国为了翻译一本很厚的地铁资料,坐了一周的法国地铁,向乘务员询问各种信息,后来为核电站翻译也是如此,要知道设备的用途,他认为翻译的绝大功夫都是花在对背景知识的理解。

而反观现在的机器翻译,还是基于数据,没有上升到知识。 预训练是一个非常不一样的想法,在单语数据上设计相关问题的学习任务,这样数据几乎是无限的,然后在上面训练模型。

过去一年,预训练的方法基本刷榜了LP任务,普遍提升8-10个点。 但是机器翻译还没有这么好的效果,因为翻译的输出不是简单的分类,而是整个序列,这个序列光输出这个词,就是指数级的数据,同时还要排准数据和阶层,复杂度非常高。

预训练和机器翻译的结合是一个方向,如果提升到基于知识的翻译系统,显然是更好的策略。 目前比较容易想到的是知识图谱和机器翻译结合,但这块没有突破性的进展。

640?wx_fmt=jpeg

李长栓老师也认为专业翻译大部分时间是用来查资料的,他举例,“某一个先生指出,索马里沿海海岛问题,联络小组鼓励通过法律允许根据捕获和释放的做法进行起诉”,看 完之后不知所云,这就是机器翻译的结果。

这种时候专业翻译就会去查阅相关资料,明白之后再进行翻译,“谁谁指出,鉴于一些国家存在先抓后放的做法,某小组鼓励相关国家通过立法允许起诉”。 翻译是一个不断调查、不断获取文字背后意思的过程,表达的过程是在理解基础上自然形成的。

同时李长栓老师也提供了他对机器翻译的优化思路,机器补充知识是机器的优势,它有无穷无尽的语料,翻译某一句话时就可以利用超链接等方式提供相关背景,这样会更有助于翻译的进行。

640?wx_fmt=jpeg

朱靖波老师根据自己的经验列举出好的机器翻译系统需要的三个东西。 一是扩大训练数据规模,提高品质; 二是不断创新技术; 三是根据问题不断打磨,三者缺一不可。 他把机器翻译技术的概念扩大到两个不同对象之间的等价转换,并认为机器翻译与人工智能和NLP不同,机器翻译是一个产业,机器翻译+也是一个产业。

宗成庆老师认为虽然现在机器翻译问题很多,但是不用悲观,从研究角度讲,只有发现问题才能改进问题,问题代表了进步空间。

机器翻译的突破口在于产生新的范式

朱靖波老师认为未来机器翻译的突破口在于产学研形成闭环,应用需求不断推进机器翻译理论和技术研究。

刘洋老师表示,必须要在范式上进行革新,要找到好的策略和方法,充分利用非标注数据。 或者能把数据用好,或者能够从未标注数据中提炼出知识,这两点都非常关键。

640?wx_fmt=png

李长栓老师认为,机器翻译在中英文间的切换还是很困难,但是在新闻语言等领域,机器翻译的质量已经很高。 未来的突破还是要回归到范式或者是思维方法的改变上来,从句子当中抓取意思,再重新表达,这是人做翻译时的思维过程,未来机器翻译也是这样。

宗成庆老师补充道,高质量的机器翻译结果并非一定要达到信达雅,那是人类翻译的终极目标,目前在某些场景的翻译结果已经很好,未来还需要解决更细节的问题。 从某种意义上讲,现在神经网络机器翻译的性能已经接近天花板,未来一定是对翻译模型进行改进和提高,从技术应用和产业发展的角度讲,需要明确具体需求和任务,针对性地做定向开发,这是推动整个技术真正走向实用的比较可行的路线。

张民老师表示,机器翻译本身既是一个科学问题,又是一个工程问题,未来想要突破,科学上的突破一定要从科学技术上产生新的范式; 工程上的突破一定要依赖知识,而知识需要在不同的领域、需要全人类来解决。

编辑:文婧

校对:王欣

640?wx_fmt=jpeg

这篇关于技术界与翻译界的交锋:机器翻译离我们还有多远? | 清华AI Time的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901491

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti