马云爸爸“翻译情未了”? 回顾阿里翻译平台的进击之路!

2024-02-01 07:30

本文主要是介绍马云爸爸“翻译情未了”? 回顾阿里翻译平台的进击之路!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

雷锋网AI科技评论按:在百度翻译,谷歌翻译几乎要霸占整个机器翻译市场时,阿里翻译宣布已成功研发阿里云PAI工具,基于阿里云PAI可以将神经网络翻译训练效率提升5倍,这将大大加速阿里翻译平台的建设。希望阿里翻译以后也能走进我们的生活中。

众所周知,马云爸爸在创立阿里之前是做翻译服务及开翻译公司的。随着近几年阿里的业务不断扩大,全球化战略进程加速,语言问题也成了最基础的需求之一,尤其是跨境电商交易对多语言翻译需求尤甚。此前阿里在语言服务上做过不少努力,包括收购国内最大的人工翻译平台,但这远远不能满足阿里平台上亿级别客户的需求。正当阿里为此感到苦闷时,谷歌的神经网络翻译技术出现了,可以说是为阿里的翻译平台插上了一对翅膀。

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

早在2015年6月份,阿里就已收购国内最大的众包翻译平台——365翻译。当时把阿里翻译平台定位为阿里巴巴的语言服务平台,将瞄准人机结合模式,在语言服务领域进行更多创新。365翻译的加入确实为阿里的跨境电商领域分担了一些翻译业务上的压力。并且在机器翻译领域,和电商相关的几个主要语种中,其翻译的准确率基本和谷歌翻译持平。然而,阿里语言服务平台的野心并不止于此。他们想借助强大的人工翻译团队和电商大数据研发下一代基于神经网络技术的翻译平台。

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

神经网络翻译技术是一种用于自动翻译的端到端的学习方法,该方法能够克服传统的基于短语的翻译系统的缺点,可以将整个输入句子视作翻译的基本单元。从2016年以来的学术界顶级会议上,几乎全是围绕NMT相关的创新工作,之后谷歌、微软等巨头公司相继发布NMT系统。

阿里翻译团队也紧紧抓住这一机会于2016年10月起正式开始自主研发NMT模型,2016年11月首次将NMT系统的输出结果应用在中英消息通讯场景下的外部评测中并取得了不错的成绩,翻译质量有了大幅度提升。

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

但是,由于NMT(神经网络机器翻译)模型的结构复杂,且深度神经网络模型本身的训练过程一般又会涉及很大量的计算,因此NMT系统往往需要较长的训练周期,例如,使用3000万的训练数据在单块GPU卡上一般需要训练20天以上,才能得到一个初步可用的模型。

基于上述问题,2017年2月初开始,阿里翻译团队和阿里云Large Scale Learning(大规模学习)的穆琢团队合作,共同开发支持分布式训练的NMT系统,并于2017年3月底完成了第一个版本的分布式NMT系统。

在2017年4月份的英俄电商翻译质量优化项目中,分布式NMT系统大大提高了训练速度,使模型训练时间从20天缩短到了4天,为项目整体迭代和推进节省了很多时间成本。

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

图:使用不同卡数时,在中英100万训练语料上获得的收敛加速比

PAI是阿里推出全球化战略“NASA”计划后发布的首个重磅工具,可以完全兼容全球主流的深度学习开源框架。同时,底层提供强大的云端异构计算资源,包含CPU、GPU、FPGA。在GPU方面,可灵活实现多卡调度。

除了基于MA的分布式实现,增加GPU卡的数量,有不同的收敛加速比以外,阿里翻译项目组还尝试了其他多种分布式实现方法,也都获得了不同程度的加速效果,包括Downpour SGD、AllReduce SGD以及使用了BMUF(Blockwise Model-Update Filtering, 一种针对Model Average方法的改进方案)策略的Model Average方法。下图中显示,在硬件条件相同,BMUF的收敛效果要比MA(黄色柱状)分布式要好。

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

阿里方面还表示:上一阶段工作主要集中在模型训练阶段的加速策略上,接下来的工作主要分为两方面:一方面是继续挖掘分布式训练的加速潜力,通过系统与算法相结合的优化策略,最大化利用硬件资源,提升收敛加速比,并将分布式优化策略和算法模型本身解耦,实现复杂深度学习模型分布式加速功能的组件化和通用化。

另一方面,需要在现有的服务化方案的基础上,进一步通过模型精度压缩、网络结构简化等方式,在保证模型效果的同时,提高解码速度,降低线上延时,进而增强线上服务能力,节约服务化所需的硬件成本。

阿里云PAI工具使阿里翻译平台的神经网络翻译训练效率提升5倍,确实非常厉害。这将大大加速阿里翻译平台建设之路。正当雷锋网(公众号:雷锋网)编辑想对阿里的翻译质量来一个评测对比,点击阿里翻译平台官网:www.alifanyi.com 却发现功能还未对外开放。

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

后来雷锋网了解到:阿里翻译团队还在破解线上服务处理延时的难题,平台目前还在内测阶段。不过雷锋网编辑还是发现了一个能使用阿里翻译界面的网站。现在就来对百度翻译,谷歌翻译,阿里翻译做一个简单的汉译英测试。

百度翻译:

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

谷歌翻译:

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

阿里翻译:

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

为了能使阿里翻译体现出自己拥有电商大数据的优势,特别选了一句跨境电商领域的句子:自有产品,经营主体自行生产或自有品牌的产品,以及外部采购以自己名义进行销售的产品。从翻译结果对比来看,阿里翻译似乎比百度和谷歌的翻译好一点。接下里进行第二项测试,英译汉测试:

百度翻译

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

谷歌翻译

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

阿里翻译

马云爸爸翻译情未了? 回顾阿里翻译平台的进击之路!

这次阿里翻译似乎表现的不太好,表现最好的是百度翻译。不过从一些关键词的翻译还是能体现出阿里翻译的特色,比如:jurisdiction,翻译为“法域”;buyer和seller翻译为买家和卖家。可以猜测阿里翻译在跨境电商等类似的特定场景下会表现的更好。总的来说,阿里翻译的汉译英表现还不错,但在英译汉的情况下表现的没有谷歌翻译和百度翻译好。

阿里翻译现在还没上线,但凭借自己拥有海量的电商跨境交易数据和强大的365人工翻译团队,再加上阿里云PAI工具对神经网路翻译训练效率的提升,相信不久后阿里翻译会有一个质的飞跃,在机器翻译领域占取一定的市场份额也不是没有可能的。希望阿里翻译平台开放后能给用户一个惊喜。

据雷锋网了解:在阿里巴巴内部,PAI已经被广泛使用。淘宝搜索使用PAI的参数服务器,可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破规模瓶颈。最终实现搜索结果基于商品和用户的特征进行排序。现在,阿里翻译团队还在破解线上服务处理延时的难题,为神经网络机器翻译模型的大规模应用扫除最后障碍。

via雷锋网

本文作者:杨文

本文转自雷锋网禁止二次转载,原文链接

这篇关于马云爸爸“翻译情未了”? 回顾阿里翻译平台的进击之路!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/666524

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

如何解决线上平台抽佣高 线下门店客流少的痛点!

目前,许多传统零售店铺正遭遇客源下降的难题。尽管广告推广能带来一定的客流,但其费用昂贵。鉴于此,众多零售商纷纷选择加入像美团、饿了么和抖音这样的大型在线平台,但这些平台的高佣金率导致了利润的大幅缩水。在这样的市场环境下,商家之间的合作网络逐渐成为一种有效的解决方案,通过资源和客户基础的共享,实现共同的利益增长。 以最近在上海兴起的一个跨行业合作平台为例,该平台融合了环保消费积分系统,在短

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快