漫画翻译、嵌字 AI,东京大学论文被 AAAI’21 收录

2024-04-13 21:18

本文主要是介绍漫画翻译、嵌字 AI,东京大学论文被 AAAI’21 收录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:HyperAI超神经本文约2000字,建议阅读5分钟为你介绍一项关于漫画文字自动翻译的研究项目。

关键词:机器翻译 情感识别 漫画 AI

内容概要:一项关于漫画文字自动翻译的研究,引发了热议,由两位东京大学博士组成的 Mantra 团队发布了一篇论文,目前已被 AAAI 2021 收录,该 Mantra 项目旨在为日本漫画提供自动化的机器翻译工具。

最近,由东京大学 Mantra 团队、雅虎(日本)等机构联合发布的《Towards Fully Automated Manga Translation 实现漫画全自动翻译》(论文地址https://arxiv.org/abs/2012.14271)论文,引发了学界和二次元界的关注。


如图所示:左一为日文原版,

自动化输出英文版(右二)和中文版(右一)

Mantra 团队成功地实现了将漫画的中的对话、气氛词、标签等文字自动识别,并做到了区分角色、联系上下文,最后将翻译文字准确替换、嵌入气泡区域。

有了这个翻译神器,估计翻译组、追漫的小伙伴们都该偷着乐了。

发论文、公开数据集、商业化一条龙

在科研方面,目前该篇论文已经被 AAAI 2021 接收,研究团队还开源了一个包含五部不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,所组成的翻译评估数据集。

OpenMantra 漫画翻译评估数据集

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

在产品化方面,Mantra 计划上线封装好的自动翻译引擎,不仅面向出版社提供漫画的自动化翻译与发行服务,也会发布面向个人用户的服务。

下面是我们从 Mantra 官方推特上选取的日漫《周边男子》的部分翻译成果,这部多格、轻耽美风格的漫画,以生活常用的数码设备拟人化为背景,充满欢乐与基情:

滑动查看《周边男子》日文原版

及自动化机器翻译的中英文版本

识别、翻译、嵌字,一步也不能少

具体的实现步骤,Mantra 研究团队在论文《Towards Fully Automated Manga Translation 实现漫画全自动翻译》中进行了详细的解释。

第一步 定位文字 

在实现漫画自动化翻译的第一步,就是提取文字区域。

但由于漫画的特殊性,来自不同角色的对话、效果拟声词、文字标注等等,都会展现在一幅漫画图片里,漫画师会用气泡、不同的字体、夸张的字体来展现不同效果的文字。

漫画中的手绘、异形文字的识别成为了难点

研究团队发现,由于漫画中的这些各种字体和手绘样式,即使使用最先进的OCR 系统(例如 Google Cloud Vision API),在漫画文本上的表现很不理想。

因此,团队开发了针对漫画优化的文本识别模块,通过检测文本行和识别每个文本行的字符来实现对异形文字的识别。

第二步 内容识别 

在漫画中,最常见的文字就是角色之间的对话,对话文字气泡还会被切割成多块。

这就要求自动化机器翻译需要准确区分角色,还得联系上下文注意主语的衔接、避免重复,这都对机器翻译提出了更高的要求。

点击放大查看场景分类、文本顺序和情感识别流程

在这一步中,要通过上下文感知、情感识别等方式来实现,在上下文感知中,Mantra 团队用了文本分组、文本阅读顺序、提取视觉语义三种方式,实现了多模态的上下文感知。

第三步 自动嵌字 

Mantra 这一自动化引擎,不仅能够区分角色、联系上下文准确翻译以外,还很好地解决了漫画翻译中的耗时最久、人力成本最高的环节——嵌字。

在嵌字这一环节中,首先要擦除嵌字区域,再进行嵌字,由于日文、中文、英文字符的形态、拼写、组合、连读方式都不一样,所以这一环节的难度也尤其大。

在这一步中,需要进行:页面匹配→检测文本框→文字气泡的像素统计→拆分连接的气泡→语言间的对齐→文字识别→上下文提取。

实验: 数据集与模型测试 

在论文中的实验部分,Mantra 团队提到目前并没有包含多种语言的漫画数据集,所以他们创建了 OpenMantra(已开源) 和 PubManga 数据集,其中OpenMantra 用于评估机器翻译,包含 1593 个句子、848 个场景画面和 214 页漫画,Mantra 团队已经请专业翻译人员将数据集翻译成英文和中文。

OpenMantra 漫画翻译评估数据集

(同上文)

论文地址:https://arxiv.org/abs/2012.14271

数据格式:带注释的 JSON 文件和原始图像

数据内容:1593 个句子、848 个场景、214 页漫画

数据大小:36.8 MB

更新时间:2020 年 12 月 7 日

下载地址:https://hyper.ai/datasets/14137

PubManga 数据集用于评估构建的语料库,该数据集包含注释:1)文本和框架的边框;2)日语和英语的文本(字符序列);3)框架和文本的阅读顺序。

为了训练模型,团队准备了 842097 对日文、英文版的漫画页面,共 3979205 对日语-英语的句子。具体的方法可以阅读论文,最终的模型效果评估由人工完成,Mantra 团队邀请了五位专业的日文-英文翻译人员,以专业的翻译评估程序给句子打分。

项目背后:有趣的灵魂一起学习

目前该篇论文已经被 AAAI 2021 收录,产品化的工作也在稳步推进中,从 Mantra 团队的推特中,我们看到已经有不少漫画成功使用了 Mantra 进行自动化机器翻译。

这样的宝藏项目,是由两位东京大学的博士生完成的,CEO石和祥之介 (Shonosuke Ishiwatari),CTO 日南凉太(Ryota Hinami) 同在东京大学博士毕业,在 2020 年创立了 Mantra 团队。

Mantra CEO 石和祥之介(左)和 CTO 日南凉太(右)

CEO 石和祥之介,是东京大学信息科学系本科 2010 级入学,博士毕业于 2019 年。他主要专注于自然语言处理领域的研究和开发,包括机器翻译和字典生成,也是本篇论文的第二作者。

值得一提的是,石和祥之介的研究经验丰富,不仅曾经在 CMU 交流访学,还曾于 2016-17 年在位于北京的微软亚洲研究院实习半年,当时他在MSRA 首席研究员刘树杰团队从事 NLC (Natural Language Computing)  自然语言计算的研究。

CTO 日南凉太石和祥之介同年入学,专注于图像识别领域。在 2016-17 年同期和石和祥之介,一同在微软亚洲研究院实习。

这样的一对技能互补的小伙伴,完成了 Mantra 的大部分工作,是不是从发量到成果都很让人羡慕呢?

如果想了解更多关于 Mantra 的信息,大家可以访问论文(https://arxiv.org/abs/2012.14271)、项目官网(https://mantra.co.jp/)或下载数据集(https://hyper.ai/datasets/14137),进行进一步研究。

编辑:于腾凯

校对:林亦霖

这篇关于漫画翻译、嵌字 AI,东京大学论文被 AAAI’21 收录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901237

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close