一位盲人工程师的谷歌之路

2024-04-08 15:08

本文主要是介绍一位盲人工程师的谷歌之路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

过去20年中,Google工程师莱曼通过编写软件,让自己需要使用的台式机、笔记本、手机、电视……每一部机器都能“开口讲话”


  莱曼简历

  莱曼(T.V.Raman),1966年出生于印度普纳,14岁时因为严重的青光眼而失明。1994年,在康奈尔大学凭借对技术文本的语音识别系统的研发成果,获得应用数学的博士学位。先后在Adobe和IMB从事计算机软件研发,2005年进入Google公司,负责“互联网可访问性”的研发。莱曼在Google的研发成果,包括一套更适于读屏软件工作的Google搜索界面、盲人用的Android手机、带有语音辅助功能的Google TV等。目前,莱曼博士正针对Google基于云计算全力开发的Chrome操作系统,进行可访问性的相关研发。

        Google创新论坛 (7日在北京召开)

  T.V.Raman博士表示,全世界平均每十个人中就有一个失明、失聪或者行动不便的残疾人,google最新的创新技术可以帮助这些世界上最大的少数群体与健全人一样使用互联网,从科技的飞速发展中受益。

  T.V.Raman博士透露,Google已经开发出了数十款具有开创性的可访问技术,让视觉和听觉受损人士能够更方便地访问和浏览互联网,“对于全世界3.14亿4和2.78亿听力障碍人士来说,这些基于web 或手机的可访问技术的创新意义重大。”从智能手机到现代互联网浏览器,人们访问网络的方式正在不断改变。这些全新的网络辅助工具为视觉和听觉受损人士利用互联网、提升生活品质提供了难得的契机。他表示,除了改善互联网的可访问性,这些创新还能从整体上提升所有人的上网体验。例如,结合自动字幕技术与领先的翻译技术,用户将可以克服语言障碍自如观看网络视频。

  “你看不见东西,怎么工作?”

  44岁的Google工程师莱曼(T.V.Raman)每一次与记者见面,几乎都被问到这样的问题。“这很简单,因为我操作的每个机器都能跟我讲话。”每次莱曼都这么愉快地回答。

  12月7日,莱曼在北京Google中国创新论坛上,以“属于每个人的互联网”为题发表演讲,介绍他在互联网“可访问性”(accessibility)方面的研发成果。当天,个子不高的莱曼身着一件干净的浅枣红色衬衫,应该是为这天的演讲特意准备的新衣。脸上流线型的棕红色时尚墨镜格外引人注目,看上去很像个摇滚明星,而不是平时整日伏案编程、讲话腼腆的软件工程师。

  “互联网应该属于每个人,但目前全世界仍然有3.14亿视力障碍和2.78亿听力障碍人士被隔离在网络之外。我努力研究的方向,正是提升Web或手机对这些用户的可访问性……”莱曼说。

  过去20年,莱曼通过编写软件,让自己要使用的台式机、笔记本、手机、电视……每部机器都能“开口讲话”。

  2005年,莱曼加入Google。一个盲人为什么可以在这样一个挤满了精英和天才的公司拥有一席之地?

  让机器说话

  莱曼出生于印度普纳,14岁时患上严重的青光眼症,最终完全失明。17岁时,莱曼开始学习盲文。

  莱曼虽然看不见,但是天赋极高。他对语言格外敏感,可以讲英语、法语、德语和若干种印度语在内的八种语言。他一直酷爱数学,对与数字有关的猜谜智力游戏最为着迷。他刚刚失明那几年,最喜欢玩魔方,练就了平均在30秒内就能复原魔方六个面的绝技。

  1987年,莱曼在印度普纳一所大学读完数学专业本科后,选择了孟买的印度科技学院攻读计算机科学硕士课程。从本科到硕士,他靠志愿者帮助阅读所有非盲文信息,得以完成所有学业。

  但是,他强烈期待主动利用技术来弥补自己的缺陷,最大限度地接近正常人方便生活的程度。

  三年后,莱曼顺利毕业,离开印度,到美国康奈尔大学从事计算机科学和应用数学的博士课题研究。其间,他完成了自己第一项针对盲人或弱视力用户拓展计算机可访问性的基础软件开发——Audio System For Technical Readings(ASTER)。这是一种可以将技术文本生成语音信息的计算机系统。

  这套计算机语音系统的缩写——ASTER,也是莱曼第一只导盲犬的名字。这条黑色的拉布拉多犬陪伴他整整十年,因皮肤癌去世。出于怀念,莱曼还建立了介绍ASTER生平的网站。

  “完成博士课题的过程中,我学到的第一个东西就是,仅仅让屏幕上显示出来的文字变得有声是不够的。”莱曼告诉本刊记者。

  他意识到屏幕上提供的可视信息很丰富,比如文字的大小、字体的区别等等,都有很多意义。因此整个语音阅读系统,除了能对文本解读,也应该注意怎样体现文字之外的更多信息。

  “如果我能看得见东西,恐怕就不会去考虑这些失明的人的需求,因此就不会想去编写这些辅助他们访问计算机的软件。”

  莱曼表示,失明虽是件坏事,但让他有机会意识到某些正常人无法想象的用户需求,比如让所有机器都有机会“开口说话”。“作为一个工程师,你会有先天条件接触到各种领先科技,你有机会完成很多人可能感觉不可能实现的任务。”莱曼对本刊记者说。

  工作在Google

  莱曼离开康奈尔大学后,曾先后在Adobe和IBM从事研发工作,研究从语音识别角度解决计算机可访问性。2005年,在朋友的鼓励建议下,他进入Google。“选择Google的原因,是这里可以让我接触和帮助到更多用户,有机会了解他们的实际需求。”莱曼说。

  进入Google后,莱曼首先开发了一套适用于配合读屏软件工作的Google搜索界面。此后,他便投入到对移动平台Android操作系统和Chrome浏览器的可访问性开发。

  “我每天早上8点搭公司班车去办公室上班,单程约45分钟。我们班车上有无线网络,我一上车就能打开笔记本电脑开始工作。”莱曼说。

  现在,陪伴莱曼的是他的第二只拉布拉多导盲犬——ASTER二世,13岁。它甚至拥有一张印有“大头贴”的通行证,可以在Google办公楼里通行无阻。

  2007年,只有23岁的华裔工程师查尔斯•陈加入到莱曼研发小组,并成为他形影不离的朋友。“莱曼很聪明,而且平易近人,”他评价莱曼说。别的工程师能做的,对莱曼来说也都没有问题,所以与他合作的过程,相比与别的工程师其实没有任何不同。

  莱曼用自己研发的一款Emac Speak软件读取电邮,其语音速度是正常语速的3倍,可以帮助莱曼达到正常人用眼睛浏览文字相同的信息读取速度。

  手机多智能

  “跟写作和绘画相似,工程师工作的精彩之处,也是从无到有地创作一个事物。”年轻的查尔斯•陈告诉本刊记者,他被莱曼的课题深深吸引,因为可以看到自己的发明创造帮助人们完成那些原本看似不可能完成的任务。

  莱曼透露,Google目前已开发出数十款具有开创性的可访问技术,帮助视觉和听觉受损人士更方便地访问和浏览互联网。比如TTS(Text To Speech)语音合成功能,是由莱曼小组开始的。

  Google负责Android研发的工程师也意识到,TTS不仅只对残障人士有价值,对需要不看手机屏幕就能完成操控的用户,也很有价值。特别是在GPS定位产品中加入TTS应用后,用手指触摸地图,那些被触及区域的相关信息,就能用语音形式被提示给手机用户。

  “GPS的语音提示功能,可以给你方向——向左或向右,而我的研发成果是帮助盲人在触摸手机地图的过程中,开发对位置的信息理解。”莱曼说。

  他举起一部手机演示:随着手指移动,手机可以用语音方式告诉用户当前所处位置——街道名称,正在前进的方向,以及步行距离。用户在前进过程中,还会不断被提醒已经过了哪些建筑物。

  “普通的GPS不会告诉你这些,因为正常人都可以看到。”莱曼说。

  Android 1.6版本中首次植入了TTS功能,并作为一个重要的新功能隆重推出。此后,TTS开放API接口,鼓励第三方公司制作针对TTS的不同版本的语音引擎,在Andriod软件商城中销售推广,以实现多语种的信息语音转换。

  莱曼告诉本刊记者,现在有越来越多的信息已被转移到网上。如何在复杂的信息环境下更精确识别有效信息并转换为语音,是他目前研发的主要课题。

  未来在移动互联网时代,一部手机到底可以多么智能?

  “作为一个工程师,我希望有朝一日可以通过技术来实现——当我把一本书扫描成电子版,或者我用手机上的数码相机拍出一张照片,我的电子设备都可以帮我读出它们看到些什么。你想这将会多么精彩——等于说你将有机会无限接近于一种复明的状态!”这是莱曼给我们的答案。

这篇关于一位盲人工程师的谷歌之路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/885936

相关文章

计算机视觉工程师所需的基本技能

一、编程技能 熟练掌握编程语言 Python:在计算机视觉领域广泛应用,有丰富的库如 OpenCV、TensorFlow、PyTorch 等,方便进行算法实现和模型开发。 C++:运行效率高,适用于对性能要求严格的计算机视觉应用。 数据结构与算法 掌握常见的数据结构(如数组、链表、栈、队列、树、图等)和算法(如排序、搜索、动态规划等),能够优化代码性能,提高算法效率。 二、数学基础

全英文地图/天地图和谷歌瓦片地图杂交/设备分布和轨迹回放/无需翻墙离线使用

一、前言说明 随着风云局势的剧烈变化,对我们搞软件开发的人员来说,影响也是越发明显,比如之前对美对欧的软件居多,现在慢慢的变成了对大鹅和中东以及非洲的居多,这两年明显问有没有俄语或者阿拉伯语的输入法的增多,这要是放在2019年以前,一年也遇不到一个人问这种需求场景的。 地图应用这块也是,之前的应用主要在国内,现在慢慢的多了一些外国的应用场景,这就遇到一个大问题,我们平时主要开发用的都是国内的地

《计算机视觉工程师养成计划》 ·数字图像处理·数字图像处理特征·概述~

1 定义         从哲学角度看:特征是从事物当中抽象出来用于区别其他类别事物的属性集合,图像特征则是从图像中抽取出来用于区别其他类别图像的属性集合。         从获取方式看:图像特征是通过对图像进行测量或借助算法计算得到的一组表达特性集合的向量。 2 认识         有些特征是视觉直观感受到的自然特征,例如亮度、边缘轮廓、纹理、色彩等。         有些特征需要通

未雨绸缪:环保专包二级资质续期工程师招聘时间策略

对于环保企业而言,在二级资质续期前启动工程师招聘的时间规划至关重要。考虑到招聘流程的复杂性、企业内部需求的变化以及政策标准的更新,建议环保企业在二级资质续期前至少提前6至12个月启动工程师招聘工作。这个时间规划可以细化为以下几个阶段: 一、前期准备阶段(提前6-12个月) 政策与标准研究: 深入研究国家和地方关于环保二级资质续期的最新政策、法规和标准,了解对工程师的具体要求。评估政策变化可

如何成为一个优秀的测试工程师

链接地址:http://blog.csdn.net/KerryZhu/article/details/5250504 我一直在想,如何将自己的测试团队打造成世界一流的团队?流程、测试自动化、创新、扁平式管理、国际标准制定、测试社区贡献、…… 但首先一点是明确的,就是要将每一个测试工程师打造成优秀的测试工程师,优秀的团队必须由优秀的成员构成。所以,先讨论“如何成为一个优秀的测试工程师”,

Xiaojie雷达之路---雷达间干扰(二)置零法对干扰抑制

Hello,大家好,我是Xiaojie,欢迎大家能够和Xiaojie来一起学习毫米波雷达知识,本篇文章主要是介绍一下时域置零对雷达间干扰抑制的效果,一起来看看吧!!! 文章目录 前言正文原理性介绍代码 前言 在上一篇文章中介绍了BPM对雷达间干扰抑制的方法,而本篇文章是采用时域置零的方法进行雷达间干扰抑制 效果图: 视频如下: 雷达间干扰 正文

文心快码前端工程师观点分享:人机协同新模式的探索之路(三)

本系列视频来自百度工程效能部的前端研发经理杨经纬,她在由开源中国主办的“AI编程革新研发效能”OSC源创会·杭州站·105期线下沙龙活动上,从一款文心快码(Baidu Comate)前端工程师的角度,分享了关于智能研发工具本身的研发历程和理念。 以下视频是关于【人机协同新模式的探索之路】的观点三。 人机协同新模式的探索之路(三) 经纬说: 那么第三个阶段,我们会进一步的去探索

【解决bug之路】npm install node-sass(^4.14.1)连环报错解决!!!(Windows)

有关node-sass的深入分析可参考:又报gyp ERR!为什么有那么多人被node-sass 坑过? 主要有如下三方面错误,请自查: 1.node,npm版本需与node-sass版本匹配,像node-sass(^4.14.1)就得node 14.x版本才可以,node 16不行 gyp ERR! build error15 gyp ERR! stack Error: `

信息安全工程师模拟测试题

信息安全工程师:信息安全工程师证书属于软考中级资格证书之一,为了适应“十三五”期间计算机软件行业发展需要,满足社会多方对信息安全技术人员的迫切需求,信息安全工程师在2016年下半年首次开考,目前一年仅考一次。 信息安全工程师模拟测试题 一、基础知识二、软件应用 信息安全工程师 属于《国家职业资格目录(2021年版)》目录中的证书,通过考试将颁发由人社局和工信部盖章

监理工程师职业资格考试

根据住房城乡建设部、交通运输部、水利部、人力资源社会保障部关于印发《监理工程师职业资格制度规定》《监理工程师职业资格考试实施办法》(建人规〔2020〕3号)文件精神,监理工程师职业资格考试实行全国统一大纲、统一命题、统一组织。 一、实施部门 住房城乡建设部、交通运输部、水利部、人力资源社会保障部。 二、科目介绍 监理工程师职业资格考试设《建设工程监理基本理论和相关法规》《建设工程合同管理》