博士“下矿井、进车间”,站在华为云盘古大模型背后的人

2023-11-03 07:10

本文主要是介绍博士“下矿井、进车间”,站在华为云盘古大模型背后的人,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ITValue

485b0d311719984d6aaad08cded7cda6.jpeg

做行业大模型,首先要尊重行业。

  ITValue

务实点看,大模型要先走向行业;再务实点,华为云直接将博士们推向了一线。

盘古大模型初见真章是在2021年4月,NLP大模型与CV大模型正式发布;此后,科学计算大模型、药物分子大模型、矿山大模型和万众瞩目的气象大模型等纷纷浮出水面;再到此前7月7日,华为开发者大会发布盘古大模型3.0,9月21日华为全联接大会发布盘古汽车大模型和医学大模型,华为云逐渐将盘古大模型在各行业的布局徐徐展开。

可是,做B端市场不是件容易的事情,贴近生活的大语言模型虽说能够满足丰富的日常交互,但其本身的语料内容缺乏不同行业的专业背景,在工作实用性上难以深入;金融、医疗、生物、气象等垂直领域真正能触发大模型潜力,需要大模型设计者了解特定的行业,而行业术语、行业逻辑、行业场景等,是大模型算力、算法技术之外的天地。

行先于言,过去几年,华为云把一批又一批博士、专家、科学家派到客户现场,走田头、跑工地、下矿井、进车间,目前已帮助超过1000家企业落地智能化创新项目。今年,华为云还计划将200+博士送到一线。长远来看,做出实用、好用的行业大模型,了解行业才是先见。

01

隔行如隔山

行业大模型是“行业”+“大模型”,实为两个不同的专业与专业的结合碰撞。

好用的行业大模型首先是要懂行业,最终的产品需要运行在每个车间、矿井、田间地头,使用者说好,才算实现大模型落地这一关。将博士送往一线,是华为云做出的最朴实的决定。

在所有前往一线的博士们印象中,“隔行如隔山”的感受在预想之内,但还是来得有些“生猛”。华为不缺擅长大模型的专业技术人才,也不缺来自各行业的一线经验,但每个行业都有自己的专业术语和独特业务,与博士们本职的技术研发工作相比,知识壁垒的确存在。尤其在行业体系更复杂的自动驾驶、金融、重工业等领域,这些阻隔更为强烈。

先拿自动驾驶来说,华为云EI人工智能算法专家金博士对于下一线有着颇多感悟。

“初次进入自动驾驶行业,感受到的是其技术链条非常长,行业体系庞大。”金博士直言。原来在纵深的自动驾驶行业技术链条中,只硬件层面就包含了车辆硬件、视觉和雷达等多传感器的选型、传感器的布局安装等细节;软件层面则分类更多,围绕数据与算法,包含了数据采集、数据清洗、数据标注、感知算法、定位算法、决策规划和执行控制等等。而每一个模块,都有各自对应的专业团队。

所谓隔行如隔山,在众多专业模块中,找到华为云盘古大模型在自动驾驶行业的切入点,则是最难的业务问题。破题的火苗,出现在金博士与客户共同的“封闭会战”期间,“那段时间经常是6点多出发的高铁去上海,有一次我坐在位置上闭上双眼,脑海里冲击着完全不同的两个画面:早晨起床看窗外仅仅亮着那么三四盏灯,和几小时后淹没在一杯一杯水中的密集交谈、连带着高速头脑风暴,一根根头发都立了起来。”

c1689e1970fc31985d8bbaa43071bd93.jpeg

需要高强度沟通的客户很多,传统车企、造车新势力、自动驾驶科技公司等不同类型行业客户,都在落地大模型所要沟通了解的范围之中,这些行业在一线的业务问题或多或少都有不同。不过,对金博士来说,行业多也好理解难也罢,想要创造出好用的东西,理解都是第一步,但总要走这第一步。

比对、总结、与思绪纷飞,沟通的成功让大家落实了切入方向——对付影响高阶自动驾驶落地的关键因素:各类不常见但不断出现的“长尾问题”,因为如何加速长尾场景的数据闭环,是自动驾驶量产的关键。

大模型时代,自动驾驶行业的突破依赖高质量、高场景覆盖度、精细标注的数据。而现在的问题恰恰是:当前路采数据采集效率低、成本高、corner case数据难获取,场景覆盖率低。一个包含视觉、雷达等多传感器的10秒clip,采集标注等成本却达几百元,而自动驾驶需要的,是几百万小时的行驶数据。下到了一线后,金博士才如此真切地体会到了自动驾驶数据的价值。

科学家费曼说“只要我不能创造的,我就还不理解”。也正是在博士们一线的深入体会与理解中,盘古汽车大模型能够生成多种Corner case场景,让自动驾驶遍历各种复杂场景变成可能。

通过应用盘古大模型,自动驾驶的Corner Case可以实现天级的闭环,显著提高数据闭环效率。基于盘古大模型的场景生成能力,企业可以构造出雨天、下雪天的场景用于模型的训练,不必等待特殊天气才能进行数据采集。此外,20%的路测工作也可以通过大模型的场景生成来实现,缩短了里程积累的周期。大模型能够快速地构建出场景丰富的样本,而且对样本的数量要求也只有以前小模型的十分之一。

02

山外有山

只是山外还有山,除了打破行业间专业壁垒的难题,横亘在大模型设计者与使用者之间的,还有来自一线客户的真实需求,这往往与预想中不一致。做行业大模型,首先要尊重行业,其次要尊重来自一线的从业者的经验。

参与盘古金融大模型研发的谢博士感受尤为深刻:“深入一线后,我们对金融行业客户现场交付有了新的认知,客户侧存在不同的业务线、不同背景的人,因此他们对大模型的需求和偏好是多样的,甚至有时,需求的特点是相对的。”

比如,宣传部门希望大模型生成的内容要更发散,更有创意性,能够帮助他们打开思路;但授信部门要撰写授信报告,则要求大模型生成的内容更客观、更精确、更尊重原文。“引导客户群说出他们在工作中遇到的难点与真实需求是必要的。”谢博士说到。

0ea486e987d576d9d8318314805091bc.jpeg

在一线,谢博士收集了宣传部门人员在撰写宣传文案会考虑宣传的对象特点作为人设,比如以年龄段来区分,针对老人、中年人、大学生等分别对应的写作文案的特点,将这些信息加入到prompt中,就能很好提升大模型生成效果。针对授信部门的人群,发现他们在撰写过程中经常引用财报等专业性较高的材料,那么在大模型书写过程中,就需要提示大模型参考特定材料,书写与原文保持一致。也正如此,不同场景的需求都在盘古金融大模型中有了精细划分。

而深入沟通,除了能够了解最真实的业务需求外,还聊出了更多业务之外的想法。祝博士主要负责了金融大模型的落地,更专注于盘古大模型的效果评测与效果提升。和银行员工的交流,是他在一线活动中印象最深刻的事。

大模型成风的那段时间,“我会不会失业?”“会不会有一天,我将被技术终结?”这些飘零的话语深深叩问着职场打工人的心。是拥抱技术还是换个姿势拥抱技术,大家深知,其实我们没有选择权。但当这看似遥远的事被真正考虑在企业发展中,还是会有些不可思议。

针对人力密集型场景,也就是大模型提质增效最具想象的场景,有银行表示并不希望员工被大模型取代,而应该让大模型提升服务质量与服务效率,释放员工做更多更高价值的事。基于此想法,华为云则联合该银行,梳理了大模型在企业应用的人员转身实践。

同样在银行一线驻扎的祝博士说到:“这次交流也驱动我们梳理了一整套企业落地方法论,我们想做到授人以渔,让企业、企业员工深入拥抱新技术,主动应用大模型解决业务痛点。”通过联合实践,他们形成了一系列培训课程,从产品需求洞察、prompt调优、微调、大模型运营等各个维度,并和远程银行、UX设计、网点等部门合作,建立联合项目组,目的是驱动企业人员能力提升。也或许,这才是一线工作人员的真实需求。

最终,付出得到的回报也让祝博士十分开心。在当前已经上线的场景中,客户把网点文档问答包装成了该银行的“爆款”场景,10月时计划全行推广,此外,因为应用效果比较好,他们还计划横向推广到信贷、金融、内审等场景。

03

见山

过去几年,通过把一批又一批博士、专家、科学家派到客户现场,直面难题、解决难题。除了上文提到的金博士、谢博士、祝博士的经历,华为做过的难事不算少数,也赢得了许多业内好评。

在矿山领域,有博士被送到了山东能源集团,下到矿井实地调研,目的是为了解决提升精煤产率这一困扰业界多年的难题。精煤不仅低碳环保,而且经济价值更高,广泛应用于电力、钢铁、化工等领域。2022年,我国原煤产量达到45.6亿吨,但精煤产量仅为4.9亿吨。

只是,洗选煤生产的工艺参数涉及100多种,传统洗选密度控制依靠人工经验确定,无法及时准确地通过数据分析对分选密度进行实时调整,容易导致指标波动,造成精煤回收损失。

4aea7ed388e771a93b3ea884ba0a3a6b.jpeg

基于实地考察的结果,最终博士们提出通过盘古预测大模型能力,对不同煤层、不同季节、不同灰分(煤炭完全燃烧后余下的残渣)的原煤煤质数据和工艺参数智能分析,同时,基于华为自研的图网络融合技术对多个最优算法进行堆叠、动态调优,能够精准预测精煤产品的灰分值,从而实现重介选煤分选密度的精准控制与动态调整。在这一新方案下,山能济二煤矿每年能多产出8000吨精煤。而如果能将这个能力推广到全国,可以让每个煤矿每年平均多产出2000吨精煤。

推动“数智山能”之外,华为云的博士们通过将大模型技术赋能药物分子及医疗,也让一线的医疗科研按下加速键。

西交大一附院刘冰教授团队发现世界40年来首个抗生素,就是在盘古药物分子大模型助力下实现的,目前该项目已进入临床阶段,价值达到了1亿美元。据测算,通过盘古药物分子大模型,可以将先导药物研发周期缩短至1个月,研发成本降低70%。

负责华为科学计算与生物医疗领域产品的刘星星博士说到:“我本身是生物医疗领域的博士,五年前毕业之后,看到华为在生物医疗领域投入的决心,以及华为在AI、大模型的整体规划吸引了我,因此我决定,那就加入到华为。”

在自己的科研愿景下,刘星星博士也收获到了想要的东西:“当时有个客户反馈说,和其它大厂也聊了很多,但最终发现华为最懂他们,我觉得这是最让我感到自豪的事情。我们长期深入一线的功夫没有白费。”

华为云对待科研的务实做法,对于一批真正想实现科研落地的人才来说,就是安抚躁动梦想的解药。

一作发Nature的华为工程师恺峰,是清华大学钱学森力学班2016级本科毕业生。7月6日,恺峰和同事们的论文《三维神经网络用于精准中期全球天气预报》发表于Nature杂志,报告了业内“首个在中长期气象预报上精度超过传统数值预报方法的AI模型”。这也是近年来中国科技公司首篇作为唯一署名单位的Nature正刊论文。

回忆起盘古气象大模型,时间穿回2021年底,恺峰在一次偶然的机会中发现中期气象预报可能是AI很好的运用场景。当时,他半开玩笑半认真地和同事说:“我准备做一个很大的项目,用2000TB的历史气象数据去构建一个AI模型,要是成功了那么全世界气象预报的范式都要被彻底改变。”

当时,摆在面前的有三个问题,第一个是天量的数据,第二个是不均匀的经纬度网格和扭曲的等压面,第三个则是不断累积的迭代误差。但在解决问题的过程中,不断出现了与业界既定看法相悖的想法。

如何处理欧洲已经开放的2000TB的全球气象数据?恺峰首先选用了少量的数据作诊断性实验,但与大部分气象专家的看法相反,经过试验,他发现仅使用位势、温度、湿度、风速四种状态就可以很好地建模大气的演变,同时垂直高度上的层数对精度的影响很小。

此外,为了减少预测的系统误差等大部分类似问题,之前都是用自回归的方式来解决。但实践表明,这一方式用来做气象预测有巨大的弊端——自回归学到的结果不可避免的平滑,所有的极端天气都被忽略了。

“我试了很多很多方法去解决这个问题,包括很多正则类方法,效果都不尽人意。最后解决这个问题的是一个非常简单的小技巧:我把不同时间的预测模型分开了,用24小时的模型去做天级的预报,6小时,3小时,1小时的模型去做更细致的预报,这样来尽可能地减少迭代次数。这也让我们成为了唯一可以预测逐小时天气的AI模型。”恺峰总结到。

此前的实习,恺峰做的是纯粹的科研,但这是让他觉得可惜的事情:“两篇神经网络结构搜索相关的课题都离落地比较远,所以比较缺乏成就感。记忆里非常多种idea,最终也没有找到实际场景可以很好的运用。当时感觉‘人生中第一次做科研’,却没有很好的feedback。”

而进入华为之后的落地科研,让恺峰怀抱着激情的同时,真正了解到AI落地与AI科研之间的区别——科研的时候只需要在“imagenet数据集”上精度高一两个点就可以了,但是落地的场景很碎片化,数据标注流程和质量要自己控制,算法调优周期要尽可能的短,样本数目比较少但是场景特别多。不过,“落地场景一般做起来都比较快乐”,恺峰说到:“对我而言,更困难的地方是写各种文字材料,还有就是场景很碎片化,我更想做一些‘价值更大’的问题。”

04

成为山

华为鼓励博士、科研人员在一线做难事的同时,也在他们身后担当起了靠山作用。对待科研,华为确实是慷慨大方的。恺峰说到,在进行气象大模型的训练中,他申请了两个月的AI算力。在顺利的过程推进下,他们AI模型精度超过了全球最好的数值方法,例如,盘古对于台风路径预测的准确度比之前最好的欧洲中心预报还要高20%。

对内慷慨,对外,华为希望共建一个大模型生态。其实,这也是在推进一线工作之后所要走完的最后一公里,让大模型继续下沉。

以云服务的方式提供昇腾AI算力,也解决了客户自训练大模型的难题。

毕竟大模型训练依赖极大算力消耗,由于高端GPU芯片出口限制等问题,大模型产业发展需要持续供应、自主创新的AI算力。而昇腾AI云服务,可以实现从算力、芯片使能(CANN算子库)、AI框架(MindSpore AI计算框架)到AI平台(AI 开发生产线ModelArts)的自主创新。

博士们冲在前线做难事、解难题,昇腾AI云服务的澎湃算力做靠山,华为遥遥领先的其实是走出科研,走回一线的实践能力。

回头看看,那些难以跨过的山峦,也在攀越起伏的决意中,渐行渐远。

往期周报回顾

2b9d5b7ceb95be1a420758dd48b43b4f.jpeg

北证指数周内涨幅一度超7%……

b0c1b71d639fb0b1367c6c8cca5a76f5.jpeg

阿里新任CEO明确两大战略:用户为先……

*温馨提示:喜欢ITValue公众号的小伙伴注意啦!根据公众号推送新规,请将ITValue设为“星标”,这样才能第一时间收到推送消息,已设置的小伙伴还需要重新设置“星标”

我知道你在看哦

b07e525c0b50f8cbe522b72a4b54c19d.gif

这篇关于博士“下矿井、进车间”,站在华为云盘古大模型背后的人的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/336478

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号