2457亿,全球最大巨量模型“源”发布:怎么用,挑战在哪儿?

2024-02-05 01:59

本文主要是介绍2457亿,全球最大巨量模型“源”发布:怎么用,挑战在哪儿?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

f7923d4b96550b1c28653da2ebbbb6ae.gif 关注ITValue,看企业级最新鲜、最价值报道!

8d4be96ca12f7a655604ff7e326ad9cc.png

图片来源@视觉中国

浪潮此前发布的巨量模型源1.0引起了业界专家的关注。据说该模型参数规模达到了2457亿,训练采用的中文数据集达5000GB。相比OpenAI 去年推出的GPT-3模型(1750亿参数量,570GB训练数据集),源1.0参数规模领先40%,训练数据集规模领先近10倍。因此,浪潮源1.0也被称为全球最大规模的人工智能巨量模型。

在源1.0发布当日,浪潮还同步举行了一个研讨会,来自国内自然语言理解领域的近20位专家、院士参加研讨,就巨量模型的应用前景与挑战都发表了个人看法。

源1.0是什么?怎么用?

就像上文提到的,源1.0是用5000GB的中文数据集训练而来,所以源1.0本质上是一个偏向于中文语言的巨量模型,且其未来应用的突破点也主要会在NLP(自然语言处理)领域进行先期切入。

在传统的人工智能语言模型训练中,由于计算资源等各种条件限制,业界的语言模型往往针对某个小场景,通用性不强。而由于巨量模型采用的数据集够大、形成的参数规模也够大,最终模型的通用性也会比较高,是真正的“见多识广”。

但由于巨量模型在前期训练的过程中需要消耗的计算资源太大,所以一般业界做这种尝试的并不多。此前,全球已经推出千亿级巨量模型比较典型的是OpenAI 的GPT3模型,其参数模型达到了1750亿。

据了解,源1.0参数量高达2457亿,训练采用的中文数据集达5000GB,相比GPT3 1750亿参数集、570GB训练数据,参数集规模提升了40%,训练数据规模提升近10倍。

巨量模型训练出来了,有什么价值,亮点在哪儿?我们拿AI作诗举例。

一般情况下,让人工智能写一首诗之前,首先要有一个学习了大量唐诗宋词的模型出来,人工智能才能自动填词。但是由于这个小模型只学习过唐诗宋词的语料,如果撰写文章,这类模型则很难完成。巨量模型就不同了,由于它提前学习的海量预料中包含了唐诗宋词、各种文体作文、甚至还是有明星八卦,所以无论问它什么,它好像都能从容作答。

现场,浪潮人工智能研究院首席研究员吴韶华展示了它为源1.0的设置的指代、推理、理解等多方位的问题,比如完形填空,让AI在空白处填写正确的成语,它回答的都分毫不差。吴韶华也说,除此之外,巨量模型在写300-500字的主题创作上,也能够顺利完成。也就是说,有了巨量模型,在不久的将来,让成熟的文档自己写稿的日子或许真的指日可待了。

挑战在哪儿?

在过去4个月里,一群浪潮AI专家,把近5年互联网内容浓缩成2000亿词,让AI在16天内读完,终于炼成了“源1.0”。源1.0的成果得到了在座专家的一致肯定。不过对于源1.0的应用以及后续迭代上,大家也都毫不讳言。其中,受到关注最多的问题是,源1.0这样的巨量模型怎么能够跟产业场景结合,怎么能够落地使用。

在场景落地上,巨量模型首要挑战有两个,一是能不能找到杀手级应用;二是,巨量模型中包含的千亿参数怎么在低功耗的情况下落地。

对于第一个挑战,当前业界还没有最佳实践可循,巨量模型的市场化表现还有待观察。与会专家抛砖引玉指出,希望可以在中文输入法、语音翻译质量(特别是方言场景)、谣言识别、智能客服、客户端个性化推荐等场景上看到巨量模型有所作为。

不过也有专家指出,源1.0主要针对的是语言模型,但当前实际业务中,多模态模型需求是个趋势,他们希望源1.0不仅是针对中文文本的模型,在视频、图片、声音等多模态语境甚至是多语种语境中也能有所作为。

对于巨量模型低功耗落地的问题,浪潮信息副总裁刘军回应称,人工智能巨量模型在发展过程中,势必会经历“把一本书读厚,再把一本书读薄”的过程。浪潮人工智能研究院正在基于对巨量模型规律的了解和掌握,用一些科学和技术方法在保证模型效果的情况下,降低参数,进而降低使用功耗和在产业落地的门槛。“至于能不能降到像大家非常关心的在手机上用,我们今天不能保证,但是至少会朝着这个方向去做。”刘军说。

从技术上来说,专家们也表达了对巨量模型的可解释性和表现稳定性上的期待,原因在于,在实际落地的过程中,巨量模型即使有90%的可靠性,另外10%的风险也会给实际应用带来业务上的挑战。

当然,源1.0模型的成功也让学界和产业界都看到了巨量模型背后的奇妙之处。“为什么在学习了海量数据集之后,计算机可以自己解释海量问题?它背后的计算肌理是否发生了变化?”这些问题都要留待更深入的研究。

“浪潮今天已经把这个模型训练出来了,证明了效果,下一步会开放出来,让学术界和产业界大家都去用。这样使得我们在这方面的巨量人财物的投入能够成为学术界和产业界前进助推剂。”刘军总结。他相信,在学界和产业界的深入合作中,领先的智能模型、以及杀手级应用一定能够成为推进社会智能化的一部分。

-----------华丽分割线----------

2021全球数字化大会将落地浙江上虞,一方面将受益于浙江数字化建设红利,带来宝贵的数字化实践,另一方面,基于中国最大的CIO社群ITValue的资源整合能力,也将为浙江企业数字化转型带来更多的业务创新资源和合作机会。

会时间:2021年10月14-17日

大会地点:浙江上虞天玥开元名都大酒店

扫描二维码或点击阅读原文,即刻报名这场中国最大的CIO峰会。

↓↓

317c196ab020ef3259bff475e14301c0.png

往期精彩内容

推荐关注

刘湘明:新概念已经推不动企业数字化了

钛媒体乌镇咖荟 | 踏浪数字经济,如何把握技术变革、产业创新机遇?

钛媒体乌镇咖荟 | 这场对话把“元宇宙”说透了:AI、区块链、5G技术将如何碰撞

工信部等八部门印发《物联网新型基础设施建设三年行动计划(2021-2023年)》

行业

华为下矿不挖煤,鸿蒙搭台不唱戏

青云科技高管变动,联合创始人&CTO甘泉离职

观察

中国公有云IaaS市场份额最新数据出炉|附全文

IT国产化,我们缺的是什么?

趋势

未来五年数字中国建设路线图出炉

关于数字化,看看两会怎么说

2174c68463cad7c29a0f9604dbb49a29.png

这篇关于2457亿,全球最大巨量模型“源”发布:怎么用,挑战在哪儿?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/679450

相关文章

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

W外链微信推广短连接怎么做?

制作微信推广链接的难点分析 一、内容创作难度 制作微信推广链接时,首先需要创作有吸引力的内容。这不仅要求内容本身有趣、有价值,还要能够激起人们的分享欲望。对于许多企业和个人来说,尤其是那些缺乏创意和写作能力的人来说,这是制作微信推广链接的一大难点。 二、精准定位难度 微信用户群体庞大,不同用户的需求和兴趣各异。因此,制作推广链接时需要精准定位目标受众,以便更有效地吸引他们点击并分享链接

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

电脑桌面文件删除了怎么找回来?别急,快速恢复攻略在此

在日常使用电脑的过程中,我们经常会遇到这样的情况:一不小心,桌面上的某个重要文件被删除了。这时,大多数人可能会感到惊慌失措,不知所措。 其实,不必过于担心,因为有很多方法可以帮助我们找回被删除的桌面文件。下面,就让我们一起来了解一下这些恢复桌面文件的方法吧。 一、使用撤销操作 如果我们刚刚删除了桌面上的文件,并且还没有进行其他操作,那么可以尝试使用撤销操作来恢复文件。在键盘上同时按下“C

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验