让AI抛弃“小作坊”,拥抱“工业化”:盘古大模型究竟是什么?

2023-10-18 20:30

本文主要是介绍让AI抛弃“小作坊”,拥抱“工业化”:盘古大模型究竟是什么?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如果你想要一台冰箱,结果只能买到压缩机,金属面板、塑料储物盒,需要自己进行组装;如果你想要一台汽车,结果拿到一坨橡胶,需要自己从头造轮胎,你将会是什么心情?

目前AI开发的状态与上面举的例子很像。熟悉AI的朋友知道,AI应用开发是碎片化、定制化的,场景稍有变化就要重新进行数据处理,海量参数调优,反复迭代。如果模型达不到期望的目标,还要把这个过程推倒重来,模型开发周期动辄一个月,甚至数月。这种耗费大量人工的方式说明AI开发还处于作坊模式中。

在2021WAIC期间,华为云盘古预训练大模型被评选为大会的“镇馆之宝”,为AI带来了工业化开发新模式。我们不妨就着“镇馆之宝”四个字,来掰扯掰扯盘古大模型究竟是什么,预训练模型又与AI工业化之间存在着怎样的关联。

2018年GPT 和 BERT的横空出世,引发了AI行业内外的共同关注。NLP领域的大规模预训练模型,从逻辑上来解释的话,就是采用自监督学习能力在大规模算力的支持下学习海量参数的数据。这不仅让NLP算法能力有了革命性突破,还将大量原本需要用户完成的训练任务预先完成。打个比方,这就像学校先把各种知识教给学生,让他有了基本的行业常识,而不是等到进入企业之后再从头识字,从而降低了企业的培训成本。

如今,大规模预训练模型已经成为全球主流AI厂商、研究机构的“必备功课”,训练参数与算力投入量也水涨船高。OpenAI在2020年发布的GPT-3已经达到了1750亿参数量、上万GPU的惊人训练规模。可以说,大规模预训练模型既要考验厂商的算法创新、调参与优化能力,又是对数据能力、并行计算能力、网络架构能力、开发工具和能力的全面大考。想要让AI在厂商一侧就变成工业化、标准化的“准完成品”,需要投入的技术实力与产业资源都远超大部分AI产品。

想要“镇”住AI工业化中出现的种种挑战,练就真正能解决问题的AI大模型,需要同时具备高效算法、澎湃算力,海量数据吞吐能力基础。

在2021WAIC开幕式上,华为轮值董事长胡厚崑在演讲中介绍了盘古大模型。他认为当前AI的普及应用的瓶颈首先不在技术上,技术已经有了相当的发展,也不在应用上,因为应用的需求都已经蓬勃而出了。它的瓶颈在于开发的效率上,现在的开发效率太低,AI应用的开发太慢,它严重阻碍了技术和需求的结合。

为了提高AI的开发效率,华为云联合伙伴推出了盘古系列预训练大模型,包括业界首个兼具生成与理解能力的中文语言(NLP)大模型和视觉(CV)大模型。

想要具体感知到华为云盘古大模型的能力,我们到WAIC的展馆中一探究竟。盘古大模型在现场展示了成语填空、阅读理解、快速分类三种能力。甚至连 “明明明明明白白白喜欢他,但他就是不说”这种奇葩句子,盘古大模型也能判断出“白白喜欢谁?”“谁喜欢明明?”等问题。

优质的大模型需要三个核心能力,即:可以吸收海量数据的超大型神经网络、强壮的网络结构、优秀的泛化能力。华为云盘古预训练大模型除此之外,还有哪些独特优势呢?

首先,盘古预训练大模型拥有领先的技术创新。

盘古NLP大模型首次使用Encoder-Decoder架构,兼顾NLP理解与生成的能力,且性能领先;在NLPCC生成任务上,Rouge score取得第一,比第二名提升60% 以上。该架构多任务学习的方法,能够让大模型训练更加稳定;同时基于提示的微调, 能够在小样本学习上超越GPT系列。训练盘古NLP大模型使用了40TB的文本数据,包含了大量的通用知识,同时也沉淀了华为云的许多行业经验。盘古CV大模型在业界首次实现了模型的按需抽取,不同部署场景下抽取出的模型体积差异,动态范围可达三个数量级;提出的基于样本相似度的对比学习,凭借小样本学习能力在ImageNet上取得了业界领先的成绩。

其次,盘古预训练大模型拥有丰富的技术沉淀及应用实践。

盘古预训练大模型已经在多个行业、100多个场景成功验证,包括能源、零售、金融、工业、医疗、环境、物流等等。其中,在能源领域,盘古预训练大模型帮助行业客户实现设备能耗的智能控制,可以节约电力成本50%;在金融行业中的异常财务检测,让模型精度提升20%以上;在尘肺检测中,病例识别准确率提升22%等等。

盘古已经在近百个行业场景中进行了应用,未来,华为云盘古预训练大模型还将上线华为云AI资产共享社区(AI Gallery),将AI能力进一步开放出来。

既名“盘古”,便应该去开辟一些什么。翻过AI工业化的山丘,彼端每一家企业、每一位开发者的心中都应该有一个“盘古”。

这篇关于让AI抛弃“小作坊”,拥抱“工业化”:盘古大模型究竟是什么?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/234974

相关文章

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应