开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?

2024-02-23 08:44

本文主要是介绍开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

开放Gemma而非“开源”,谷歌为何转变大模型竞争策略

        • 开放而非开源!!
        • 一、Gemma开源模型
        • 二、Gemma从今天开始在全球范围内提供。以下是关键的详细信息:
        • 三、为什么这样做?
        • 四、谷歌这一竞争策略如何?

2月21日晚,谷歌宣布新一代免费可商用大语言模型Gemma在全球开放使用。该模型被谷歌视为自身“最先进的开放模型”。

在这里插入图片描述

开放而非开源!!

         值得注意的是,谷歌强调Gemma为开放模型,而非“开源”,这意味着谷歌并不会分享Gemma的多项技术细节,包括Gemma的源代码、训练数据等。在应用上,谷歌称其使用条款允许所有组织负责任地进行商用和分发

一、Gemma开源模型

         Gemma是一系列轻量级、最先进的开放模型,采用了与创建Gemini模型相同的研究和技术。由Google DeepMind和Google的其他团队开发,Gemma受到Gemini的启发,其名称反映了拉丁文中的"gemma",意为“宝石”。除了发布模型权重之外,我们还提供工具,支持开发者创新、促进协作,并引导对Gemma模型的负责任使用。

         Gemma仅用于处理文本信息,其基础技术架构与谷歌最强AI模型Gemini一致,但参数规模较小,仅有20亿参数和70亿参数两个规模版本,且两种参数规模的Gemma模型都会有预训练和指令微调版本。

         Gemm较小的参数规模有助于Gemma实现更广泛部署。谷歌介绍称,Gemma支持主流AI框架,还可在笔记本电脑、台式机、物联网、移动设备和云端等环境上运行。

在这里插入图片描述

二、Gemma从今天开始在全球范围内提供。以下是关键的详细信息:
  • 1.我们发布了两种规模的模型权重:Gemma 2B和Gemma 7B。每个规模都有经过预训练和指导微调的变体。

  • 2.新的负责任生成式人工智能工具包提供了使用Gemma创建更安全人工智能应用程序的指导和必要工具。

  • 3.我们提供了适用于所有主要框架(JAX、PyTorch和TensorFlow通过本机Keras 3.0)的推理和监督微调(SFT)的工具链。

  • 3.与Ready-to-use Colab和Kaggle笔记本以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成相结合,使得使用Gemma变得非常容易入门。

  • 4.经过预训练和指导微调的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署在Vertex AI和Google Kubernetes Engine(GKE)上。

  • 5.跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。

  • 6.使用条款允许各种规模的组织进行负责任的商业使用和分发。

三、为什么这样做?

         Gemm开放Gemma或是针对开源大模型领域所受批评的部分回应。此前谷歌和OpenAI因坚持技术封闭而遭到外界抨击,两者在最新、最先进的模型上都选择了闭源,被认为不利于技术进步。

         去年Google貌似已经下定决心要闭源了,这可能源于低估了追赶OpenAI的技术难度,Bard推出令人大失所望使得谷歌不得不面对现实,去年下半年进入很尴尬的局面,闭源要追上OpenAI估计还要不少时间,而开源方面Meta已下决心,还有Mistral这种新秀冒头,逐渐主导了开源市场,这导致无论开源闭源,谷歌都处于被两面夹击,进退为难的境地。很明显,Gemma代表谷歌大模型策略的转变:兼顾开源和闭源,开源主打性能最强大的小规模模型,希望脚踢Meta和Mistral;闭源主打规模大的效果最好的大模型,希望尽快追上OpenAI。目前大模型开源形成三巨头局面:Google Gemma、Meta LLama和欧洲的Mistral。

         目前大模型巨头混战,形成了打压链局面:OpenAI处于链条顶端,主要打压对手是有潜力追上它的竞争对手:谷歌和Anthropic,Mistral估计也正在被列入OpenAI的打压列表中。这个打压链条是这样的:OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司

四、谷歌这一竞争策略如何?

         谷歌开源Gemma不是针对OpenAI 宣发策略的反击,Gemimi 系列的定位才是对标GPT 4的。Gemma是针对开源届的,也就是针对Meta和Mistral的,这侧面说明Meta的LLama 3很快就要发布了,或者Mistral最近会有新品发布。

         通过Gemma再次证明:

  • 只要数据量足够多(Gemma 7B用到了6万亿Token,效果和Mistral 7B 差不多,这也侧面说明了之前大家猜测Mistral 7B使用了大约7万亿Token的大概率属实)
  • 数据质量足够好(增加数学、代码、科学论文等增强模型推理能力的数据),小模型的能力仍然能够得到持续提升。

         关于大模型的开源和闭源,我认为如果想发展大模型还是得比模型规模,这方面开源模型相对闭源模型出于明显劣势,短期内难以追上GPT 4或GPT 4v,且这种类型的大模型,即使是开源也只能仰仗谷歌或者Meta这种财大气粗的大公司,主要是太消耗资源了,一般人玩不起,国内这方面阿里千问系列做得比较好,肯把比较大规模的模型开源出来,更提供了modelscope这样的平台促进技术交流,属实难得。

         另外,开源模型应该把主要精力放在开发并开源出性能足够强的小规模大模型上(SLLM,Small Large Language Model)。
         我觉得谷歌的开源策略是非常合理的。目前看,作出强大的SLLM并没有太多技巧,主要是把模型压小的基础上,大量增加训练数据的规模,数据质量方面则是增加数学、代码等数据来提升模型的推理能力,比如Gemma 7B用6万亿Token数据,Mistral 7B的7万亿Token数据,两者也应该大量采用了增强推理能力的训练数据,只要持续增加训练数据的规模和质量,模型效果会持续提升,所以SLLM模型的性能天花板目前也没有到头,只要有更多更高质量的数据,就能持续提升SLLM模型的效果,仍然有很大空间
         SLLM相对GPT 4这种追求最强效果的模型比,训练成本低得多,而因为模型规模小,推理成本也极低,只要持续优化效果,从应用层面,大家肯定会比较积极地部署SLLM用来实战的,市场潜力巨大。也就是说,SLLM应该是没有太多资源,但是还是有一些资源的大模型公司必争之地。

         因此,谷歌这一策略可能也预示着2024年在SLLM这方面关注度也比较高,我也相信2024年开源SLLM会有更惊艳黑马出场!!

这篇关于开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/738076

相关文章

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.

SQL 注入攻击(SQL Injection)原理、利用方式与防御策略深度解析

《SQL注入攻击(SQLInjection)原理、利用方式与防御策略深度解析》本文将从SQL注入的基本原理、攻击方式、常见利用手法,到企业级防御方案进行全面讲解,以帮助开发者和安全人员更系统地理解... 目录一、前言二、SQL 注入攻击的基本概念三、SQL 注入常见类型分析1. 基于错误回显的注入(Erro

Java领域模型示例详解

《Java领域模型示例详解》本文介绍了Java领域模型(POJO/Entity/VO/DTO/BO)的定义、用途和区别,强调了它们在不同场景下的角色和使用场景,文章还通过一个流程示例展示了各模型如何协... 目录Java领域模型(POJO / Entity / VO/ DTO / BO)一、为什么需要领域模

深入理解Redis线程模型的原理及使用

《深入理解Redis线程模型的原理及使用》Redis的线程模型整体还是多线程的,只是后台执行指令的核心线程是单线程的,整个线程模型可以理解为还是以单线程为主,基于这种单线程为主的线程模型,不同客户端的... 目录1 Redis是单线程www.chinasem.cn还是多线程2 Redis如何保证指令原子性2.

Redis中删除策略的几种实现方式

《Redis中删除策略的几种实现方式》本文详细介绍了Redis的过期键删除策略和内存淘汰策略,过期键删除策略包括定时删除、惰性删除和定期删除,具有一定的参考价值,感兴趣的可以了解一下... 目录前言一、设计背景:为什么需要删除策略?二、第一类:过期键的 3 种核心删除策略1. 定时删除(Timed Dele

前端缓存策略的自解方案全解析

《前端缓存策略的自解方案全解析》缓存从来都是前端的一个痛点,很多前端搞不清楚缓存到底是何物,:本文主要介绍前端缓存的自解方案,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、为什么“清缓存”成了技术圈的梗二、先给缓存“把个脉”:浏览器到底缓存了谁?三、设计思路:把“发版”做成“自愈”四、代码

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

Linux实现查看某一端口是否开放

《Linux实现查看某一端口是否开放》文章介绍了三种检查端口6379是否开放的方法:通过lsof查看进程占用,用netstat区分TCP/UDP监听状态,以及用telnet测试远程连接可达性... 目录1、使用lsof 命令来查看端口是否开放2、使用netstat 命令来查看端口是否开放3、使用telnet

MySQL设置密码复杂度策略的完整步骤(附代码示例)

《MySQL设置密码复杂度策略的完整步骤(附代码示例)》MySQL密码策略还可能包括密码复杂度的检查,如是否要求密码包含大写字母、小写字母、数字和特殊字符等,:本文主要介绍MySQL设置密码复杂度... 目录前言1. 使用 validate_password 插件1.1 启用 validate_passwo

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买