下一代模型:Gemini 1.5,正如它的名字一样闪亮登场

2024-02-17 06:12

本文主要是介绍下一代模型:Gemini 1.5,正如它的名字一样闪亮登场,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

上周,Google推出了其迄今为止最强大的模型——Gemini 1.0 Ultra,标志着其产品,尤其是Gemini Advanced变得更加有用的重要一步。从今天起,开发者和云客户也可以开始使用1.0 Ultra——通过AI Studio和Vertex AI中的Gemini API进行构建。

Google的团队继续推动最新模型的前沿,将安全性放在核心位置,并取得了迅速的进展。事实上,他们已准备好介绍下一代模型:Gemini 1.5。它在多个维度上展现出显著的改进,1.5 Pro在使用更少的计算资源的同时,达到了与1.0 Ultra相当的质量。

这一新一代还实现了在长文本理解上的突破。Google已经显著增加了其模型可以处理的信息量——稳定运行高达100万个令牌,实现了迄今为止任何大规模基础模型中最长的上下文窗口。更长的上下文窗口展示了可能性的承诺,将使得全新的能力成为可能,并帮助开发者构建更多有用的模型和应用程序。Google对开发者和企业客户提供这一实验功能的有限预览感到兴奋。Demis分享了更多关于能力、安全性和可用性的信息。

由Google DeepMind的CEO Demis Hassabis代表双子团队介绍Gemini 1.5:这是人工智能领域令人激动的时刻。领域内的新进展有潜力在未来几年为数十亿人提供更多帮助。自从引入Gemini 1.0以来,Google一直在测试、完善和增强其能力。今天,Google宣布了下一代模型:Gemini 1.5。Gemini 1.5带来了显著提升的性能。它代表了Google方法的一个重大变化,建立在几乎每一个部分的研究和工程创新之上,这包括使Gemini 1.5更加高效的训练和服务,采用了新的专家混合(MoE)架构。

Google正在为早期测试发布的第一个Gemini 1.5模型是Gemini 1.5 Pro。这是一个中等大小的多模态模型,为跨广泛任务的扩展进行了优化,并且与迄今为止最大的模型1.0 Ultra表现在相似的水平。它还引入了在长文本理解上的实验性突破特性。Gemini 1.5 Pro配备了标准的128,000令牌上下文窗口。但从今天起,一小部分开发者和企业客户可以通过AI Studio和Vertex AI在私密预览中尝试高达100万令牌的上下文窗口。

随着Google全面推出100万令牌上下文窗口,他们正在积极工作以改善延迟、降低计算需求并增强用户体验。Google对人们尝试这一突破性能力感到兴奋,并在下方分享了更多关于未来可用性的详细信息。这些在下一代模型中的持续进步将为人们、开发者和企业开启使用人工智能创建、发现和构建的新可能性。

Gemini 1.5基于Google在Transformer和MoE架构上的领先研究。而传统的Transformer作为一个大型神经网络运行,MoE模型被划分为较小的“专家”神经网络。根据给定的输入类型,MoE模型学会只激活其神经网络中最相关的专家路径。这种专业化大大提高了模型的效率。Google是通过诸如Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4等研究,成为深度学习中MoE技术的早期采用者和先锋。

Google的最新模型架构创新使Gemini 1.5能够更快地学习复杂任务并保持质量,同时训练和服务更加高效。这些效率帮助Google的团队比以往任何时候都更快地迭代、训练和交付更高级的Gemini版本,并且他们正在进行进一步的优化。作为大规模模型中首创的长上下文窗口,Google正在不断开发新的评估和基准测试来测试其新颖能力。遵循AI原则和严格的安全政策,Google确保其模型经过广泛的伦理和安全测试。然后,将这些研究成果整合到其治理过程、模型开发和评估中,以持续改进其AI系统。

自从去年12月引入1.0 Ultra以来,Google的团队继续对模型进行精炼,使其对更广泛的发布更安全。他们还进行了关于安全风险的新研究,并开发了红队技术来测试一系列潜在的危害。在发布1.5 Pro之前,Google采取了与其Gemini 1.0模型相同的负责任部署方式,进行了包括内容安全和代表性伤害在内的广泛评估,并将继续扩大这种测试。此外,Google正在开发进一步的测试,以考虑1.5 Pro的新长上下文能力。Google致力于负责任地将每一代Gemini模型带给全球数十亿人、开发者和企业。

从今天开始,Google通过AI Studio和Vertex AI向开发者和企业客户提供1.5 Pro的有限预览。更多信息请参阅Google开发者博客和Google Cloud博客。当模型准备好进行更广泛发布时,Google将引入标准的128,000令牌上下文窗口的1.5 Pro。不久,Google计划引入从标准的128,000上下文窗口开始并扩展到100万令牌的定价等级,随着模型的改进。在测试期间,早期测试者可以免费尝试100万令牌上下文窗口,尽管他们应该预期这一实验性功能会有较长的延迟时间。速度的显著改进也即将到来。

有兴趣测试1.5 Pro的开发者现在可以在AI Studio注册 (https://aistudio.google.com/app/waitlist/97445851),而企业客户可以联系他们的Vertex AI账户团队。

这篇关于下一代模型:Gemini 1.5,正如它的名字一样闪亮登场的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/716895

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者