Google:Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告(中文)

本文主要是介绍Google:Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告(中文),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、概述

     在本报告中,我们展示了 Gemini 系列的最新模型 Gemini 1.5 Pro,这是一个计算效率极高的多模态专家混合模型,能够从数百万个上下文标记中回忆和推理细粒度信息,包括多个长文档和数小时的视频和音频。Gemini 1.5Pro 在跨模态的长上下文检索任务上实现了近乎完美的召回,提高了长文档问答、长视频问答和长上下文自动识别的最新水平,并在一系列基准测试中达到或超过了 Gemini 1.0 Ultra 的最新水平。研究 Gemini 1.5 Pro 的长上下文能力的限制,我们发现下一个令牌预测和接近完美的检索(》99%)持续改进,至少达到 1000 万个令牌,比现有模型如 Claude 2.1(200k)和 GPT-4 Turbo(128k)有了一代的飞跃。最后,我们强调了前沿大型语言模型令人惊讶的新功能;当给一份卡拉芒语语法手册时,该模型学会将英语翻译成卡拉芒语,其水平与一个人学习相同内容的水平相似。卡拉芒语是一种全球使用人数不到 200 人的语言。

      我们展示了 Gemini 系列的最新多模式车型:Gemini 1.5 Pro。这是我们从 Gemini 1.5 发布的第一个版本,Gemini 1.5 是一个新的高性能多模态模型系列,它采用了一种新颖的专家混合架构以及在培训和服务基础架构方面的重大进步,使其能够推动效率、推理和长期上下文性能的边界。Gemini 1.5 Pro 旨在处理超长上下文;它能够从多达至少 1000 万个令牌中回忆和推理细粒度信息。这种规模在当代大型语言模型(LLM)中是前所未有的,并且能够处理长格式混合模态输入,包括完整的文档集合、数小时的视频和几乎一天的音频。双子星座1.5 Pro 超过 Gemini 1.0 Pro,在一系列基准测试中的性能与 1.0 Ultra 相似,但需要训练的计算量明显减少。

      对越来越长的上下文的数据进行建模的能力已经跟踪了更通用和更有能力的语言模型的发展,从现在由 Shannon(1948),到 20 世纪 90 年代和 21 世纪初的现代 n 元模型(Brants etal.,2007;Chen and Goodman,1999;Jelinek,1998;Kneser and Ney,1995)通常限制为 5 个上下文标记,到 2010 年代的递归神经网络语言模型,该模型可以有效地基于数百个标记&#

这篇关于Google:Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告(中文)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/727884

相关文章

SpringBoot中使用 ThreadLocal 进行多线程上下文管理及注意事项小结

《SpringBoot中使用ThreadLocal进行多线程上下文管理及注意事项小结》本文详细介绍了ThreadLocal的原理、使用场景和示例代码,并在SpringBoot中使用ThreadLo... 目录前言技术积累1.什么是 ThreadLocal2. ThreadLocal 的原理2.1 线程隔离2

Java下载文件中文文件名乱码的解决方案(文件名包含很多%)

《Java下载文件中文文件名乱码的解决方案(文件名包含很多%)》Java下载文件时,文件名中文乱码问题通常是由于编码不正确导致的,使用`URLEncoder.encode(filepath,UTF-8... 目录Java下载文件中文文件名乱码问题一般情况下,大家都是这样为了解决这个问题最终解决总结Java下

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

深入理解Apache Airflow 调度器(最新推荐)

《深入理解ApacheAirflow调度器(最新推荐)》ApacheAirflow调度器是数据管道管理系统的关键组件,负责编排dag中任务的执行,通过理解调度器的角色和工作方式,正确配置调度器,并... 目录什么是Airflow 调度器?Airflow 调度器工作机制配置Airflow调度器调优及优化建议最

Go语言实现将中文转化为拼音功能

《Go语言实现将中文转化为拼音功能》这篇文章主要为大家详细介绍了Go语言中如何实现将中文转化为拼音功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 有这么一个需求:新用户入职 创建一系列账号比较麻烦,打算通过接口传入姓名进行初始化。想把姓名转化成拼音。因为有些账号即需要中文也需要英

一文带你理解Python中import机制与importlib的妙用

《一文带你理解Python中import机制与importlib的妙用》在Python编程的世界里,import语句是开发者最常用的工具之一,它就像一把钥匙,打开了通往各种功能和库的大门,下面就跟随小... 目录一、python import机制概述1.1 import语句的基本用法1.2 模块缓存机制1.

深入理解C语言的void*

《深入理解C语言的void*》本文主要介绍了C语言的void*,包括它的任意性、编译器对void*的类型检查以及需要显式类型转换的规则,具有一定的参考价值,感兴趣的可以了解一下... 目录一、void* 的类型任意性二、编译器对 void* 的类型检查三、需要显式类型转换占用的字节四、总结一、void* 的

深入理解Redis大key的危害及解决方案

《深入理解Redis大key的危害及解决方案》本文主要介绍了深入理解Redis大key的危害及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、背景二、什么是大key三、大key评价标准四、大key 产生的原因与场景五、大key影响与危

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取