大模型日报-20240105

2024-01-05 13:20
文章标签 模型 日报 20240105

本文主要是介绍大模型日报-20240105,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

在这里插入图片描述
https://mp.weixin.qq.com/s/-KnewDBeCN7a1XPk22u9Pw
MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。此外,它还在高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上展示了最快的推理速度。

高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备

在这里插入图片描述
https://mp.weixin.qq.com/s/d9c0YirPTxw9_SpmulvYrQ

在虚拟现实、增强现实、游戏和人机交互等领域,经常需要让虚拟人物和屏幕外的玩家互动。这种互动是即时的,要求虚拟人物根据操作者的动作进行动态调整。有些互动还涉及物体,比如和和虚拟人物一起搬动一把椅子,这就需要特别关注操作者手部的精确动作。智能、可交互的虚拟人物的出现,将极大地提升人类玩家与虚拟人物的社交体验,带来全新的娱乐方式。在该研究中,作者专注于人与虚拟人的互动任务,特别是涉及物体的互动任务,提出了一项名为在线全身动作反应合成的新任务。新任务将基于人类的动作生成虚拟人的反应。以往的研究主要关注人与人的互动,不考虑任务中的物体,生成的身体反应也没有手部动作。此外,以往工作也没有将任务视为在线的推理,在实际情况中虚拟人根据实施情况对下一步进行预判。

面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了

在这里插入图片描述
https://mp.weixin.qq.com/s/VrV3E_SKTbpjJBfFyirvhA
ChatGPT 的诞生,让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能(AGI)铺开了一条革命性的道路,并在知识库、人机交互、机器人等多个领域得到应用。然而,目前存在一个普遍的限制:由于资源受限,当前大多 LLM 主要是在较短的文本上进行预训练,导致它们在较长上下文方面的表现较差,而长上下文在现实世界的环境中是更加常见的。最近的一篇综述论文对此进行了全面的调研,作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。

## 年度总结 | 2023 AI+游戏大事记
在这里插入图片描述
https://mp.weixin.qq.com/s/mbPYMXbv89ciKz51GvFSpw
ChatGPT发布后,AI领域的产品和科技开始快速增长。上期我们梳理了2023年这一整年内,行业技术和工具的发展迭代。今天,让我们深入探究这一年中,AI如何为游戏行业带来新的视角和体验。

消息称英伟达正开发“Skinny Joe"AI GPU: 700W TDP,特供中国

在这里插入图片描述
https://www.ithome.com/0/743/070.htm
根据国外科技媒体 tweaktown 报道,英伟达正开发名为“Skinny Joe"的全新 AI GPU,预估为中国特供版本.其TDP 为 700W。根据曝光的参考 Dev_ID 列表,“Skinny Joe"仅次于新款 L20 AIGPU 和英伟达 (NVIDIA)GeForce RTX 4090 D 显卡。目前尚不清楚"Skinny Joe” AI GPU 的具体规格信息,不过预估可能是 H100 或者 H200 的“瘦身"版本。

Midjourney 计划未来几个月内发布 AI视频生成模型

在这里插入图片描述
https://decrypt.co/211583/midjourney-leaps-into-ai-video-creation

Midiourney 是一个流行的图像生成工具,因其高质量和在 Discord 服务器内运行而闻名。该公司周二宣布,他们计划在未来几个月内推出“文本转视频"模式。Midjourney 首席执行官 David Holz 在 Discord 对话上表示该公司将从一月份开始训练其视频模型,可能会在“几个月内"准备就绪。有关该模型的更多信息并未透露。

“LLMs和编程”:当今的大多数编程工作都是在以略有不同的形式重复相同的事情,如果你在写LLM也能写出的程序,不妨再多思考一下是不是应该未来还做这样的事情

在这里插入图片描述
http://antirez.com/news/140
antirez从一位程序员的角度出发,讨论了自从ChatGPT和本地运行的LLMs出现后,这些新技术如何加速编程能力,并减少在编程中不值得投入精力的方面。作者通过个人经验分享,强调了自己在使用LLMs编写高级Python代码方面的增长,以及在C语言编程中较少使用LLMs的原因。

“我很遗憾地说,但这是事实:当今的大多数编程工作都是在以略有不同的形式重复相同的事情。这并不需要高水平的推理能力。大型语言模型在这方面做得相当好,尽管它们仍然受到上下文最大大小的严重限制。这确实应该让程序员思考。编写这种程序真的值得吗?当然,你能拿到报酬,而且报酬相当丰厚,但如果一个LLM可以做其中的一部分工作,那么五年或十年后这可能不是最好的位置。”

OpenVoice:仅通过一小段参考说话者的音频来复制其声音,并能用多种语言生成语音

https://x.com/reach_vb/status/1742075640990322689?s=20
OpenVoice🎙️是一种新颖的声音克隆技术,能够仅通过一小段参考说话者的音频来复制其声音,并能用多种语言生成语音。它提供了对声音风格的细致控制,包括情感、口音、节奏、停顿和语调,同时还能模仿参考说话者的音色。该技术基于训练有素的基础文本到语音(VITS)模型和音色转换器,VITS在3万个音频样本上训练,而音色转换器则在30万个样本上训练,覆盖中文、日语和英语。欢迎在Hugging Face平台上尝试这一技术👇。

QuestionImprover Agent:通过提出更好的问题来提升我们的思维方式

在这里插入图片描述
https://x.com/sockcymbal/status/1742120465110610398?s=20
QuestionImprover Agent是一个创新的AI工具,目的是在信息过载的时代,通过提出更好的问题来提升我们的思维方式。这个工具在@AGIHouseSF举办的AI for Thought Hackathon上获得了第一名,由@JvNixon, @kylejohnmorris和@Conaw共同开发。它利用一种新颖的推理算法和基于图的动态推理节奏来丰富和深化用户提出的问题,从而解锁更多洞察层次。适用于各种领域的复杂探索,如跨学科研究、战略分析或个人内省。这个项目的更广泛目标是提高提问的艺术,促进更深刻的理解和更有意义的对话。

KwaiAgents

在这里插入图片描述
https://github.com/KwaiKEG/KwaiAgents
KwaiAgents 是快手快知团队开源的一整套Agent系列工具。论文中KAgentSys的轻量版系统,其保留了部分原系统的功能。与功能齐全的系统相比,KAgentSys-Lite(1)缺少部分工具;(2)缺乏记忆机制;(3)性能稍有降低;(4)不同的代码库,Lite版本基于开源项目如BabyAGI和Auto-GPT。尽管有这些变更,KAgentSys-Lite在众多开源Agent系统中仍具有较好的性能。

这篇关于大模型日报-20240105的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/572991

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU