谷歌发布 3 款 Gemini 新模型;字节开源 FLUX Dev Hyper SD Lora,8 步生图丨 RTE 开发者日报

本文主要是介绍谷歌发布 3 款 Gemini 新模型;字节开源 FLUX Dev Hyper SD Lora,8 步生图丨 RTE 开发者日报,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、谷歌发布 3 款 Gemini 实验 AI 模型:1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

在这里插入图片描述

昨日,谷歌 AI Studio 产品总监洛根・基尔帕特里克(Logan Kilpatrick)在 X 平台发布推文,宣布推出 3 款 Gemini 实验性模型。3 款实验性 Gemini AI 模型如下:

Gemini 1.5 Flash-8B

  • Gemini 1.5 Flash-8B 是 Gemini 1.5 Flash 的更小尺寸模型,拥有 80亿参数,专为多模态任务而设计,包括大容量任务和长文本摘要任务。

Gemini 1.5 Pro Exp-0827

  • 主要增强编程、复杂提示词,现已通过 Google AI Studio 和 Gemini API免费提供,名称为「gemini-1.5-pro-exp-0827」。

  • Kilpatrick 表示,新的 Gemini 1.5 ProExp 0827 型号在各方面都优于 8 月初发布的实验型号,目前在 LMSYS 上的排名为第 2 位,仅次于 OpenAI 的GPT-4o-latest 模型。

  • 谷歌将于 9 月 3 日起,将 gemini-1.5-pro-exp-0801模型的请求,自动重定向到新的 gemini-1.5-pro-exp-0827 模型上。gemini-1.5-pro-exp-0801模型将从 Google AI Studio 和 API 中删除。

Gemini 1.5 Flash Exp-0827

  • Gemini-1.5-Flash (0827) 版本在性能方面有明显提升,在 LMSYS 上的排名从此前的 23 位提高第 6 位。

用户可以通过 Gemini API 和 Google AI Studio 访问上述两个模型,名称分别为 gemini-1.5-pro-exp-0827 和 gemini-1.5-flash-exp-0827。(@IT 之家)

2、Freepik Mystic 发布,号称是目前最先进的 AI 图像生成器

Magnific AI 和 Freepik 联合推出了 Freepik Mystic,宣称是目前最先进的 AI 图像生成器,也是唯一可以直接生成全高清图像的 AI 图像生成器。

与 Midjourney 和 OpenAI 的 Dall-E 不同,Mystic 并非基础模型,而是一个结合 Flux 基础模型、微调、高分辨率图像生成技术和参数调整的流程。

Mystic 能够生成高质量的图像,包括写实肖像、动物、风景、奇幻场景、室内设计和建筑概念、像素艺术、游戏元素、表情包等多种类型的图像。这些图像由顶尖摄影师、数字艺术家、VFX 专家和设计师精心策划,并由 Magnific AI 和 Freepik 的内部专家进行微调。Mystic 可以生成分辨率高达 1,664 x 2,432 的 AI 图像,并能够很好地遵循所给定的提示词生成符合要求的图像。

目前,Freepik Mystic 可以通过 Freepik Premium 订阅使用。此外,Mystic 也将登陆 Magnific AI 平台。(@AI 未来)

3、字节开源 FLUX Dev 的 Hyper SD Lora,8 步生图

在这里插入图片描述

字节跳动开源了 FLUX Dev 的 Haper SD Lora,大幅度缩短了 FLUX 图片生成的时间。Hyper-SD 提供了一系列基于不同基础模型的 LoRA 检查点,支持 1 到 8 步的推理过程,并且提供了与 ComfyUI 集成的工作流程,以及相关的技术报告和演示。尽管 8 步模型相较于原始版本效果有所下降,但是效果是可接受的。

项目还包括了如何使用这些模型进行文本到图像的生成,以及如何与 ControlNet 结合使用,以实现更精细的图像控制。用户可以通过 Hugging Face 的演示来体验 Hyper-SD 的性能,并且可以通过 ComfyUI 使用 Hyper-SD 的工作流程。(@雷锋网)

4、SlowFast-LLaVA:苹果推出的无需训练多模态模型

在这里插入图片描述

SlowFast-LLaVA 是苹果推出的无需训练多模态大语言模型,专注于视频理解和推理。该模型旨在在不超出常用 LLM 的 token 预算情况下,同时捕捉详细的空间语义和长距离的时间上下文。该项目无需对任何数据进行微调,在广泛的视频问答任务和基准测试中,其性能与最先进的视频 LLM 相当甚至更好。(@机器之心 SOTA 模型)

5、安卓 / macOS 版 ChatGPT AI 应用现支持「@」,可无缝切换不同 GPT 模型

科技媒体 testingcatalog 昨日发布博文,报道称安卓版和 macOS 版 ChatGPT 现支持 Mentions 功能,用户在聊天对话中使用「@」字符来调用不同的定制 GPT 模型。

Mentions 是 ChatGPT 的一个重要工具,让用户在一次对话中与多个专门的人工智能模型互动,每个模型都能提供独特的功能来丰富对话内容。

在安卓版 ChatGPT 应用中,用户输入「@」符号之后,会弹出一个窗口,让用户选择不同的 GPT,在保持聊天上下文的时候方便用户无缝切换。

苹果 macOS 平台最新版 ChatGPT 也已上线该功能,但目前 iOS 平台 ChatGPT 仍未上线。(@IT 之家)

02 有态度的观点

1、宇树创始人王兴兴:做机器人,中国缺乏 AI 人才

2024 年不少厂商开始将人形机器人搬到工厂「打工」,比如马斯克让擎天柱在特斯拉工厂「自己造自己」。但从世界机器人大会中会发现,人形机器人距离成为真正的「打工人」还有不小的一段距离。它们并没有展现出能够替代人类劳动力的能力,有的人形机器人连行走都比较困难,需要在吊杆辅助下才能顺利挪步,而有的人形机器人虽然能够演示其检修作业能力——例如对轮胎进行质检,但实际汽车工厂的场景更复杂、工序流程更多。就单纯的轮胎质检环节而言,有一个成本更低的、有视觉感知功能的设备就能完成,而不需要一个成本更高的人形机器人。而在诸如车辆内外饰装饰、道路测试等更复杂并且更耗人力的场景里,机器人的泛化能力不够,尚无法代替人类。

与其说机器人们「进厂打工」,不如说他们是「进厂学习」。目前,机器人企业们还需要进入工厂不断完善数据采集工作,来帮助提升产品的泛化能力。

在世界机器人大会之前,王兴兴分享了他对人形机器人产业现状的观点,他认为,AI 能力不够是机器人行业发展最大的瓶颈。「只有机器人 AI 的能力能突破一个临界点,工厂里的一些工序才能跑起来,机器人才能比人效率更高」,但是「中国的 AI 人才欠缺,对 AI 的人才培养力度不太够」,并且王兴兴认为「跟通用 AI 的发展相比,机器人 AI 的整个行业,落后了 10 年左右。」

虽然硬件层面也会对机器人发展形成桎梏,但王兴兴认为「硬件没有理论上的门槛,它是工程上的问题,在工程上把成本做得更低,做得更好,外观也做得更加极致,硬件功能也更加丰富。」

虽然机器人行业存在软硬件困境,但王兴兴表示行业会越来越好,因为「这个行业越来越热了,有更多的聪明人,更多的钱,更多的关注参与进来。(@腾讯科技)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

这篇关于谷歌发布 3 款 Gemini 新模型;字节开源 FLUX Dev Hyper SD Lora,8 步生图丨 RTE 开发者日报的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1118834

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言