微软发布 Phi-3.5 系列模型,涵盖端侧、多模态、MOE;字节 Seed-ASR:自动识别多语言丨 RTE 开发者日报

本文主要是介绍微软发布 Phi-3.5 系列模型,涵盖端侧、多模态、MOE;字节 Seed-ASR:自动识别多语言丨 RTE 开发者日报,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、微软发布 Phi-3.5-vision 轻量级、多模态的开源模型,端侧运行,可进行复杂视觉推理

微软发布 Phi-3.5-vision 轻量级、多模态的开源模型,其属于 Phi-3 模型家族。该模型专为需要文本和视觉输入的应用而设计,重点处理高质量、高推理密度的数据。它支持 128K 的上下文长度,并经过严格的微调和优化过程,旨在在内存或计算资源有限、低延迟要求高的环境中广泛用于商业和研究领域。

该模型具备广泛的图像理解、光学字符识别(OCR)、图表和表格解析、多图像或视频剪辑摘要等功能,非常适合多种 AI 驱动的应用,在图像和视频处理相关的基准测试中表现出显著的性能提升。

Phi 3.5 系列 AI 模型包括三款不同特点的模型:Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct。这些模型在 Hugging Face 平台上开源,并获得了 Microsoft 的 MIT 许可证,允许不受限制的商业应用和修改。

Phi-3.5-mini-instruct 是一款轻量级模型,拥有 38.2 亿参数,支持 128k token 上下文长度,适合在内存或算力受限的设备上使用,并且在多语言和多轮对话任务中表现良好。Phi-3.5-MoE-instruct 是微软 Phi 模型中的首个 MoE 模型,采用混合专家架构,拥有 420 亿个参数,专注于处理高质量推理密集数据,并在专业学科领域的 MMLU 基准测试中击败了 GPT-4o mini。Phi-3.5-vision-instruct 是一个多模态模型,集成了文本和图像处理功能,适用于图像理解、光学字符识别等任务,并在视觉任务基准测试中表现出色。(@雷锋网)

2、字节跳动 Seed-ASR:自动语音识别模型,可识别不同语言、方言、口音

字节跳动豆包近期推出的 Seed-ASR 是一款先进的自动语音识别模型,能够识别多种语言、方言和口音。Seed-ASR 通过超过 2000 万小时的语音数据和近 90 万小时的配对 ASR 数据进行训练,展现出了卓越的识别能力。

该模型支持精准识别普通话以及 13 种中国方言,同时具备处理各种口音的英语和其他 7 种语言的能力。Seed-ASR 还具备强大的上下文感知能力,能够根据特定场景,如历史对话记录、会议纪要等信息,更准确地进行语音内容的识别。此外,Seed-ASR 可以进一步部署以支持各种场景中的特定需求,而无需额外的语言模型。(@站长之家)

3、v0 发布一个基于聊天的网页开发助手,可生成用户界面、自动编写运行代码

v0 发布一个基于聊天的网页开发助手,用户可以通过聊天的方式与 v0 互动,让它帮助调试代码、回答开发问题、生成代码等,专门用于前端开发领域,可以为用户提供关于这些技术的深入指导和帮助。无论是编写代码、优化性能、部署应用,还是解决技术难题,v0 都能提供专业的支持和建议。

它拥有丰富的 TypeScript、React、Next.js、Vercel 等前端技术的知识。用户可以把 v0 视为个人的 web 开发助手,能够帮助处理与 web 开发相关的各种问题,提供建议、解决方案和技术支持。

v0 可以根据需求执行以下几种任务:

1.生成用户界面(UI):如果用户请求 v0 生成某种类型的 UI(如表单、按钮、布局等),它可以编写相应的代码,并生成 UI 的代码片段

2.运行代码:v0 可以帮助执行或运行代码段,提供实时反馈,帮助调试或验证代码的功能

3.回答编程相关问题:用户可以向 v0 提出关于 web 开发、前端技术(如 TypeScript、React、Next.js 等)的任何问题,v0 会一步步解答,帮助解决技术问题(@小互 AI)

4、Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据

Meta 悄悄发布了一款新的网络爬虫,可用于搜索互联网并收集大量数据,为其人工智能模型提供支持。

据三家追踪网络抓取器的公司称,Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。

Meta 的 Llama 是最大的 LLM 之一,虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据,但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。今年早些时候,Meta 的联合创始人、首席执行官马克・扎克伯格在一次财报电话会议上曾吹嘘说,公司的社交平台已经积累了一套用于人工智能训练的数据集,甚至「超过了 Common Crawl」。

新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了,因为该公司继续致力于更新 Llama 和扩展 Meta AI,通常需要新的和高质量的培训数据来不断改进功能。

来自 Dark Visitors 的数据显示,全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot,但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。(@IT 之家)

5、Salesforce 推出 xGen-MM 开源多模态 AI 模型

在这里插入图片描述

xGen-MM 是由 Salesforce AI Research 开发的一系列最新的基础大型多模态模型(LMMs)。该系列在 BLIP 系列的成功设计基础上进行了改进,确保了更强大和更优越的基础。这些模型在高质量的图像标注数据集和交错的图像-文本数据上进行了大规模训练,能够执行各种视觉语言任务,并在基准测试中取得了竞争性表现。(@机器之心 SOTA 模型)

02 有态度的观点

1、谷歌 DeepMind 首席执行官兼联合创始人:AGI 将有助于理解宇宙和意识的奥秘,十年内治愈所有疾病

在 Google DeepMind 的播客中,谷歌 DeepMind 首席执行官兼联合创始人 Demis Hassabis 指出,尽管现代人工智能系统没有正确的世界模型或真实经验,却在理解抽象概念和从语言学习方面表现出异常的有效性。

Hassabis 对公众对人工智能的快速接受感到惊讶,并强调了 AI 聊天机器人和语言模型的「异常有效性」。他提到了 AI 领域的长期规划、代理和保障措施的挑战,并预测了大多数疾病和通用人工智能的治疗方法将在未来十年内开发出来。

Hassabis 强调了 AI 安全性的重要性,包括对 AGI 的谨慎态度、国际合作、适应性监管、以及对 AI 产品的测试和错误发现。他还讨论了人工智能对现实、物理和意识的基本问题的潜在解答能力,以及 AGI 在理解宇宙量子层面奥秘方面的应用。最后,他表示对 AGI 在未来十年内得到发展持乐观态度。(@雷锋网)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述
素材来源官方媒体/网络新闻

这篇关于微软发布 Phi-3.5 系列模型,涵盖端侧、多模态、MOE;字节 Seed-ASR:自动识别多语言丨 RTE 开发者日报的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1097797

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}