AI日报|文生语音大模型国内外均有突破,Pika完成6亿新融资,视频大模型也不远了!

本文主要是介绍AI日报|文生语音大模型国内外均有突破,Pika完成6亿新融资,视频大模型也不远了!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章推荐

AI搜索哪家强?16款产品实战测评,效率飙升秘籍!

AI日报|智谱AI再降价,同时开源9B系列模型;国内外气象大模型竞逐升级

字节推出文本到语音模型家族Seed-TTS:擅长情感表达,与真人几乎无异

字节跳动推出文本到语音模型家族——SEED TTS,其核心亮点在于生成的语音音色高度接近人类,在相似度与自然流畅度方面,可以与真声媲美。

在技术层面有以下创新:

  • Seed-TTS是一系列大规模自回归文本到语音(TTS)模型,它通过学习语音上下文、说话人相似度和自然度等方面的特征,生成与人类语音难以区分的高质量语音。此外,Seed-TTS还具有优越的情感控制能力,可以根据需求生成具有不同情感和语音属性的语音
  • Seed-TTS还提供了自蒸馏方法用于语音分解,可以更好地理解语音的特征,以及增强模型鲁棒性、说话人相似度和控制性的强化学习方法。
  • Seed-TTS还展示了非自回归(NAR)变体Seed-TTSDiT,它采用完全基于扩散的架构,不依赖于预先估计的音素持续时间,通过端到端处理进行语音生成。

https://bytedancespeech.github.io/seedtts_tech_report/

Stability AI发布Stable Audio Open文本至音频模型,时间可长达47秒

Stability AI宣布推出生成声音和歌曲的开放式人工智能模型—Stable Audio Open。该公司声称,该模型仅接受免版税录音训练。用户只需输入文本描述,模型就能生成最长47秒的声音片段,

Stable Audio Open能够创造鼓点、乐器旋律、环境音效及视频、电影、电视节目的制作元素,还能“编辑”现有歌曲或融合不同曲风,例如将柔和爵士风格应用于另一首歌。

并且Stable Audio Open一大亮点是用户可基于个人音频资料微调模型,让生成的内容更加个性化。

然而,这款开源模型存在局限:无法生成完整歌曲、旋律或人声,对此类需求,Stability AI推荐使用其付费服务Stable Audio。

此外,Stable Audio Open禁止商业用途。

https://techcrunch.com/2024/06/05/stability-ai-releases-a-sound-generator/

Pika完成全新6亿融资,即将发布全新视频生成大模型

AI视频生成初创公司Pika日前已完成总额8000万美元的B轮融资,由Spark Capital领投,Greycroft、Lightspeed Venture Partners以及Jared Leto参投,公司估值超过4.7亿美元,较上一轮翻了一倍。

截至目前,Pika总融资额已达1.35亿美元。Pika用户数达到数百万,每周生成数百万个视频。同时,Pika已租用数百个量级的GPU(图形处理器)芯片,用于模型训练和推理计算。

创始人郭文景表示:“我们正在努力打造最好的视频模式,同时也在努力打造真正服务于创作者的产品。”据悉,Pika将在今年下半年发布一个全新关键的基础模型以及配套产品更新。

https://mp.weixin.qq.com/s/fJtcza5MB9rmFRmLT2bI9g

Cartwheel提供文字生成3D动画,为创作者提供支持

从头开始制作3D角色动画通常既费力又费钱,需要使用复杂的软件和动作捕捉工具。Cartwheel希望让基本动画变得简单,只需用文字描述动画,就可以用AI生成基本动作。

因此用户在使用Cartwheel时,可以从文本框时输入任何内容,一两分钟后就可以得到一个流畅的基本动作动画,然后可以将其导出到3D编辑软件中。

Cartwheel表示,动画师无需在迈步,拍打,坐下等基本动作上花费太多时间,Cartwheel可以自动生成基本动作,用户可以自己对其进行关键帧处理,制作过程会更加快捷。

https://techcrunch.com/2024/06/05/cartwheel-generates-3d-animations-from-scratch-to-power-up-creators/

苹果发布会前iOS ChatGPT迎来重大更新,支持后台交互

距离类似ChatGPT的智能功能引入iOS 18仅剩几天时间。ChatGPT 官方 iOS 应用迎来重大更新(1.2024.150),用户现在可以在使用其他应用的同时继续与ChatGPT进行对话。
ChatGPT的这项全新多任务功能默认处于关闭状态,需要手动开启。

开启后台对话功能后,用户可以启动与ChatGPT的语音对话,然后离开应用并继续交谈。即使用户在使用其他应用,也能继续与ChatGPT语音助手进行对话。

https://www.ithome.com/0/773/429.htm

Nvidia 市值突破 3 万亿美元,超越苹果

得益于AI芯片的需求激增,英伟达今年股价飙升约147%,市值增加约1.8万亿美元,周三,该公司股价上涨5.2%,收于创纪录的1224.40美元,市值超过3万亿美元,超越苹果公司。

周三股价上涨使英伟达CEO黄仁勋在彭博亿万富翁指数上的财富增加了50多亿美元,达到1074亿美元。

英伟达没有放缓脚步的迹象,CEO黄仁勋表示计划每年升级其AI加速器。黄仁勋在台湾大学的演讲中提到,生成式AI的兴起是一场新的工业革命,随着AI技术渗透到个人电脑领域,英伟达将继续扮演重要角色。

https://es-us.finanzas.yahoo.com/news/nvidia-tops-3-trillion-market-191513270.html

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎扫码关注,解锁更多 AI 资讯~

这篇关于AI日报|文生语音大模型国内外均有突破,Pika完成6亿新融资,视频大模型也不远了!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039546

相关文章

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项