AI日报｜文生语音大模型国内外均有突破，Pika完成6亿新融资，视频大模型也不远了！

本文主要是介绍AI日报｜文生语音大模型国内外均有突破，Pika完成6亿新融资，视频大模型也不远了！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章推荐

AI搜索哪家强？16款产品实战测评，效率飙升秘籍！

AI日报｜智谱AI再降价，同时开源9B系列模型；国内外气象大模型竞逐升级

字节推出文本到语音模型家族Seed-TTS：擅长情感表达，与真人几乎无异

字节跳动推出文本到语音模型家族——SEED TTS，其核心亮点在于生成的语音音色高度接近人类，在相似度与自然流畅度方面，可以与真声媲美。

在技术层面有以下创新：

Seed-TTS是一系列大规模自回归文本到语音(TTS)模型，它通过学习语音上下文、说话人相似度和自然度等方面的特征，生成与人类语音难以区分的高质量语音。此外，Seed-TTS还具有优越的情感控制能力，可以根据需求生成具有不同情感和语音属性的语音。
Seed-TTS还提供了自蒸馏方法用于语音分解，可以更好地理解语音的特征，以及增强模型鲁棒性、说话人相似度和控制性的强化学习方法。
Seed-TTS还展示了非自回归(NAR)变体Seed-TTSDiT，它采用完全基于扩散的架构，不依赖于预先估计的音素持续时间，通过端到端处理进行语音生成。

https://bytedancespeech.github.io/seedtts_tech_report/

Stability AI发布Stable Audio Open文本至音频模型，时间可长达47秒

Stability AI宣布推出生成声音和歌曲的开放式人工智能模型—Stable Audio Open。该公司声称，该模型仅接受免版税录音训练。用户只需输入文本描述，模型就能生成最长47秒的声音片段，

Stable Audio Open能够创造鼓点、乐器旋律、环境音效及视频、电影、电视节目的制作元素，还能“编辑”现有歌曲或融合不同曲风，例如将柔和爵士风格应用于另一首歌。

并且Stable Audio Open一大亮点是用户可基于个人音频资料微调模型，让生成的内容更加个性化。

然而，这款开源模型存在局限：无法生成完整歌曲、旋律或人声，对此类需求，Stability AI推荐使用其付费服务Stable Audio。

此外，Stable Audio Open禁止商业用途。

https://techcrunch.com/2024/06/05/stability-ai-releases-a-sound-generator/

Pika完成全新6亿融资，即将发布全新视频生成大模型

AI视频生成初创公司Pika日前已完成总额8000万美元的B轮融资，由Spark Capital领投，Greycroft、Lightspeed Venture Partners以及Jared Leto参投，公司估值超过4.7亿美元，较上一轮翻了一倍。

截至目前，Pika总融资额已达1.35亿美元。Pika用户数达到数百万，每周生成数百万个视频。同时，Pika已租用数百个量级的GPU（图形处理器）芯片，用于模型训练和推理计算。

创始人郭文景表示：“我们正在努力打造最好的视频模式，同时也在努力打造真正服务于创作者的产品。”据悉，Pika将在今年下半年发布一个全新关键的基础模型以及配套产品更新。

https://mp.weixin.qq.com/s/fJtcza5MB9rmFRmLT2bI9g

Cartwheel提供文字生成3D动画，为创作者提供支持

从头开始制作3D角色动画通常既费力又费钱，需要使用复杂的软件和动作捕捉工具。Cartwheel希望让基本动画变得简单，只需用文字描述动画，就可以用AI生成基本动作。

因此用户在使用Cartwheel时，可以从文本框时输入任何内容，一两分钟后就可以得到一个流畅的基本动作动画，然后可以将其导出到3D编辑软件中。

Cartwheel表示，动画师无需在迈步，拍打，坐下等基本动作上花费太多时间，Cartwheel可以自动生成基本动作，用户可以自己对其进行关键帧处理，制作过程会更加快捷。

https://techcrunch.com/2024/06/05/cartwheel-generates-3d-animations-from-scratch-to-power-up-creators/

苹果发布会前iOS ChatGPT迎来重大更新，支持后台交互

距离类似ChatGPT的智能功能引入iOS 18仅剩几天时间。ChatGPT 官方 iOS 应用迎来重大更新（1.2024.150），用户现在可以在使用其他应用的同时继续与ChatGPT进行对话。
ChatGPT的这项全新多任务功能默认处于关闭状态，需要手动开启。

开启后台对话功能后，用户可以启动与ChatGPT的语音对话，然后离开应用并继续交谈。即使用户在使用其他应用，也能继续与ChatGPT语音助手进行对话。

https://www.ithome.com/0/773/429.htm

Nvidia 市值突破 3 万亿美元，超越苹果

得益于AI芯片的需求激增，英伟达今年股价飙升约147%，市值增加约1.8万亿美元，周三，该公司股价上涨5.2%，收于创纪录的1224.40美元，市值超过3万亿美元，超越苹果公司。

周三股价上涨使英伟达CEO黄仁勋在彭博亿万富翁指数上的财富增加了50多亿美元，达到1074亿美元。

英伟达没有放缓脚步的迹象，CEO黄仁勋表示计划每年升级其AI加速器。黄仁勋在台湾大学的演讲中提到，生成式AI的兴起是一场新的工业革命，随着AI技术渗透到个人电脑领域，英伟达将继续扮演重要角色。

https://es-us.finanzas.yahoo.com/news/nvidia-tops-3-trillion-market-191513270.html

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育，覆盖大规模图学习，因果推理，知识图谱，大模型等技术领域，欢迎扫码关注，解锁更多 AI 资讯～

这篇关于AI日报｜文生语音大模型国内外均有突破，Pika完成6亿新融资，视频大模型也不远了！的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

AI日报｜文生语音大模型国内外均有突破，Pika完成6亿新融资，视频大模型也不远了！

文章推荐

字节推出文本到语音模型家族Seed-TTS：擅长情感表达，与真人几乎无异

Stability AI发布Stable Audio Open文本至音频模型，时间可长达47秒

Cartwheel提供文字生成3D动画，为创作者提供支持

苹果发布会前iOS ChatGPT迎来重大更新，支持后台交互

Nvidia 市值突破 3 万亿美元，超越苹果

相关文章

基于Python和MoviePy实现照片管理和视频合成工具

Spring Security基于数据库的ABAC属性权限模型实战开发教程

用js控制视频播放进度基本示例代码

Python基于wxPython和FFmpeg开发一个视频标签工具

Java的IO模型、Netty原理解析

基于Flask框架添加多个AI模型的API并进行交互

SpringBoot使用OkHttp完成高效网络请求详解

使用Python实现文本转语音(TTS)并播放音频

Spring AI ectorStore的使用流程

讯飞webapi语音识别接口调用示例代码(python)