【AIGC半月报】AIGC大模型启元：2024.06（下）

本文主要是介绍【AIGC半月报】AIGC大模型启元：2024.06（下），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

AIGC大模型启元：2024.06（下）

- (1) Gen-3
- (2) Open-Sora（Open-Sora再升级）
- (3) Claude 3.5 Sonnet（Claude升级）
- (4) ChatTTS v3（ChatTTS升级）
- (5) 盘古大模型5.0

(1) Gen-3

2024.06.18 自从OpenAI公布了Sora，视频生成领域正式按下了行业加速键，许多国内外企业纷纷发力，不仅研究发布专门用于视频生成的垂直大模型，还将手里的技术封装成一个个人人能用的AIGC产品。
　　随着新玩家数量的剧增，这场视频生成领域的战争愈演愈烈，其中受到冲击最大的自然是老牌同类竞品模型，比如Pika、SDV、谷歌、Meta，还有刚发布第三代视频生成模型Gen-3 Alpha的Runway。
　　Runway深夜发布的各种演示视频展示出了电影级的画面细节，直接震惊了全体网友。Gen-3与之前的旗舰视频模型Gen-2相比，在模型生产速度和保真度方面有了重大提升，同时对生成视频的结构、风格和运动提供了细粒度的控制。
　　Runway表示，Gen-3 Alpha具有高保真视频、精细动作控制、逼真人物生成、多模态输入、专业创作工具、增强安全、高质量训练等特点。在这次模型的训练过程中，汇集了研究者、工程师和艺术家的集体智慧和努力。正是这种跨学科的协作精神，使得Gen-3 Alpha模型能够理解和表达多种风格和电影概念。
　　官方展示视频时长为10秒，人物生成中的人物面部细节和情感营造方面比较细腻，场景、风景生成中的元素、光影没有太大的违和感。友情提示，以下展示内容因为要转换为GIF，所以画质均有不同程度压缩，想看原视频的朋友可以去Runway官网复习下。

推荐文章： 视频大模型画饼哪家强？Gen-3演示效果绝杀Sora
体验地址： https://runwayml.com/blog/introducing-gen-3-alpha/

(2) Open-Sora（Open-Sora再升级）

2024.06.18 潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展，支持无缝产出任意风格的高质量短片，令人惊喜的是，他们选择再给开源社区带来亿点点震撼，继续全部开源。
　　通过他们的模型权重，能够生成各种酷炫的短片，比如海浪和海螺的亲密接触，还有那些深不可测的森林秘境。
　　在潞晨 Open-Sora 团队发布的这份技术报告中，他们深度剖析了本次模型训练的核心和关键。在上一个版本基础上，引入了视频压缩网络（Video Compression Network）、更优的扩散模型算法、更多的可控性，并利用更多的数据训练出了 1.1B 的扩散生成模型。
　　在这个"算力为王"的时代，我们深知视频模型训练的两大痛点：计算资源的巨大消耗与模型输出质量的高标准。潞晨 Open-Sora 团队以一种极简而有效的方案，成功地在成本和质量之间找到了平衡点。
　　Open-Sora 团队提出了一个创新的视频压缩网络（VAE），该网络在空间和时间两个维度上分别进行压缩。具体来说，他们首先在空间维度上进行了 8x8 倍的压缩，接着在时间维度上进一步压缩了 4 倍。通过这种创新的压缩策略，既避免了因抽帧而牺牲视频流畅度的弊端，又大幅降低了训练成本，实现了成本与质量的双重优化。

推荐文章： 开源模型潞晨 Open-Sora 大突破！
开源地址： https://github.com/hpcaitech/Open-Sora

(3) Claude 3.5 Sonnet（Claude升级）

2024.06.20 刚刚，被称为“OpenAI 最强竞对”的大模型公司 Anthropic 发布了 Claude 3.5 系列模型中的第一个版本——Claude 3.5 Sonnet。
　　Anthropic 在官方博客中表示，Claude 3.5 Sonnet 提高了智能化的行业标准，在各种评估中均优于 GPT-4o、Gemini 1.5 和 Llama-400b 等竞争对手模型和其上一代最智能的模型 Claude 3 Opus，速度和成本也与上一代中等模型 Claude 3 Sonnet 相当。
　　据介绍，Claude 3.5 Sonnet 的成本为 3 美元/百万输入 token，15 美元/百万输出 token，上下文窗口为 20 万 token。
　　现在，Claude 3.5 Sonnet 可在 Claude 网页版和 Claude iOS 应用程序上免费使用，而 Claude Pro 和 Team 计划的用户则可以更高的速率限制访问它，还可通过 Anthropic API、Amazon Bedrock 和 Vertex AI 使用。
　　Anthropic 表示，尽管 Claude 3.5 Sonnet 在智能方面有了飞跃，但红队评估认为，Claude 3.5 Sonnet 仍处于 ASL-2 级。

推荐文章： 刚刚，OpenAI最强竞对发布Claude 3.5 Sonnet，全面超越GPT-4o，重新定义交互方式
参考地址： https://www.anthropic.com/news/claude-3-5-sonnet

(4) ChatTTS v3（ChatTTS升级）

2024.06.22 ChatTTS增强版V3来啦！本次更新增加支持导入SRT、导入音色等功能。结合上次大家反馈的问题，修复了长文本、中英混读等问题。

推荐文章： ChatTTS增强版V3，长文本修复，中英混读，导入音色，批量SRT、TXT，代码开源
开源地址： https://github.com/CCmahua/ChatTTS-Enhanced

(5) 盘古大模型5.0

2024.06.22 华为开发者大会2024（HDC 2024）上，华为常务董事、华为云CEO张平安正式发布盘古大模型5.0，在全系列、多模态、强思维三个方面全新升级；张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践，持续深入行业解难题。
　　此外，华为诺亚方舟实验室主任姚骏、华为云CTO张宇昕分别就盘古大模型5.0技术解密和华为云全栈系统性创新发表主题演讲，详细解读华为云在AI领域的全栈创新优势。
　　全系列：盘古大模型5.0包含不同参数规格的模型，以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用；百亿级参数的Pangu P系列，适用于低时延、高效率的推理场景；千亿级参数的Pangu U系列适用于处理复杂任务；万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。
　　多模态：盘古大模型5.0能够更好更精准地理解物理世界，包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面，可支持10K超高分辨率；在内容生成方面，采用业界首创的STCG（Spatio Temporal Controllable Generation，可控时空生成）技术，聚焦自动驾驶、工业制造、建筑等多个行业场景，可生成更加符合物理规律的多模态内容。

推荐文章： 【重磅】华为云盘古大模型5.0，正式发布！
开源地址： /

这篇关于【AIGC半月报】AIGC大模型启元：2024.06（下）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！