Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3

2024-04-19 07:44

本文主要是介绍Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天,StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo API 的API接口服务。

Stability AI 称仍在持续改进该模型,并没有说明发布日期。模型还没发布,但API先来了!

官方宣传称SD3模型在文字到图像生成领域的表现达到或超过了DALL-E 3和Midjourney v6等行业领先模型,尤其是在字体和提示遵循方面。

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

Stability AI 宣布其开发者平台API现已支持Stable Diffusion 3及其增强版本Stable Diffusion 3 Turbo。现在开发者可以通过这个 API 接口,来快速开发有趣的应用程序了!

与网友们的预期不同的是,这次还有一个 Stable Diffusion 3 Turbo 的型号可供选择,难道这是另一个大招吗?

虽然模型还未开源,但StabilityAI 承诺:

我们致力于开放生成式人工智能,计划在不久的将来对 Stability AI 会员资格开放模型权重,实现自行托管。

接下来就是欣赏Stable Diffusion 3 的艺术时刻:😎

提示: 白色建筑顶上的红色沙发。涂鸦上写着“全城最佳景观”。(A red sofa on top of a white building. Graffiti with the text “the best view in the city”.)

图2.

▲图2.

提示: 拟人化的乌龟坐在纽约地铁上的肖像照片。(Portrait photograph of an anthropomorphic tortoise seated on a New York City subway train.)

图3.

▲图3.

提示: 唯美的粉彩魔幻现实主义,一个男人以复古电视为头,站在沙漠中央,复古的照片。(Aesthetic pastel magical realism, a man with a retro TV for a head, standing in the center of the desert, vintage photo.)

图4.

▲图4.

提示: 一个纸板箱,上面写着“他们说在这里不适合思考”,这个纸板箱很大,放在剧院的舞台上。(A cardboard box with the phrase “they say it's not good to think in here”, the cardboard box is large and sits on a theater stage.)

图5.

▲图5.

与FireworksAI 合作提供可靠API服务

StabilityAI表示,他们已经与市场上最快、最可靠的 API 平台 FireworksAI 合作,提供 Stable Diffusion 3 和 Stable Diffusion 3 Turbo。

在 StabilityAI 的技术文档中我们也可以看到目前的 API 提供商即为 FireworksAI。

借助 Fireworks AI,StabilityAI 将可以提供企业级 API 解决方案,确保 99.9% 的服务可用性。

不过,官网提供的 Pricing 显示,SD3 是比 SD3 Turbo 更好的模型,价格差不多比后者高了 40%!按道理说,Turbo 不是应该更贵吗?🤔

目前的每 1000 credits 的价格是 10 美元,大概可以用来购买 5000 张 SDXL 1.0 的图片,而这大约只能生成 153 张 SD3 或者是 250 张 SD3 Turbo 的照片。

图1.

▲图1.

Stable Diffusion 3 有多强?

在 2 月份发布的论文中,我们已经可以看到 Stable Diffusion 3 在视觉质量、提示跟随和排版生成方面优于当前最先进的文本到图像模型,包括其他开源模型(包括 SDXL,SDXL Turbo,Stable Cascade,Playground v2.5 和 Pixart-α)以及闭源模型(如 DALL・E 3,Midjourney v6 和 Ideogram v1)。

图6.

▲图6.

对比上代模型,SD3 采用了与Sora类似的 Diffusion Transformer 技术,并结合了流匹配(Flow Matching)等多项技术改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。

图7. Stable Diffusion 3 的总体架构。

▲图7. Stable Diffusion 3 的总体架构。

新的 Multimodal Diffusion Transformer(MMDiT)架构使用独立的权重集合来表示图像和语言,这与以前版本的 Stable Diffusion 相比,提高了文本理解和拼写能力。

在 MMDiT 架构中,文本和图像的表示分别通过预训练模型进行编码。

具体地说,MMDiT 采用了三种不同的文本嵌入器(两个 CLIP 模型和 T5 模型),以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式,为强大的 SD3 模型提供了基础。

网友们怎么看?

StabilityAI 创始人兼 CEO,Emad Mostaque 曾表示,与视频、语言、代码、3D、音频等一样,Stable Diffusion 3 也将会开源。而网友们则是对此次先提供 API 的行为表示不理解。

难道 StabilityAI 也要做下一个 ClosedAI 了?

不过,底下的网友们也对开源和闭源有着更宽容的理解,也希望公司能够在开源和赚钱之前找到一个平衡点,不要彻底成为下一个 ClosedAI(手动狗头)。

最后,送给各位潜在的艺术家hh:

参考资料

[1]https://stability.ai/news/stable-diffusion-3
[2]https://venturebeat.com/ai/stable-diffusion-3-api-now-available-as-stable-assist-effort-looms/
[3]https://twitter.com/StabilityAI/status/1780599024707596508
[4]https://stability.ai/news/stable-diffusion-3-research-paper
[5]https://stability.ai/news/stable-diffusion-3-api

这篇关于Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/916944

相关文章

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

SpringKafka消息发布之KafkaTemplate与事务支持功能

《SpringKafka消息发布之KafkaTemplate与事务支持功能》通过本文介绍的基本用法、序列化选项、事务支持、错误处理和性能优化技术,开发者可以构建高效可靠的Kafka消息发布系统,事务支... 目录引言一、KafkaTemplate基础二、消息序列化三、事务支持机制四、错误处理与重试五、性能优

新特性抢先看! Ubuntu 25.04 Beta 发布:Linux 6.14 内核

《新特性抢先看!Ubuntu25.04Beta发布:Linux6.14内核》Canonical公司近日发布了Ubuntu25.04Beta版,这一版本被赋予了一个活泼的代号——“Plu... Canonical 昨日(3 月 27 日)放出了 Beta 版 Ubuntu 25.04 系统镜像,代号“Pluc

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Nginx实现前端灰度发布

《Nginx实现前端灰度发布》灰度发布是一种重要的策略,它允许我们在不影响所有用户的情况下,逐步推出新功能或更新,通过灰度发布,我们可以测试新版本的稳定性和性能,下面就来介绍一下前端灰度发布的使用,感... 目录前言一、基于权重的流量分配二、基于 Cookie 的分流三、基于请求头的分流四、基于请求参数的分

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API