超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单

本文主要是介绍超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Stable Diffusion最强版本,来了!

图片

刚刚,SDXL 1.0正式发布,可免费在线试玩。

效果上,无论是以假乱真的写实大片:

图片

超现实的熊猫喝啤酒:

图片

还是赛博朋克漫画,都非常nice~

图片

Stability AI表示,SDXL 1.0能生成更加鲜明准确的色彩,在对比度、光线和阴影方面做了增强,可生成100万像素的图像(1024×1024)。

而且还支持在网页上直接对生成图像进行后期编辑。

(有一股和Midjourney、Firefly打擂台的味儿了)

网友们已经按捺不住上手试玩了~

和基础Stable Diffusion相比,SDXL 1.0生成结果更加准确和逼真。

图片

而且官方表示,提示词也能比之前更简单了。

这是因为SDXL 1.0的基础模型参数量达到了35亿,理解能力更强。

对比基础版Stable Diffusion,参数量只有10亿左右。

由此,SDXL 1.0也成为当前最大规模的开放图像模型之一。官方甚至直接说这就是世界上最好的开放图像模型图片

图片

话不多说,我们来上手体验了~

把马斯克印在青花瓷上

SDXL 1.0在操作上很便捷,直接输入prompt即可,还能从下面勾选风格、尺寸参数等。

图片
图片

一次生成默认是出4张图,如果不满意还可以点下方“加号”让它继续画。

图片

官方介绍说,现在让SDXL 1.0生成大作,无需再加入“杰作”这种提示词了。

让它生成一幅日漫风格的图像,画风非常贴合,而且在光影的处理上也更加自然了。

1990s anime low resolution screengrab couple walking away in street at night

图片

或者是一幅风景照?也能以假乱真了。

图片

甚至是让马斯克站在中式庭院里,抬头斜望着天空……

Elon Musk in an ancient Chinese palace

图片

或者是把苹果收购了?

在「WWDC」上,他举着全新款iPhone向人们展示,身边还围满了记者和粉丝(doge)。

Elon Musk releasing new iPhone at WWDC

图片

除了这些老马的洋葱新闻之外,绘画风格的作品效果也不错。

左边的是齐白石水墨风格,而右边是一幅漫画。

左:Elon Musk delivering a speech, ink painting, Qi Baishi style
右:Elon Musk comic

图片

除了绘画,也可以把老马放进我们的元青花。

Elon musk in the shape of Yuan Dynasty Blue and White Porcelain

图片

上面展示的这些「老马的故事」,用的prompt都比较简单。

但从效果并没有因为提示词简单而拉胯,这也与官方的说法相印证。

图片

不过我们还是想看看,如果用更加复杂精致的prompt,会是什么样子?

我们找到了Midjourney创作的一张老马在苏联担任汽修工人的珍贵照片,重新喂给MJ,让它生成个prompt。

图片

MJ生成了下面这样的prompt,我们就用它来测试SDXL:

Elon Musk(这里MJ生成的是a man) standing in a workroom, in the style of industrial machinery aesthetics, deutscher werkbund, uniformly staged images, soviet, light indigo and dark bronze, new american color photography, detailed facial features

图片

风格完全符合我们的预期,细节也还不错。

再来一个复杂prompt的图作为收尾,同样是MJ根据此前的作品生成后喂给SDXL。

elon musk eating food with chopsticks, in the style of peter coulson, cross-processing/processed, pinhole photography, herb trimpe, james tissot, transavanguardia, spot metering

左边是SDXL的作品,右边是MJ的原版,大家可以对比一下。

图片

提示词同样支持中文,不过似乎会在给出结果中倾向于国风,准确性可能也会受到影响。

比如输入“一只老虎在海边”后,意外给出了一个国风妹子。

图片

效果大家都已经看到了,那么SDXL生成图片的速度如何呢?

对于免费用户来说,时间主要花费在排队上了,不过也不会等待太久。

在5.5秒的时间内,排队人数从160减少到了99。

图片

除了生成图像外,SDXL还提供了很多后期编辑功能。

具体来说,包括去除背景、细节处理、画幅扩增等等。

图片

这些功能是SDXL所在的Clipdrop平台上已有的,而SDXL可以一键将生成的图片传入对应模块。

这里我们选择背景消除功能展示一下,可以看出边缘的细节几乎没有什么破绽。

图片

目前,SDXL的免费使用额度还是比较高的,登录后每个账户每天可生成400张(需要排队)。

月付的价格是9美元每月,年付则相当于7美元(约50元人民币)每月,包含了1500张每天的SDXL额度,且无需排队。

图片

不过不同区域的价格似乎也有所区别,比如阿根廷的年付价格平摊到每月是742比索(约合19.4元人民币或2.7美元)。

图片

此外,由于付费版本实际上是Clipdrop平台的Pro订阅,所以也包含了该平台的其他功能。

除了Pro账户,还有API版本可供开发者使用(可以访问Stability AI、Amazon等平台)。

开放图像模型中的“最大杯”

在最新博客中,Stability AI介绍了SDXL 1.0的更多技术细节。

首先,模型在规模和架构上都有了新突破。

它创新性地使用了一个基础模型(base model)+一个细化模型(refiner model)。

二者的参数规模分别为35亿66亿

图片

这也使得SDXL 1.0成为目前规模最大的开放图像模型之一

Stability AI创始人莫斯塔克(Emad Mostaque)表示,更大规模的参数量能让模型理解更多概念,教会它更深层次的东西。

同时在SDXL 0.9版本还进行了RLHF强化。

这也是为什么现在SDXL 1.0支持短提示词,而且能分清红场(the Red Square)和一个红色的广场(a Red Square)。

图片

在具体合成过程中,第一步,基础模型产生有噪声的latent,然后由细化模型进行去噪。

其中基础模型也可以作为独立模块使用。

这两种模型结合能生成质量更好的图像,且不需要消耗更多计算资源。

官方介绍SDXL 1.0可以运行在8GB VRAM的消费级GPU上,或者是云端。

除此之外,SDXL 1.0在微调也有了提升,可以生成自定义LoRAs或者checkpoints。

Stability AI团队现在也正在构建新一代可用于特定任务的结构、风格和组合控件,其中T2I/ControlNet专门用于SDXL。

不过目前这些功能还处于beta测试阶段,后续可以关注官方更新。

图片

总结来说,文生图都是一个逐渐迭代的过程,SDXL 1.0的目标就是让这个过程更加简单。

莫斯塔克表示,现在只需要5-10张图片,就能快速微调模型。

从用户反馈中也能看到,相较于Stable Diffusion,SDXL 1.0更能让大家满意。

图片

实际上,从今年4月以来,Stability AI就发布了SDXL最早的测试版。

6月份开始进行内测,前段时间发布了0.9版本,当时就预告了会在7月发布一个开放版本,即最新的1.0版本。目前相关代码权重已经发布在GitHub上。

而且Stability AI机器学习负责人表示,相较于SDXL 0.9,1.0版本降低了对算力的需求。

写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

这篇关于超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/838217

相关文章

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

公共筛选组件(二次封装antd)支持代码提示

如果项目是基于antd组件库为基础搭建,可使用此公共筛选组件 使用到的库 npm i antdnpm i lodash-esnpm i @types/lodash-es -D /components/CommonSearch index.tsx import React from 'react';import { Button, Card, Form } from 'antd'

如何免费的去使用connectedpapers?

免费使用connectedpapers 1. 打开谷歌浏览器2. 按住ctrl+shift+N,进入无痕模式3. 不需要登录(也就是访客模式)4. 两次用完,关闭无痕模式(继续重复步骤 2 - 4) 1. 打开谷歌浏览器 2. 按住ctrl+shift+N,进入无痕模式 输入网址:https://www.connectedpapers.com/ 3. 不需要登录(也就是

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

android 免费短信验证功能

没有太复杂的使用的话,功能实现比较简单粗暴。 在www.mob.com网站中可以申请使用免费短信验证功能。 步骤: 1.注册登录。 2.选择“短信验证码SDK” 3.下载对应的sdk包,我这是选studio的。 4.从头像那进入后台并创建短信验证应用,获取到key跟secret 5.根据技术文档操作(initSDK方法写在setContentView上面) 6.关键:在有用到的Mo

回调的简单理解

之前一直不太明白回调的用法,现在简单的理解下 就按这张slidingmenu来说,主界面为Activity界面,而旁边的菜单为fragment界面。1.现在通过主界面的slidingmenu按钮来点开旁边的菜单功能并且选中”区县“选项(到这里就可以理解为A类调用B类里面的c方法)。2.通过触发“区县”的选项使得主界面跳转到“区县”相关的新闻列表界面中(到这里就可以理解为B类调用A类中的d方法

自制的浏览器主页,可以是最简单的桌面应用,可以把它当成备忘录桌面应用

自制的浏览器主页,可以是最简单的桌面应用,可以把它当成备忘录桌面应用。如果你看不懂,请留言。 完整代码: <!DOCTYPE html><html lang="zh-CN"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><ti

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python