第一个现象级音乐生成产品Suno;GenAI动画技能全图;超级个体的技术写作手册;大语言模型入门新书 | ShowMeAI日报

本文主要是介绍第一个现象级音乐生成产品Suno;GenAI动画技能全图;超级个体的技术写作手册;大语言模型入门新书 | ShowMeAI日报,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

👀 AI将彻底摧毁阅读文化,书籍这种内容载体真的过时了吗?

https://www.kdpcommunity.com/s/article/Addition-of-AI-Questions-to-KDP-Publishing-Process

补充一个背景:Amazon KDP (Kindle Direct Publishing) 是亚马逊为创作者提供的一个自助出版平台。作者可以基于平台的系列工具,轻松创建并发布电子书/平装书并获取收益。

ChatGPT 等大模型聊天工具的问世,深刻改变了一直以来的创作方式。一批「先锋」创作者孜孜不倦地探索,寻找 AIGC 参与或主导创作过程的最佳方式。

从最开始的灵感风暴、片段素材,到后来独立产出短篇小说、中篇小说、翻译校对、配图插画、绘本漫画……日渐完备的提示词和越来越智能的创作工具,也使得 AIGC 书籍快速、大批量地冲向了市场

👆 上面提到的 Amazon KDP 平台,因为其特殊的发行制度,在一段时间内成为 AIGC 书籍的汇聚地。2023年9月,Amazon 发布官方公告,明确规定每名作者每天自行出版书籍不得超过三本,为这一趋势按下了减速键。


https://matduggan.com/ai-is-gonna-kill-books/

补充一份背景:按照传统的阅读方式来计算,普通人的年均阅读量是4本,有良好阅读习惯的人可以看完30-50本,而超级读者的上限也就80本左右。

Mathew Duggan 这篇博文比较完整地说清楚了「纸质书 → 电子书」这一转变所带来的阅读伤害,并且预测了「AI会如何彻底颠覆长久以来的阅读传统」。

随着互联网的发展而出现的海量质量参差不齐的电子书,挤占了本来就有限的阅读时间,并且慢慢演变成了「夸张的标题+有争议的话题」这种吸引流量的套路。

优质内容创作者们深受其害,并逐步了创熄灭作热忱。这已经是创作者和读者的「双输」了。而AI时代,这个趋势被加速了。

少数创作者用AI技术在短时间内制造了大量「垃圾」,推向市场后也不担心用户是否喜欢,因为数量就可以取胜了。另一种意义上的「薄利多销」。

读者面对的,是更加不能确定的内容品质和阅读体验,谁也不想花几个小时读一本垃圾。看完书后意识到被骗了,是一种混合了愤怒和失望的激烈情绪,把更多人推得越来越远……

🉑 第一个现象级音乐生成产品 Suno.ai,音频领域的内容协同创作工具

https://www.suno.ai/

补充一份背景:Suno.ai 是一个基于AI的音乐创作平台,可以根据用户输入的简单提示词生成带有伴奏和人声的音乐,还支持自定义设置歌词、风格和歌名

2022年,音乐家和AI科学家组建团队,在努力了18个月后成功推出 Suno.ai 并获得了广泛的认可。不需要乐理知识,不需要任何乐器,只需要想象力就可以轻松创建音乐!!Suno.ai 增长迅速并成为各大AI榜单的常客。

2023年12月,微软宣布旗下 Copilot 与Suno 达成合作。用户在微软 Copilot 中输入简单指令,就可以调用 Suno 插件完成音乐创作。这次合作进一步提高了 Suno.ai 的知名度和认可度。

虽然,Suno.ai 还有很多优化和发展空间,但它展现出的能力已经足够让普通用户欣喜,首页 Trends 排行榜的歌曲听起来甚至还挺不错 ⋙ 关于 Suno.ai 更多介绍

Suno.ai 的定位,与视频领域的AI创作工具 Pika 非常类似。

它们直接允许所有用户创建内容,而不仅仅是专业人士的创作辅助工具。因此它们讲述的是类似的故事——AI时代的 TikTok ⋙ Suno.ai 内容协同创作工具的发展推演



🉑 好歌词是成功的一半:手把手教你用 LLM生成 Suno 歌词

https://210ethan.github.io/thoughts/aimusic.html

补充一份背景:今天日报第2条提到了AI音乐生成工具 Suno.ai,提到可以自定义设置歌词;这里就交给你如何使用 Prompt 生成可以直接可用的歌词

作者将 ChatGPT + Suno.ai 两个工具结合起来,构建了一个简单实用的AI音乐创作工作流。在 👆 这篇文章里,作者分享了自己的 Prompt 结构,并且用5个示例展示了 Prompt 和音乐的生成效果。

作者的经验是,有吸引力和娱乐性的歌曲会更受听懂欢迎,这就需要高超的提示词技巧,其中一条建议就是把更多信息巧妙地隐藏中歌词中

有效的提示词结构

Create a(n) [number]-verse [style of music, e.g., country, rap, metal] that teaches the listener [information]

创建一首包含 [数字] 段歌词的 [音乐风格,例如乡村、说唱、金属] 的歌曲,给听众传达 [信息]

可以添加的额外条件或限定词

Have a [music style] feature in the middle

在歌曲中间加入 [音乐风格] 的特色

In the style of [artist]

模仿 [艺术家] 的风格

Use keywords such as [keyword1], [keyword2]

使用关键词如 [关键词1][关键词2]

Use a level of detail a [grade level] grader could understand

使用 [年级] 学生能理解的细节水平

Have a [type of mood] mood

营造 [某种情绪] 的情绪


我们选择文中的第一个示例,展示作者使用的提示词。生成的完整歌词 👆 如上图所示。

将歌词输入 Suno.ai 就可以生成对应的音乐片段啦,作者附在了原文里,点击原文可以听到~

Create an eight-verse country song that teaches the listener what the noble gases are, their properties, and how they’re different from other periodic table elements.

创建一首包含八段歌词的乡村风格歌曲,教授听众什么是稀有气体,它们的性质,以及它们与其他周期表元素的不同之处。

👀 我开了一家员工全是AI的公司,自动帮我炒股

https://www.bilibili.com/video/BV1Pe411H7PQ/

点击 👆 上方视频,可以查看完整的协作流程

B站 @林亦LYi 团队将把多个不同职能的 AI Agent 串联在一起,让他们互相交流讨论共同完成炒股赚钱的最终目标

作者一开始的设想非常好,基于AI构建了多名员工角色:专家巴菲特、领导 (分配任务)、谏官 (监督领导),还有新闻摘抄员、股价查询员、程序员、执行机器人……

然而这一切非常不顺利 🤔 这些员工的第一次合作时,篡位、罢工、状况百出。作者将 Prompt 大修一番才最终正常了一些。

这轮投资成绩为「三天时间赚了 0.49714%」。作者团队还在持续优化,并将于一个月后公布最新进展,可以关注一下~


https://github.com/OpenBMB/ChatDev/

ChatDev是一家虚拟软件公司,由智能体担任不同岗位角色,形成了一个多智能体 (multi-agent) 的组织架构。

Up主在视频末尾提到,这次尝试用到了 👆 清华大学的 ChatDev 项目。ChatDev 提供了一个易于使用、可高度定制、可扩展的框架,用于研究集体智慧。在这个场景下,AI 智能体们可以自主完成所有工作,包括编程、测试、优化、写文档等等。

🉑 零一科技Pretrain负责人@黄文灏:回望做大模型的一年

https://www.zhihu.com/question/632702043/answer/3363750643

补充一份背景:零一万物是由李开复创立的AI大模型创业公司,2023年3月组建,6月开始运营,11月发布首款开源中英双语大模型「Yi」

知乎有一个热度很高的问题:ChatGPT 发布一周年了,回望这一年你有什么感悟?1月15日,零一科技技术合伙人 @黄文灏 贡献了自己的答案,记录了几个听上去有点反共识的点。听听一线最核心岗位的见解:

  1. OpenAl 没有想象中那么稳:作者年初访问美国时,感觉国内与OpenAI在大模型领域的差距巨大,但年底再次访问时,对国内的进步感到信心满满;尽管 ChatGPT 领先,但国内的进步显著,头部大模型已与 ChatGPT 3.5相当

  2. OpenAI面临的诸多挑战OpenAI 面临着 AGI 和商业化追求之间的矛盾,以及模型领先力的可持续性问题,如果无法保持领先,可能会被传统企业和产品公司替代

  3. 没有「百模大战」:大模型分为两类,一类是从头开始训练的基础模型 (如 Yi、QWen、Baichuan、ChatGLM、DeepSake 等),另一类是 Continue Pretraining和 SFT 类别的模型,前者的花费是后者的几倍之多

  4. 开源和闭源的差距比想象中要大大模型开源的只是权重和模型结构,模型结构大家都相差不大,而更重要的数据和训练方法都没有开源;普通开发者很难参与大模型预训练过程,更多是在预训练完成后基于模型做 posttraining 的工作

  5. LLaMA对国内大模型的生态没有太大影响 (仅针对预训练):LLaMA 权重开源对中国大模型的繁荣帮助有限,因为数据和训练方法未公开;但是 LLaMA 提供了信心和投入的勇气

  6. 中国的researcher比想象中要强:中国的研究人员在大模型领域的实力被低估,国内研究者在大模型赛道上的进步迅速,有潜力的学生和新毕业生也能取得显著成果

🉑 生成式人工智能「动画」技能地图:技术脉络 + 工具合集

这是一份非常新且全的「GenAI+动画」资源汇总,把涉及到的技术和工具进行了层次化的总结,整理成了这份清晰的从业者技能地图。

而且,非常难得的是,作者持续追踪并更新到了2023年12月!!果断加入收藏夹~

Generative Image / 图像生成

As material and assets / 素材和资产

frame-by-frame / 图像逐帧动画

  • Standalone (text2imgs)

  • Transformative

Generative Video / 视频生成

Image models enhanced for video / 图像模型视频增强

Generative video models / 视频生成模型

  • Standalone (txt2vid)

  • Transformative (img2vid, vid2vid)

其他

3D character motion / 生成3D运动角色

LLM powered / LLM 驱动的工具

Face Animated and speech synthesis / 人脸的语音动画合成


https://diffusionpilot.blogspot.com/2023/09/overview-ai-animation.html

这篇文章可以作为小白入门指导,也可以是专业人士的备忘录

作者还为这张图写了一篇详细的使用手册,包括各部分的工具清单、使用链接、生成示例,还总结对比了优缺点,并且超链了大量的学习资料。

🉑 新书推荐 | 理解大语言模型:学习基础概念和技术

ShowMeAI知识星球资源编码:R224

这本书「Understanding Large Language Models: Learning Their Underlying Concepts and Technologies」是一门基础入门书,主要内容是大语言模型 (LLM) 的基本概念及基础技术,可以当作迈向 LLM 的第一步。

读完本书之后,你可以掌握 LLM 的基本概念,了解自然语言处理 (NLP) 的发展历程,理解 Transformer 模型和注意力机制,开始探索不同类型的 LLM 及其应用,并且能够掌握流行的 LLM 架构。

第1章:介绍

  • AI的简要历史

  • LLMs的地位

  • 总结

第2章:NLP的演变

  • NLP的历史

  • NLP的任务

  • NLP的基本概念

  • 语言建模

  • 总结

第3章:Transformer

  • 注意力

  • Transformer架构

  • 总结

第4章:什么使LLMs变大?

  • 什么使Transformer模型成为LLM

  • LLMs的类型

  • 基础模型

  • 应用LLMs

  • 过拟合

  • 灾难性遗忘

  • 评估

  • 总结

第5章:流行的LLMs

  • 生成预训练Transformer

  • 来自Transformer的双向编码器表示

  • Pathways语言模型

  • Meta AI的大型语言模型

  • 总结

第6章:威胁、机会和误解

  • LLMs与超级智能AI的威胁

  • 误解和滥用

  • 机会

  • 总结



🉑 技术写作手册 | 超级个体的创作心经,构建个人IP的实用小册

ShowMeAI知识星球资源编码:R225

Thoughtworks 多位作者共同撰写了这份「技术写作手册」,阐述他们在技术写作领域的各种经验和心得。如果你对创作感兴趣,或者想建立自己的内容IP,不妨看看这份薄薄的手册。

AI已经颠覆了创作流程和阅读习惯,但是,有关创作的诸多本质和技巧,依然是有效的

  1. 写作为什么这么难:写作的难度在于需要快速正向反馈和相对容易的任务;写作需要克制、避免低质信息的干扰,同时需要沉浸、为心流腾出时间

  2. 如何看待写作这件事:写作是创造性活动,需要心理建设,但也不需要过多准备,可以立即开始,形成自己的工作流程

  3. 这几年技术写作的感悟:技术写作可以巩固知识、分享知识、获得成就感,但这是一个长期的过程,不应该追求短期的点击量

  4. 写了十年技术博客的收获:长期写作带来的技术提升、个人品牌建设、以及对写作本身的理解;以及写作过程中的迷思和陷阱,比如「知识的诅咒」、对读者反馈的误解

  5. 技术人员如何写一本书:写书是需要耐心和毅力,更需要选择合适的写作方式和工具,与博客创作还是有区别的

  6. 我的第一本英文技术书:作者如何开始并逐步完善和重构内容的完整过程,分享了英文写作的挑战和收获,以及如何通过翻译提升语言能力

  7. 用什么工具写书:如何选择写作工具 (Word、Markdown、Latex等) 以及工具对写作效率的影响,使用 Git 进行版本控制的经验分享

  8. 写作的素材、排版、发布和推广:写作素材的收集、文章的排版规范、发布渠道的选择以及文章的推广策略

  9. 翻译这件小事:一个比较规范得翻译过程,以及各种技巧和注意事项

  10. 写作和编程:将写作与编程进行比较,向编程规范学习如何写作

  11. 技术写作的困境:技术写作面临的挑战,如何保证文章效果,如何找到内容受众,如何把握作品长度,如何才能得到更多的曝光等

  12. 如何评价一篇文章:评价文章质量的框架,包括写作动机、文章要解答的问题、优秀文章的特质、文章的结构和表面功夫等

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

这篇关于第一个现象级音乐生成产品Suno;GenAI动画技能全图;超级个体的技术写作手册;大语言模型入门新书 | ShowMeAI日报的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/622051

相关文章

乐鑫 Matter 技术体验日|快速落地 Matter 产品,引领智能家居生态新发展

随着 Matter 协议的推广和普及,智能家居行业正迎来新的发展机遇,众多厂商纷纷投身于 Matter 产品的研发与验证。然而,开发者普遍面临技术门槛高、认证流程繁琐、生产管理复杂等诸多挑战。  乐鑫信息科技 (688018.SH) 凭借深厚的研发实力与行业洞察力,推出了全面的 Matter 解决方案,包含基于乐鑫 SoC 的 Matter 硬件平台、基于开源 ESP-Matter SDK 的一

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

C++必修:模版的入门到实践

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C++学习 贝蒂的主页:Betty’s blog 1. 泛型编程 首先让我们来思考一个问题,如何实现一个交换函数? void swap(int& x, int& y){int tmp = x;x = y;y = tmp;} 相信大家很快就能写出上面这段代码,但是如果要求这个交换函数支持字符型

持久层 技术选型如何决策?JPA,Hibernate,ibatis(mybatis)

转自:http://t.51jdy.cn/thread-259-1-1.html 持久层 是一个项目 后台 最重要的部分。他直接 决定了 数据读写的性能,业务编写的复杂度,数据结构(对象结构)等问题。 因此 架构师在考虑 使用那个持久层框架的时候 要考虑清楚。 选择的 标准: 1,项目的场景。 2,团队的技能掌握情况。 3,开发周期(开发效率)。 传统的 业务系统,通常业

零基础STM32单片机编程入门(一)初识STM32单片机

文章目录 一.概要二.单片机型号命名规则三.STM32F103系统架构四.STM32F103C8T6单片机启动流程五.STM32F103C8T6单片机主要外设资源六.编程过程中芯片数据手册的作用1.单片机外设资源情况2.STM32单片机内部框图3.STM32单片机管脚图4.STM32单片机每个管脚可配功能5.单片机功耗数据6.FALSH编程时间,擦写次数7.I/O高低电平电压表格8.外设接口

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

ps基础入门

1.基础      1.1新建文件      1.2创建指定形状      1.4移动工具          1.41移动画布中的任意元素          1.42移动画布          1.43修改画布大小          1.44修改图像大小      1.5框选工具      1.6矩形工具      1.7图层          1.71图层颜色修改          1

C++入门01

1、.h和.cpp 源文件 (.cpp)源文件是C++程序的实际实现代码文件,其中包含了具体的函数和类的定义、实现以及其他相关的代码。主要特点如下:实现代码: 源文件中包含了函数、类的具体实现代码,用于实现程序的功能。编译单元: 源文件通常是一个编译单元,即单独编译的基本单位。每个源文件都会经过编译器的处理,生成对应的目标文件。包含头文件: 源文件可以通过#include指令引入头文件,以使

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山

android 带与不带logo的二维码生成

该代码基于ZXing项目,这个网上能下载得到。 定义的控件以及属性: public static final int SCAN_CODE = 1;private ImageView iv;private EditText et;private Button qr_btn,add_logo;private Bitmap logo,bitmap,bmp; //logo图标private st