AI杀疯!2023上半年至今有趣的AI算法(内附视频)

2023-10-20 12:36

本文主要是介绍AI杀疯!2023上半年至今有趣的AI算法(内附视频),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

公众号:算法一只狗
在这里插入图片描述

文章目录

  • 第一个,一切都可以进行分割
  • 第二个,开源图文回答工具
  • 第三个,视频转换风格生成
  • 第四个,免费好用的文档对话工具
    • 文档对话能力
    • 文档联系功能

今年,我们见证了人工智能算法的起飞,还有各种围绕大模型、AIGC等领域算法百花齐放。

如果说去年人工智能领域的关键词是“元宇宙”的话,那么2023年无疑是属于“大模型”的一年。迄今为止,国内外的科技公司、高校、研究机构已经发布了多款人工智能大模型,“百模大战”不断加码。

当然,作为AI从业者的我们,当然要不断学习。尽管目前大模型AI还不能够替代我们,但是也要求我们学会使用它,帮助自己提升工作效率。
image.png

因此这期我们来总结一下上半年的一些好玩有趣的AI算法。大家有兴趣的可以查看我公众号的详细文章。

  1. 一切都可以进行分割

https://mp.weixin.qq.com/s/HROpJHlcRX64J1kMz4L9Dw

  1. 开源图文回答工具

https://mp.weixin.qq.com/s/prJ9p9NAXYio9G8WCGomqQ

  1. 视频转换风格生成

https://mp.weixin.qq.com/s/UN5meK7YKEfd32TPpiQCLQ

  1. 免费好用的文档对话工具

https://mp.weixin.qq.com/s/e4bN6ciw5vzh9KR_Vc1YCw

第一个,一切都可以进行分割

一直沉静许久的CV圈,被Meta发布的SAM模型给炸出圈来。

发布的新模型,宣称能够“剪切”任何的图像。它可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练,就可以识别任意的图像。

image.png

从官方放出的demo来看,只需要通过鼠标点击对应的物体,就可以有效识别:
e1b44d6c-4aa7-4589-98d5-5890fffcf9df.gif

又或者给定一张图片,让它识别出图像中所有的物体:
54769a6b-184d-4c95-8cfb-f26c1e0e3413.gif

现在大模型都需要有通用的,自适应于下游任务的能力。SAM模宣称可以直接理解不熟悉的物体和图像进行零样本分割,而无需额外的训练。
06971fae-3e79-47a4-a45d-b4b15857bb44.gif

第二个,开源图文回答工具

在大模型的加持下,图片+文字的多模态模型也雨后春笋般。其中比较出名的MiniGPT-4,它产生了类似于 GPT-4 中新兴的视觉语言能力。
在MiniGPT-4模型中,你可以围绕一张图片和它进行对话:
在这里插入图片描述

从模型实现上来看,主要分为两步进行训练:

  • MiniGPT-4冻结一个视觉编码器和LLM
  • 在第一个阶段,使用100万个图像文本对进行训练。通过第一阶段后,模型能够有效理解图像,但是其生成能力变差
  • 第二个阶段则使用高质量的图像文本对数据集,共3500个进行微调,以显着提高其生成可靠性和整体可用性。这个阶段的计算效率很高,使用单个 A100 只需要大约7分钟。

在这里插入图片描述

在官网放出的例子中,它可以描述这张图片的内容:
image.png

或者可以给这张图定制一个广告语:
image.png

第三个,视频转换风格生成

https://www.yuque.com/yuqueyonghumaryyq/fmvho1/rwh3g25ekk25kt2p
在以前如果要对现有的视频进行风格转换,往往会造成视频闪烁。

但是这个难题近期被南洋理工大学的团队很好的解决。首先来看看他们生成的视频效果:
79305a59-4203-433d-97b2-f0cbe2733ead (1).gif

可以看到,生成的视频很丝滑,而且人物的动作衔接的很连贯。

不仅仅在人物方面能够解决“闪烁”问题,就连建筑上也能够很好的hold住不同的风格:
建筑.gif

同时帧与帧之间比较流畅,已经能够和正常的视频相媲美了。
comparison_1[00_00_03--00_00_23].gif

第四个,免费好用的文档对话工具

文档对话能力

我们知道,目前有一众收费的ChatPDF等文档问答网站,而Claude2直接可以说秒杀这些大部分的网站

它可以在官网上传文件进行对话 :
image.png

而且最大可以上传5个文件,每个文件最大可以10MB.

比如我这里把Claude2的技术文档上传上去,让它进行总结。它能够在几秒内把PDF进行总结:
image.png

同时也可以不断询问文档中的细节,这个能力和ChatPDF相当:
image.png

当然,我们也能够利用它的能力,进行excel数据分析:
image.png

文档联系功能

而且,只要我们上传更多的文档,就可以让它总结其中之间的联系,省去了我们看多个文档写总结的时间:
image.png

这篇关于AI杀疯!2023上半年至今有趣的AI算法(内附视频)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/247114

相关文章

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

AI儿童绘本创作

之前分享过AI儿童绘画的项目,但是主要问题是角色一致要花费很长的时间! 今天发现了这款,非常奈斯! 只需输入故事主题、风格、模板,软件就会自动创作故事内容,自动生成插画配图,自动根据模板生成成品,测试效果如下图。 变现方式:生成儿童绘本发布到各平台,吸引宝妈群体进私域。  百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全

据阿谱尔APO Research调研显示,2023年全球髓内钉市场销售额约为4.7亿美元

根据阿谱尔 (APO Research)的统计及预测,2023年全球髓内钉市场销售额约为4.7亿美元,预计在2024-2030年预测期内将以超过3.82%的CAGR(年复合增长率)增长。 髓内钉市场是指涉及髓内钉制造、分销和销售的行业。髓内钉是一种用于整形外科手术的医疗器械,用于稳定长骨骨折,特别是股骨、胫骨和肱骨。髓内钉通常由不銹钢或钛等材料制成,并插入骨的髓管中,以在愈合过程中提供结构支

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

【新闻】AI程序员要来了吗?阿里云官宣

内容提要 6 月 21 日,在阿里云上海 AI 峰会上,阿里云宣布推出首个AI 程序员。 据介绍,这个AI程序员具备架构师、开发工程师、测试工程师等多种岗位的技能,能一站式自主完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级即可完成应用开发,大幅提升研发效率。 近段时间以来,有关AI的实践应用突破不断,全球开发者加速研发步伐。有业内人士坦言,随着大模型性能逐渐提升,AI应

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506