AI杀疯!2023上半年至今有趣的AI算法(内附视频)

2023-10-20 12:36

本文主要是介绍AI杀疯!2023上半年至今有趣的AI算法(内附视频),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

公众号:算法一只狗
在这里插入图片描述

文章目录

  • 第一个,一切都可以进行分割
  • 第二个,开源图文回答工具
  • 第三个,视频转换风格生成
  • 第四个,免费好用的文档对话工具
    • 文档对话能力
    • 文档联系功能

今年,我们见证了人工智能算法的起飞,还有各种围绕大模型、AIGC等领域算法百花齐放。

如果说去年人工智能领域的关键词是“元宇宙”的话,那么2023年无疑是属于“大模型”的一年。迄今为止,国内外的科技公司、高校、研究机构已经发布了多款人工智能大模型,“百模大战”不断加码。

当然,作为AI从业者的我们,当然要不断学习。尽管目前大模型AI还不能够替代我们,但是也要求我们学会使用它,帮助自己提升工作效率。
image.png

因此这期我们来总结一下上半年的一些好玩有趣的AI算法。大家有兴趣的可以查看我公众号的详细文章。

  1. 一切都可以进行分割

https://mp.weixin.qq.com/s/HROpJHlcRX64J1kMz4L9Dw

  1. 开源图文回答工具

https://mp.weixin.qq.com/s/prJ9p9NAXYio9G8WCGomqQ

  1. 视频转换风格生成

https://mp.weixin.qq.com/s/UN5meK7YKEfd32TPpiQCLQ

  1. 免费好用的文档对话工具

https://mp.weixin.qq.com/s/e4bN6ciw5vzh9KR_Vc1YCw

第一个,一切都可以进行分割

一直沉静许久的CV圈,被Meta发布的SAM模型给炸出圈来。

发布的新模型,宣称能够“剪切”任何的图像。它可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练,就可以识别任意的图像。

image.png

从官方放出的demo来看,只需要通过鼠标点击对应的物体,就可以有效识别:
e1b44d6c-4aa7-4589-98d5-5890fffcf9df.gif

又或者给定一张图片,让它识别出图像中所有的物体:
54769a6b-184d-4c95-8cfb-f26c1e0e3413.gif

现在大模型都需要有通用的,自适应于下游任务的能力。SAM模宣称可以直接理解不熟悉的物体和图像进行零样本分割,而无需额外的训练。
06971fae-3e79-47a4-a45d-b4b15857bb44.gif

第二个,开源图文回答工具

在大模型的加持下,图片+文字的多模态模型也雨后春笋般。其中比较出名的MiniGPT-4,它产生了类似于 GPT-4 中新兴的视觉语言能力。
在MiniGPT-4模型中,你可以围绕一张图片和它进行对话:
在这里插入图片描述

从模型实现上来看,主要分为两步进行训练:

  • MiniGPT-4冻结一个视觉编码器和LLM
  • 在第一个阶段,使用100万个图像文本对进行训练。通过第一阶段后,模型能够有效理解图像,但是其生成能力变差
  • 第二个阶段则使用高质量的图像文本对数据集,共3500个进行微调,以显着提高其生成可靠性和整体可用性。这个阶段的计算效率很高,使用单个 A100 只需要大约7分钟。

在这里插入图片描述

在官网放出的例子中,它可以描述这张图片的内容:
image.png

或者可以给这张图定制一个广告语:
image.png

第三个,视频转换风格生成

https://www.yuque.com/yuqueyonghumaryyq/fmvho1/rwh3g25ekk25kt2p
在以前如果要对现有的视频进行风格转换,往往会造成视频闪烁。

但是这个难题近期被南洋理工大学的团队很好的解决。首先来看看他们生成的视频效果:
79305a59-4203-433d-97b2-f0cbe2733ead (1).gif

可以看到,生成的视频很丝滑,而且人物的动作衔接的很连贯。

不仅仅在人物方面能够解决“闪烁”问题,就连建筑上也能够很好的hold住不同的风格:
建筑.gif

同时帧与帧之间比较流畅,已经能够和正常的视频相媲美了。
comparison_1[00_00_03--00_00_23].gif

第四个,免费好用的文档对话工具

文档对话能力

我们知道,目前有一众收费的ChatPDF等文档问答网站,而Claude2直接可以说秒杀这些大部分的网站

它可以在官网上传文件进行对话 :
image.png

而且最大可以上传5个文件,每个文件最大可以10MB.

比如我这里把Claude2的技术文档上传上去,让它进行总结。它能够在几秒内把PDF进行总结:
image.png

同时也可以不断询问文档中的细节,这个能力和ChatPDF相当:
image.png

当然,我们也能够利用它的能力,进行excel数据分析:
image.png

文档联系功能

而且,只要我们上传更多的文档,就可以让它总结其中之间的联系,省去了我们看多个文档写总结的时间:
image.png

这篇关于AI杀疯!2023上半年至今有趣的AI算法(内附视频)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/247114

相关文章

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav