AI杀疯!2023上半年至今有趣的AI算法(内附视频)

2023-10-20 12:36

本文主要是介绍AI杀疯!2023上半年至今有趣的AI算法(内附视频),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

公众号:算法一只狗
在这里插入图片描述

文章目录

  • 第一个,一切都可以进行分割
  • 第二个,开源图文回答工具
  • 第三个,视频转换风格生成
  • 第四个,免费好用的文档对话工具
    • 文档对话能力
    • 文档联系功能

今年,我们见证了人工智能算法的起飞,还有各种围绕大模型、AIGC等领域算法百花齐放。

如果说去年人工智能领域的关键词是“元宇宙”的话,那么2023年无疑是属于“大模型”的一年。迄今为止,国内外的科技公司、高校、研究机构已经发布了多款人工智能大模型,“百模大战”不断加码。

当然,作为AI从业者的我们,当然要不断学习。尽管目前大模型AI还不能够替代我们,但是也要求我们学会使用它,帮助自己提升工作效率。
image.png

因此这期我们来总结一下上半年的一些好玩有趣的AI算法。大家有兴趣的可以查看我公众号的详细文章。

  1. 一切都可以进行分割

https://mp.weixin.qq.com/s/HROpJHlcRX64J1kMz4L9Dw

  1. 开源图文回答工具

https://mp.weixin.qq.com/s/prJ9p9NAXYio9G8WCGomqQ

  1. 视频转换风格生成

https://mp.weixin.qq.com/s/UN5meK7YKEfd32TPpiQCLQ

  1. 免费好用的文档对话工具

https://mp.weixin.qq.com/s/e4bN6ciw5vzh9KR_Vc1YCw

第一个,一切都可以进行分割

一直沉静许久的CV圈,被Meta发布的SAM模型给炸出圈来。

发布的新模型,宣称能够“剪切”任何的图像。它可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练,就可以识别任意的图像。

image.png

从官方放出的demo来看,只需要通过鼠标点击对应的物体,就可以有效识别:
e1b44d6c-4aa7-4589-98d5-5890fffcf9df.gif

又或者给定一张图片,让它识别出图像中所有的物体:
54769a6b-184d-4c95-8cfb-f26c1e0e3413.gif

现在大模型都需要有通用的,自适应于下游任务的能力。SAM模宣称可以直接理解不熟悉的物体和图像进行零样本分割,而无需额外的训练。
06971fae-3e79-47a4-a45d-b4b15857bb44.gif

第二个,开源图文回答工具

在大模型的加持下,图片+文字的多模态模型也雨后春笋般。其中比较出名的MiniGPT-4,它产生了类似于 GPT-4 中新兴的视觉语言能力。
在MiniGPT-4模型中,你可以围绕一张图片和它进行对话:
在这里插入图片描述

从模型实现上来看,主要分为两步进行训练:

  • MiniGPT-4冻结一个视觉编码器和LLM
  • 在第一个阶段,使用100万个图像文本对进行训练。通过第一阶段后,模型能够有效理解图像,但是其生成能力变差
  • 第二个阶段则使用高质量的图像文本对数据集,共3500个进行微调,以显着提高其生成可靠性和整体可用性。这个阶段的计算效率很高,使用单个 A100 只需要大约7分钟。

在这里插入图片描述

在官网放出的例子中,它可以描述这张图片的内容:
image.png

或者可以给这张图定制一个广告语:
image.png

第三个,视频转换风格生成

https://www.yuque.com/yuqueyonghumaryyq/fmvho1/rwh3g25ekk25kt2p
在以前如果要对现有的视频进行风格转换,往往会造成视频闪烁。

但是这个难题近期被南洋理工大学的团队很好的解决。首先来看看他们生成的视频效果:
79305a59-4203-433d-97b2-f0cbe2733ead (1).gif

可以看到,生成的视频很丝滑,而且人物的动作衔接的很连贯。

不仅仅在人物方面能够解决“闪烁”问题,就连建筑上也能够很好的hold住不同的风格:
建筑.gif

同时帧与帧之间比较流畅,已经能够和正常的视频相媲美了。
comparison_1[00_00_03--00_00_23].gif

第四个,免费好用的文档对话工具

文档对话能力

我们知道,目前有一众收费的ChatPDF等文档问答网站,而Claude2直接可以说秒杀这些大部分的网站

它可以在官网上传文件进行对话 :
image.png

而且最大可以上传5个文件,每个文件最大可以10MB.

比如我这里把Claude2的技术文档上传上去,让它进行总结。它能够在几秒内把PDF进行总结:
image.png

同时也可以不断询问文档中的细节,这个能力和ChatPDF相当:
image.png

当然,我们也能够利用它的能力,进行excel数据分析:
image.png

文档联系功能

而且,只要我们上传更多的文档,就可以让它总结其中之间的联系,省去了我们看多个文档写总结的时间:
image.png

这篇关于AI杀疯!2023上半年至今有趣的AI算法(内附视频)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/247114

相关文章

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20