AI带火的向量数据库到底是什么?

2023-12-08 22:13

本文主要是介绍AI带火的向量数据库到底是什么?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好,我是风筝,微信搜「古时的风筝」,更多干货

最近有朋友面试的时候被面试官问了有关向量数据库的问题,朋友说啥是向量数据库,咋没听过呢。

最近 ChatGPT 以及类似的 AI 产品大火,不仅带火了英伟达的 GPU 芯片,也带火了向量数据库。

其实向量数据库吧,很早就之前就有了,而且很多公司也在用,只不过最近借着AI的东风,被推到了台前,比如 Pinecone 这家向量数据库公司,估值约为 10 亿美元,刚刚融资 1 亿美元。

再比如,这个…

什么是向量和向量化

向量数据库,顾名思义,存储的内容是向量。

那什么又是向量呢?

我们最早接触向量应该是在数学里面,例如一个二维的向量用(x,y)表示在x轴和y轴的值,用(x,y,z)表是在x轴、y轴和z轴的三维向量。还可以有更多的维度表示多维向量。

向量数据库应用最多的场景就是相似度搜索,就是根据用户的一个输入匹配出几个相似度最高的结果。有点儿像模糊查询或者全文检索的意思,但是原理又不一样,全文检索的核心技术应该是分词+索引 ,而向量数据库是向量化(Embedding)+索引。

索引就不用多说了,只要涉及到存储的,一定会用到索引。

向量化(Embedding)

在 OpenAI 官网上专门有 Embedding 的介绍,并且提供了相关的模型API,叫做 ada,专门将数据 Embedding。

Embedding 是用一个低维稠密向量来表示一个对象,使得这个向量能够表达相应对象的某些特征,同时向量之间的距离能反应对象之间的相似性。

Embedding 是一个多维向量数组,由一系列数字组成,通过相关的算法可以将文本、音频、视频等内容转换为多维向量数组,并最终存储到向量数据库中。

假设 man的向量数组可表示为 [0.1,0.2,0.1],woman的向量数组可表示为[0.3,0.1,0.1]。

下图中可以看到这些多维向量在向量空间中的关系,man和woman之间、king和queen之间,China和Beijing之间。

各种各样的内容进行向量化之后,最终在向量空间会形成或近或疏的关系。比如下面这幅图中可以看出,如果你搜索一个动物相关的内容,肯定(大概率)不会匹配到运动员的那一堆数据中。

向量化的过程是一个复杂的过程,通常会用到经过大量训练和优化的大模型以及神经网络等厉害的技术,所以,个人或普通公司只能用大厂提供的付费服务,例如OpenAI 的 Ada 模型。

为什么这么复杂呢,比如基于自然语言处理的方式向量化,不仅要分析文本本身的意思,还会包括情感分析、翻译等工作要处理,例如你搜索英文的 apple,也要能匹配上中文的苹果或其他的语种。还有如果你搜索苹果太难吃了,要不能匹配出苹果太棒了这种结果吧。

目前主流的Embedding 方法主要有如下这三类:

矩阵分解法

矩阵分解法是一种常见的 Embedding 方法,它可以将高维的矩阵映射成两个低维矩阵的乘积,很好地解决了数据稀疏的问题。

基于自然语言处理的方法

自然语言处理(NLP)是一种人工智能技术,它涉及计算机对人类语言的理解和生成。NLP 包括许多任务,如文本分类、情感分析、命名实体识别、机器翻译和自动摘要等。NLP 技术可以帮助计算机处理和分析大量的文本数据,从而使计算机能够更好地理解人类语言并作出更准确的预测和决策。而基于 NLP 的 Embedding 方法的主要思想是将每个单词或短语映射到一个低维向量空间中,使得在这个向量空间中,相似的单词或短语在距离上更加接近,以便于支持语义查找与分析工作。常见的方法包括:

  1. Word2vec
  2. GloVe(Global Vectors for Word Representation)
  3. FastText
基于图的方法

上述方法都是针对序列文本而设计的,而对于诸如社交网络分析、推荐系统、知识图谱等领域中的问题,如下图所示,数据对象之间更多呈现出图结构:

基于图的 Embedding 技术是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程,能够很好地解决图数据难以高效输入机器学习算法的问题。Graph Embedding 技术将图中的节点以低维稠密向量的形式进行表达,要求在原始图中相似 (不同的方法对相似的定义不同) 的节点其在低维表达空间也接近。常见的方法包括:

  1. DeepWalk
  2. Node2vec
  3. Metapath2vec

向量数据库的特点

向量数据库的应用场景决定了其大概率需要存储海量的数据,而不是想关系型数据库那样存储确定的多少条数据。

  • 向量数据库要具具有高可用、高扩展性的架构;
  • 向量数据库是计算密集型应用,需要良好的硬件设备加速;
  • 高并发、低延迟

应用场景

向量数据库的核心功能就是相似性匹配,所以,它的应用场景也是围绕着这个功能来的。

  • 文本搜索(包含语义的那种),最常见的功能;
  • 图片、语音、视频搜索,例如那种以图搜图的功能,当然,与之匹配的向量化的过程也比文字更复杂,例如语音的向量化要包括对语音进行特征化的提取,比如声纹等等。歌曲识别(非歌词的那种)就可以用向量化和向量数据库;
  • 推荐系统,根据系统给用户打的标签,给用户推荐相似度最高的商品、服务等;
  • 异常检测,相似度过低可以判断为异常,例如人脸识别功能,如果相似度过低,那可能就是非本人;

最近的AI热潮掀起了不少新技术,感觉快要学不过来,不过大多数的内容想学也学不会了,只能学学周边技术,用用人家的API了。

毕竟像OpenAI这种,里面的员工的职位都是xxx科学家,不是xxx工程师了。

但是,该关注还是要关注一下,说不好哪天就用到自己的产品里了。

不如点个赞
在这里插入图片描述

推荐阅读

➿ 剑走偏锋,无头浏览器是什么神奇的家伙

➿ 新项目决定用 JDK 17了

➿ 5000字,10张图,完全掌握 MySQL 事务隔离级别

这篇关于AI带火的向量数据库到底是什么?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/471483

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/