【智算101】为什么用好大模型,离不开“向量数据库“呢

2024-06-11 12:04

本文主要是介绍【智算101】为什么用好大模型,离不开“向量数据库“呢,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关注【云原生AI百宝箱】公众号,获取更多云原生AI消息

图片

大模型离不开向量数据库回答这个问题之前,我们先来理解一下什么是向量。

图片

这是一个苹果,但在发明苹果这个词之前,人们怎么描述它呢?

图片

颜色、大小、形状、纹理,找到更多的特征,就能对苹果的定义更清晰。

图片

把这些特征用数字表述就可以得到一个数组,就是向量。

图片

当复杂的图形变成了计算机熟悉的数字,它就认识苹果了。当新的苹果出现,计算机还能认出来它吗?当然。

图片

图片

因为这些图像,在向量空间中离得最近,相似性最高。今天让我们惊叹不已的人工智能,往往通过上千个向量维度来学习、训练,他们就像是AI大模型的眼睛。

图片

当AI大模型遇上庞大的向量数据,这组黄金搭档如何让硅基生物更聪明呢?以大语言模型为例,简单来说,在训练时,喂给它的词句都会先转化为向量数据。

当训练数据里出现多组类似的语言时,在向量数据组成的高维空间相近的词汇就会距离更近,语言模型就可以逐渐捕捉到词汇间的语义和语法,比如他会更明白苹果西瓜与异常接近,和公交车相差甚远。

图片

接下来模型要对对上下文进行理解,此时transformer架构就开始发挥作用,从每个词自身出发,观察和其他词之间的关系权重

img

云原生AI百宝箱

行万里路,此处相逢,共话云原生AI之道。 偶逗趣事,明月清风,与君同坐。

63篇原创内容

公众号

图片

图片

例如,这句话里很好吃,和关系权重最大,权重结果被当做新的维度记录下来,一句更复杂的话,也转化成了带权重的向量。

图片

语言模型经过查询、计算,生成权重最高的答案输出给你,一次问答就完成了。

实际上,大模型训练推理过程更为复杂,他们需要处理如文本、图像、音视频等大量非结构化数据,并转化为向量数据进行学习。这些数据的规模动辄过亿,向量的维度可能高达数千。

图片

在选择数据库时,传统数据库只能进行行列检索,一一对应,再输出精准的答案。

向量数据库则是专门为非结构化数据检索而设计,它将向量数据组成一个立体高维空间,在空间中进行模糊检索,能够快速输出权重最高的答案。

推荐阅读

  • 叮,你收到一份来自CNCF的云原生景观简介
  • 要魔改Kubernetes,我们可以从哪里扩展
  • 问题排查太烦心,试试GPT的超能力
  • Copa:无需重建镜像,直接修补容器漏洞
  • 玩转K8s网络:16张图带你从小白到专家
  • 1000节点集群,5秒搭建好
  • 流量何处来又往何处去,这次一目了然
  • Kubernetes CNI 插件选型和应用场景探讨
  • 块/文件/对象存储难统一管理,试试这个集大成者
  • GPU越来越难买,如何提高利用率
  • 监控外部服务太复杂?ServiceMonitor 和 PrometheusRule有妙招
  • 容器快了,却不安全了,Rootless 安排上
  • 还在Jenkins点点,快来体验Tekton的灵活自动化
  • 懒人福音:LazyDocker轻松驾驭容器,操作高效省心

这篇关于【智算101】为什么用好大模型,离不开“向量数据库“呢的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1051118

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

IDEA如何切换数据库版本mysql5或mysql8

《IDEA如何切换数据库版本mysql5或mysql8》本文介绍了如何将IntelliJIDEA从MySQL5切换到MySQL8的详细步骤,包括下载MySQL8、安装、配置、停止旧服务、启动新服务以及... 目录问题描述解决方案第一步第二步第三步第四步第五步总结问题描述最近想开发一个新应用,想使用mysq

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Java读取InfluxDB数据库的方法详解

《Java读取InfluxDB数据库的方法详解》本文介绍基于Java语言,读取InfluxDB数据库的方法,包括读取InfluxDB的所有数据库,以及指定数据库中的measurement、field、... 首先,创建一个Java项目,用于撰写代码。接下来,配置所需要的依赖;这里我们就选择可用于与Infl

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt