【智算101】为什么用好大模型，离不开“向量数据库“呢

2024-06-11 12:04

文章标签 模型数据库 101 向量智算离不开

本文主要是介绍【智算101】为什么用好大模型，离不开“向量数据库“呢，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

关注【云原生AI百宝箱】公众号，获取更多云原生AI消息

大模型离不开向量数据库回答这个问题之前，我们先来理解一下什么是向量。

这是一个苹果，但在发明苹果这个词之前，人们怎么描述它呢？

颜色、大小、形状、纹理，找到更多的特征，就能对苹果的定义更清晰。

把这些特征用数字表述就可以得到一个数组，就是向量。

当复杂的图形变成了计算机熟悉的数字，它就认识苹果了。当新的苹果出现，计算机还能认出来它吗？当然。

因为这些图像，在向量空间中离得最近，相似性最高。今天让我们惊叹不已的人工智能，往往通过上千个向量维度来学习、训练，他们就像是AI大模型的眼睛。

当AI大模型遇上庞大的向量数据，这组黄金搭档如何让硅基生物更聪明呢？以大语言模型为例，简单来说，在训练时，喂给它的词句都会先转化为向量数据。

当训练数据里出现多组类似的语言时，在向量数据组成的高维空间相近的词汇就会距离更近，语言模型就可以逐渐捕捉到词汇间的语义和语法，比如他会更明白苹果和西瓜与异常接近，和公交车相差甚远。

接下来模型要对对上下文进行理解，此时transformer架构就开始发挥作用，从每个词自身出发，观察和其他词之间的关系权重。

云原生AI百宝箱

行万里路，此处相逢，共话云原生AI之道。偶逗趣事，明月清风，与君同坐。

63篇原创内容

公众号

例如，这句话里很好吃，和我关系权重最大，权重结果被当做新的维度记录下来，一句更复杂的话，也转化成了带权重的向量。

语言模型经过查询、计算，生成权重最高的答案输出给你，一次问答就完成了。

实际上，大模型训练推理过程更为复杂，他们需要处理如文本、图像、音视频等大量非结构化数据，并转化为向量数据进行学习。这些数据的规模动辄过亿，向量的维度可能高达数千。

在选择数据库时，传统数据库只能进行行列检索，一一对应，再输出精准的答案。

但向量数据库则是专门为非结构化数据检索而设计，它将向量数据组成一个立体高维空间，在空间中进行模糊检索，能够快速输出权重最高的答案。

推荐阅读

叮，你收到一份来自CNCF的云原生景观简介
要魔改Kubernetes，我们可以从哪里扩展
问题排查太烦心，试试GPT的超能力
Copa：无需重建镜像，直接修补容器漏洞
玩转K8s网络：16张图带你从小白到专家
1000节点集群，5秒搭建好
流量何处来又往何处去，这次一目了然
Kubernetes CNI 插件选型和应用场景探讨
块/文件/对象存储难统一管理，试试这个集大成者
GPU越来越难买，如何提高利用率
监控外部服务太复杂？ServiceMonitor 和 PrometheusRule有妙招
容器快了，却不安全了，Rootless 安排上
还在Jenkins点点，快来体验Tekton的灵活自动化
懒人福音：LazyDocker轻松驾驭容器，操作高效省心

这篇关于【智算101】为什么用好大模型，离不开“向量数据库“呢的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1051118。 23002807@qq.com

相关文章

数据库面试必备之MySQL中的乐观锁与悲观锁

数据库面试必备之MySQL中的乐观锁与悲观锁

《数据库面试必备之MySQL中的乐观锁与悲观锁》：本文主要介绍数据库面试必备之MySQL中乐观锁与悲观锁的相关资料,乐观锁适用于读多写少的场景,通过版本号检查避免冲突,而悲观锁适用于写多读少且对数... 目录一、引言二、乐观锁（一）原理（二）应用场景（三）示例代码三、悲观锁（一）原理（二）应用场景（三）示例

阅读更多...

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

《Node.js数据库CRUD项目示例详解(完美解决方案)》：本文主要介绍Node.js数据库CRUD项目示例详解(完美解决方案),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考... 目录项目结构1. 初始化项目2. 配置数据库连接 (config/db.js)3. 创建模型 (models/

阅读更多...

Spring Security基于数据库的ABAC属性权限模型实战开发教程

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》：本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

阅读更多...

Ubuntu中远程连接Mysql数据库的详细图文教程

Ubuntu中远程连接Mysql数据库的详细图文教程

《Ubuntu中远程连接Mysql数据库的详细图文教程》Ubuntu是一个以桌面应用为主的Linux发行版操作系统,这篇文章主要为大家详细介绍了Ubuntu中远程连接Mysql数据库的详细图文教程,有... 目录1、版本2、检查有没有mysql2.1 查询是否安装了Mysql包2.2 查看Mysql版本2.

阅读更多...

Oracle数据库常见字段类型大全以及超详细解析

Oracle数据库常见字段类型大全以及超详细解析

《Oracle数据库常见字段类型大全以及超详细解析》在Oracle数据库中查询特定表的字段个数通常需要使用SQL语句来完成,：本文主要介绍Oracle数据库常见字段类型大全以及超详细解析,文中通过... 目录前言一、字符类型（Character）1、CHAR：定长字符数据类型2、VARCHAR2：变长字符数

阅读更多...

Win11安装PostgreSQL数据库的两种方式详细步骤

Win11安装PostgreSQL数据库的两种方式详细步骤

《Win11安装PostgreSQL数据库的两种方式详细步骤》PostgreSQL是备受业界青睐的关系型数据库,尤其是在地理空间和移动领域,：本文主要介绍Win11安装PostgreSQL数据库的... 目录一、exe文件安装（推荐）下载安装包1. 选择操作系统2. 跳转到EDB（PostgreSQL 的

阅读更多...

SpringBoot实现数据库读写分离的3种方法小结

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一：基于AbstractRoutingDataSource实现动态

阅读更多...

C# WinForms存储过程操作数据库的实例讲解

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》：本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程（增删改）3. 查询数据三、事务处

阅读更多...

Java的IO模型、Netty原理解析

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容：标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO（blocking I/O）NI

阅读更多...

mysql数据库重置表主键id的实现

mysql数据库重置表主键id的实现

《mysql数据库重置表主键id的实现》在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,本文主要介绍了mysql数据库重置表主键id的实现,具有一定的参考价值,感兴趣的可以了... 目录关键语法演示案例在我们的开发过程中，难免在做测试的时候会生成一些杂乱无章的SQL主键数据，当我们

阅读更多...