LLMs之Vanna:Vanna(利用自然语言查询数据库的SQL工具+底层基于RAG)的简介、安装、使用方法之详细攻略

本文主要是介绍LLMs之Vanna:Vanna(利用自然语言查询数据库的SQL工具+底层基于RAG)的简介、安装、使用方法之详细攻略,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LLMs之Vanna:Vanna(利用自然语言查询数据库的SQL工具+底层基于RAG)的简介、安装、使用方法之详细攻略

目录

Vanna的简介

1、用户界面

2、RAG vs. Fine-Tuning

3、为什么选择Vanna?

4、扩展Vanna

Vanna的安装和使用方法

1、安装

2、训练

(1)、使用DDL语句训练

(2)、使用文档训练

(3)、使用SQL训练

3、提问问题

Vanna的应用案例

1、基础用法


Vanna的简介

Vanna是一个基于MIT许可的开源Python RAG(检索增强生成)框架,用于SQL生成和相关功能。

Vanna的工作原理分为两个简单步骤:在您的数据上训练一个RAG“模型”,然后提问问题,这将返回可以设置自动在您的数据库上运行的SQL查询。
>> 在您的数据上训练一个RAG“模型”。
>> 提问问题。

如果您不知道什么是RAG,不用担心 - 您不需要知道在底层如何工作就能使用它。您只需要知道您需要“训练”一个模型,它会存储一些元数据,然后用它来“提问”问题。

查看基类以获取有关底层工作原理的更多详细信息。

Vanna.AI是一个基于语言模型的SQL代理,允许用户通过简单的自然语言问题获得数据库中的洞察信息。它提供开源的Python包以及各种前端集成方式,可以部署在自己的基础设施上运行。
>> 系统的准确性取决于提供的训练数据量和质量,更多的数据可以支持复杂数据集提高准确率。
>> 用户数据库内容不会发送到语言模型,只有架构、文档和查询信息存储在元数据层中,从保障数据安全性。
>> 使用越多,模型通过不断增加训练数据会持续提升,实现自我学习效果。
>> 支持许多常见数据库如Snowflake、BigQuery、Postgres,也可以通过连接器支持任意数据库。
>> 提供免费版和付费版两种计划,区别在于查询限制和语言模型版本的不同。
>> 该系统强调以开源方式提供,保障数据安全并支持定制化部署是其一大卖点。

GitHub地址:https://github.com/vanna-ai/vanna

文档地址:Vanna Docs: How It Works

1、用户界面

这是我们使用Vanna构建的一些用户界面。您可以直接使用它们,或将它们作为自定义界面的起点。

2、RAG vs. Fine-Tuning

RAG

微调

可在LLMs之间移植

如果数据变得过时,可以轻松删除训练数据

比微调更便宜

更具未来性 - 如果有更好的LLM出现,可以轻松替换

如果需要最小化提示中的标记,可以选择微调

启动较慢

训练和运行费用昂贵(一般情况下)

3、为什么选择Vanna?

在复杂数据集上具有高准确性

Vanna的能力与您提供的训练数据密切相关。

更多的训练数据对于大型和复杂数据集的准确性更有帮助。

安全和私密

您的数据库内容永远不会发送到LLM或向量数据库。

SQL执行发生在您的本地环境中。

自学习

如果通过Jupyter使用,您可以选择在成功执行的查询上“自动训练”它。

如果通过其他界面使用,您可以要求界面提示用户对结果提供反馈。

正确的问题和SQL对存储供将来参考,使未来的结果更准确。

支持任何SQL数据库

该软件包允许您连接到您可以使用Python连接的任何SQL数据库。

选择您的前端

大多数人从Jupyter Notebook开始。

通过Slackbot、Web应用程序、Streamlit应用程序或自定义前端向最终用户公开。

4、扩展Vanna

Vanna旨在连接到任何数据库、LLM和向量数据库。有一个VannaBase抽象基类定义了一些基本功能。该软件包提供了与OpenAI和ChromaDB一起使用的实现。您可以轻松扩展Vanna以使用自己的LLM或向量数据库。详细信息请参阅文档。

Vanna的安装和使用方法

查看文档以获取有关您所需数据库、LLM等的具体信息。

如果您想在训练后了解其工作方式,可以尝试此Colab笔记本。

1、安装

pip install vanna
有一些可选包可以安装,详细信息请参阅文档。导入
如果您要自定义LLM或向量数据库,请参阅文档。
import vanna as vn

2、训练

根据您的用例,您可能需要或不需要运行这些vn.train命令。详细信息请参阅文档。

(1)、使用DDL语句训练

DDL语句包含有关数据库中表名、列、数据类型和关系的信息。

vn.train(ddl="""CREATE TABLE IF NOT EXISTS my-table (id INT PRIMARY KEY,name VARCHAR(100),age INT)
""")

(2)、使用文档训练

有时您可能希望添加关于业务术语或定义的文档。

vn.train(documentation="Our business defines XYZ as ...")

(3)、使用SQL训练

您还可以将SQL查询添加到训练数据中。如果您已经有一些查询可用,只需从编辑器中复制并粘贴它们即可开始生成新的SQL。

vn.train(sql="SELECT name, age FROM my-table WHERE name = 'John Doe'")

3、提问问题

vn.ask("What are the top 10 customers by sales?")

您将得到SQL查询结果,以及连接到数据库时的表格和自动生成的Plotly图表。

Vanna的应用案例

更新中……

1、基础用法

!pip install vanna
import vanna
from vanna.remote import VannaDefault
vn = VannaDefault(model='chinook', api_key=vanna.get_api_key('my-email@example.com'))
vn.connect_to_sqlite('https://vanna.ai/Chinook.sqlite')
vn.ask('What are the top 10 artists by sales?')from vanna.flask import VannaFlaskApp
VannaFlaskApp(vn).run()

这篇关于LLMs之Vanna:Vanna(利用自然语言查询数据库的SQL工具+底层基于RAG)的简介、安装、使用方法之详细攻略的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/625180

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Nginx设置连接超时并进行测试的方法步骤

《Nginx设置连接超时并进行测试的方法步骤》在高并发场景下,如果客户端与服务器的连接长时间未响应,会占用大量的系统资源,影响其他正常请求的处理效率,为了解决这个问题,可以通过设置Nginx的连接... 目录设置连接超时目的操作步骤测试连接超时测试方法:总结:设置连接超时目的设置客户端与服务器之间的连接

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Java判断多个时间段是否重合的方法小结

《Java判断多个时间段是否重合的方法小结》这篇文章主要为大家详细介绍了Java中判断多个时间段是否重合的方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录判断多个时间段是否有间隔判断时间段集合是否与某时间段重合判断多个时间段是否有间隔实体类内容public class D

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

IDEA编译报错“java: 常量字符串过长”的原因及解决方法

《IDEA编译报错“java:常量字符串过长”的原因及解决方法》今天在开发过程中,由于尝试将一个文件的Base64字符串设置为常量,结果导致IDEA编译的时候出现了如下报错java:常量字符串过长,... 目录一、问题描述二、问题原因2.1 理论角度2.2 源码角度三、解决方案解决方案①:StringBui

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程