【小沐学AI】数据分析的Python库:Pandas AI

2024-03-18 10:04

本文主要是介绍【小沐学AI】数据分析的Python库:Pandas AI,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1、简介
  • 2、安装
    • 2.1 Python
    • 2.2 PandasAI
  • 3、部署
  • 4、功能
    • 4.1 大型语言模型 (LLM)
      • 4.1.1 BambooLLM
      • 4.1.2 OpenAI 模型
      • 4.1.3 谷歌 PaLM
      • 4.1.4 谷歌 Vertexai
      • 4.1.5 Azure OpenAI
      • 4.1.6 HuggingFace 模型
      • 4.1.7 LangChain 模型
      • 4.1.8 Amazon Bedrock 模型
      • 4.1.9 本地模型
  • 5、代码测试
    • 5.1 入门示例
  • 结语

1、简介

https://pandas-ai.com/
https://github.com/Sinaptik-AI/pandas-ai

PandasAI 是一个 Python 库,可以轻松地用自然语言向数据提问。它可以帮助您使用生成式 AI 探索、清理和分析数据。

在这里插入图片描述
PandasAI与您的数据库(SQL、CSV、pandas、polars、mongodb、noSQL 等)聊天。PandasAI 使用 LLM(GPT 3.5 / 4、Anthropic、VertexAI)和 RAG 进行数据分析对话。

PandasAI 是一个 Python 库,可以轻松地用自然语言对数据(CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等)提出问题。xIt 可帮助您使用生成式 AI 探索、清理和分析数据。

除了查询之外,PandasAI 还提供通过图形可视化数据、通过处理缺失值来清理数据集以及通过特征生成提高数据质量的功能,使其成为数据科学家和分析师的综合工具。

PandasAI 使用生成式 AI 模型来理解和解释自然语言查询,并将其转换为 python 代码和 SQL 查询。然后,它使用代码与数据交互并将结果返回给用户。

  • PandasAI 的特点
    • 自然语言查询:使用自然语言向数据提问。
    • 数据可视化:生成图形和图表以可视化数据。
    • 数据清理:通过处理缺失值来清理数据集。
    • 特征生成:通过特征生成提高数据质量。
    • 数据连接器:连接到各种数据源,如 CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等。

2、安装

2.1 Python

https://www.python.org/downloads/windows/
首先尝试安装Python3.12
在这里插入图片描述

2.2 PandasAI

使用如下命令安装:

pip install pandasai

在这里插入图片描述
安装刚开始还比较顺利。
在这里插入图片描述
结果后面如上报错,需要VC++编译器,于是安装VS2019如下:

vs2019社区版下载地址:
https://learn.microsoft.com/zh-cn/visualstudio/releases/2019/release-notes
vs2019专业版下载地址:
https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/

在这里插入图片描述
安装完vs2019之后,再安装PandasAI 仍然报错。
于是卸载Python3.12,安装Python3.11试试。
在这里插入图片描述
安装完Python3.11之后。
在这里插入图片描述

再安装PandasAI 如下:
在这里插入图片描述
正在安装中,
在这里插入图片描述
提示安装安装成功。
运行测试脚本后,提示还需要pyyaml库。
在这里插入图片描述
这里再安装一下pyyaml库。

pip install pyyaml

在这里插入图片描述

3、部署

PandasAI 可以通过多种方式进行部署。

  • 您可以在 Jupyter 笔记本或streamlit 应用中轻松使用它,也可以将其部署为 REST API,例如使用 FastAPI 或 Flask。

  • 托管 PandasAI Cloud 或自托管企业产品,见网站https://pandas-ai.com/。

4、功能

4.1 大型语言模型 (LLM)

https://docs.pandas-ai.com/en/latest/LLMs/llms/
PandasAI 支持多种大型语言模型 (LLM)。LLM 用于从自然语言查询生成代码。然后执行生成的代码以生成结果。

您可以通过实例化一个 LLM 并将其传递给 or 构造函数来选择一个 LLM,也可以在文件中指定一个 LLM。SmartDataFrame / SmartDatalake / pandasai.json

4.1.1 BambooLLM

BambooLLM 是由 PandasAI 开发的最先进的语言模型,考虑了数据分析。

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import BambooLLMllm = BambooLLM(api_key="my-bamboo-api-key")
df = SmartDataframe("data.csv", config={"llm": llm})response = df.chat("Calculate the sum of the gdp of north american countries")
print(response)

4.1.2 OpenAI 模型

为了使用 OpenAI 模型,您需要拥有 OpenAI API 密钥。
https://platform.openai.com/account/api-keys

在这里插入图片描述

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import OpenAIllm = OpenAI(api_token="my-openai-api-key")
pandas_ai = SmartDataframe("data.csv", config={"llm": llm})

4.1.3 谷歌 PaLM

为了使用 Google PaLM 模型,您需要拥有 Google Cloud API 密钥。

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import GooglePalmllm = GooglePalm(api_key="my-google-cloud-api-key")
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.4 谷歌 Vertexai

为了通过 Vertexai api 使用 Google PaLM 模型,您需要具备:
Google Cloud 项目
项目设置区域
安装可选依赖项google-cloud-aiplatform
认证gcloud

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import GoogleVertexAIllm = GoogleVertexAI(project_id="generative-ai-training",location="us-central1",model="text-bison@001")
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.5 Azure OpenAI

若要使用 Azure OpenAI 模型,需要具有 Azure OpenAI API 密钥以及 Azure OpenAI 终结点。
https://azure.microsoft.com/zh-cn/products/ai-services/openai-service/

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import AzureOpenAIllm = AzureOpenAI(api_token="my-azure-openai-api-key",azure_endpoint="my-azure-openai-api-endpoint",api_version="2023-05-15",deployment_name="my-deployment-name"
)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.6 HuggingFace 模型

为了通过文本生成使用 HuggingFace 模型,您需要首先提供受支持的大型语言模型 (LLM)。例如,这可用于使用 LLaMa2、CodeLLaMa 等模型。
https://huggingface.co/docs/text-generation-inference/index

  • 示例代码如下:
from pandasai.llm import HuggingFaceTextGen
from pandasai import SmartDataframellm = HuggingFaceTextGen(inference_server_url="http://127.0.0.1:8080"
)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.7 LangChain 模型

PandasAI 还内置了对 LangChain 模型的支持。
为了使用LangChain模型,您需要安装软件包:langchain
pip install pandasai[langchain]

  • 示例代码如下:
from pandasai import SmartDataframe
from langchain_openai import OpenAIlangchain_llm = OpenAI(openai_api_key="my-openai-api-key")
df = SmartDataframe("data.csv", config={"llm": langchain_llm})

4.1.8 Amazon Bedrock 模型

要使用 Amazon Bedrock 模型,您需要拥有 AWS AKSK 并获得模型访问权限。
https://docs.aws.amazon.com/IAM/latest/UserGuide/id_credentials_access-keys.html
您需要安装软件包: pip install pandasai[bedrock]

  • 示例代码如下:
from pandasai import SmartDataframe
from bedrock_claude import BedrockClaude
import boto3bedrock_runtime_client = boto3.client('bedrock-runtime',aws_access_key_id=ACCESS_KEY,aws_secret_access_key=SECRET_KEY
)llm = BedrockClaude(bedrock_runtime_client)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.9 本地模型

PandasAI 支持本地模型,但较小的模型通常性能不佳。要使用本地模型,请先在遵循 OpenAI API 的本地推理服务器上托管一个模型。这已经过测试,可与 Ollama 和 LM Studio 配合使用。

from pandasai import SmartDataframe
from pandasai.llm.local_llm import LocalLLMollama_llm = LocalLLM(api_base="http://localhost:11434/v1", model="codellama")
df = SmartDataframe("data.csv", config={"llm": ollama_llm})
from pandasai import SmartDataframe
from pandasai.llm.local_llm import LocalLLMlm_studio_llm = LocalLLM(api_base="http://localhost:1234/v1")
df = SmartDataframe("data.csv", config={"llm": lm_studio_llm})

5、代码测试

5.1 入门示例

import pandas as pd
from pandasai import SmartDataframe# Sample DataFrame
sales_by_country = pd.DataFrame({"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],"sales": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})# Instantiate a LLM
from pandasai.llm import OpenAI
llm = OpenAI(api_token="YOUR_API_TOKEN")df = SmartDataframe(sales_by_country, config={"llm": llm})
df.chat('Which are the top 5 countries by sales?')

运行后提示open key错误或不存在,如下:
在这里插入图片描述
当然正确的结果应该输出:

China, United States, Japan, Germany, Australia

修改代码,使用google的AI如下:

import pandas as pd
from pandasai import SmartDataframe# Sample DataFrame
sales_by_country = pd.DataFrame({"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],"sales": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})# Instantiate a LLM
# from pandasai.llm import OpenAI
# llm = OpenAI(api_token="YOUR_API_TOKEN")from pandasai.llm import GooglePalm
llm = GooglePalm(api_key="my-google-cloud-api-key")# df = SmartDataframe("data.csv", config={"llm": llm})
df = SmartDataframe(sales_by_country, config={"llm": llm})res = df.chat('Which are the top 5 countries by sales?')
print(res)

运行又报错,如下:
在这里插入图片描述
安装了google.generativeai库之后:
在这里插入图片描述
仍然报错如上。
尝试画图语句如下:

df.chat("Plot the histogram of countries showing for each the sales",
)

在这里插入图片描述
仍然报错如上。

结语

如果您觉得该方法或代码有一点点用处,可以给作者点个赞,或打赏杯咖啡;╮( ̄▽ ̄)╭
如果您感觉方法或代码不咋地//(ㄒoㄒ)//,就在评论处留言,作者继续改进;o_O???
如果您需要相关功能的代码定制化开发,可以留言私信作者;(✿◡‿◡)
感谢各位童鞋们的支持!( ´ ▽´ )ノ ( ´ ▽´)っ!!!
在这里插入图片描述

这篇关于【小沐学AI】数据分析的Python库:Pandas AI的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/821995

相关文章

Python使用Spire.PDF实现为PDF添加水印

《Python使用Spire.PDF实现为PDF添加水印》在现代数字化办公环境中,PDF已成为一种广泛使用的文件格式,尤其是在需要保持文档格式时,下面我们就来看看如何使用Python为PDF文件添加水... 目录一、准备工作二、实现步骤1. 导入必要的库2. 创建 PdfDocument 对象3. 设置水印

python循环引用和解决过程

《python循环引用和解决过程》文章讨论了在Python中解决循环引用问题的几种方法,包括延迟导入、使用`importlib`、重构代码和类型提示的前向引用,这些方法可以帮助开发者避免导入循环导致的... 目录模拟循环引用解决python循环引用的方法有几种,以下是一些常见的解决android方案常见问题

python在word中插入目录和更新目录实现方式

《python在word中插入目录和更新目录实现方式》文章主要介绍了如何在Word文档中插入和更新目录,并提供了具体的代码示例,插入目录时,需要使用`TablesOfContents`对象,并设置使用... 目录1、插入目录2、更新目录总结1、插入目录需要用到对象:TablesOfContents目录的

基于Python编写一个git自动上传的脚本(打包成exe)

《基于Python编写一个git自动上传的脚本(打包成exe)》这篇文章主要为大家详细介绍了如何基于Python编写一个git自动上传的脚本并打包成exe,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录前言效果如下源码实现利用pyinstaller打包成exe利用ResourceHacker修改e

Python在二进制文件中进行数据搜索的实战指南

《Python在二进制文件中进行数据搜索的实战指南》在二进制文件中搜索特定数据是编程中常见的任务,尤其在日志分析、程序调试和二进制数据处理中尤为重要,下面我们就来看看如何使用Python实现这一功能吧... 目录简介1. 二进制文件搜索概述2. python二进制模式文件读取(rb)2.1 二进制模式与文本

Python中Tkinter GUI编程详细教程

《Python中TkinterGUI编程详细教程》Tkinter作为Python编程语言中构建GUI的一个重要组件,其教程对于任何希望将Python应用到实际编程中的开发者来说都是宝贵的资源,这篇文... 目录前言1. Tkinter 简介2. 第一个 Tkinter 程序3. 窗口和基础组件3.1 创建窗

Django调用外部Python程序的完整项目实战

《Django调用外部Python程序的完整项目实战》Django是一个强大的PythonWeb框架,它的设计理念简洁优雅,:本文主要介绍Django调用外部Python程序的完整项目实战,文中通... 目录一、为什么 Django 需要调用外部 python 程序二、三种常见的调用方式方式 1:直接 im

Python字符串处理方法超全攻略

《Python字符串处理方法超全攻略》字符串可以看作多个字符的按照先后顺序组合,相当于就是序列结构,意味着可以对它进行遍历、切片,:本文主要介绍Python字符串处理方法的相关资料,文中通过代码介... 目录一、基础知识:字符串的“不可变”特性与创建方式二、常用操作:80%场景的“万能工具箱”三、格式化方法

浅析python如何去掉字符串中最后一个字符

《浅析python如何去掉字符串中最后一个字符》在Python中,字符串是不可变对象,因此无法直接修改原字符串,但可以通过生成新字符串的方式去掉最后一个字符,本文整理了三种高效方法,希望对大家有所帮助... 目录方法1:切片操作(最推荐)方法2:长度计算索引方法3:拼接剩余字符(不推荐,仅作演示)关键注意事

python版本切换工具pyenv的安装及用法

《python版本切换工具pyenv的安装及用法》Pyenv是管理Python版本的最佳工具之一,特别适合开发者和需要切换多个Python版本的用户,:本文主要介绍python版本切换工具pyen... 目录Pyenv 是什么?安装 Pyenv(MACOS)使用 Homebrew:配置 shell(zsh