本文主要是介绍基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
大模型相关目录
大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。
- 大模型应用向开发路径:AI代理工作流
- 大模型应用开发实用开源项目汇总
- 大模型问答项目问答性能评估方法
- 大模型数据侧总结
- 大模型token等基本概念及参数和内存的关系
- 大模型应用开发-华为大模型生态规划
- 从零开始的LLaMA-Factory的指令增量微调
- 基于实体抽取-SMC-语义向量的大模型能力评估通用算法(附代码)
- 基于Langchain-chatchat的向量库构建及检索(附代码)
- 一文教你成为合格的Prompt工程师
- 最简明的大模型agent教程
- 批量使用API调用langchain-chatchat知识库能力
- langchin-chatchat部分开发笔记(持续更新)
- 文心一言、讯飞星火、GPT、通义千问等线上API调用示例
- 大模型RAG性能提升路径
- langchain的基本使用
- 结合基础模型的大模型多源信息应用开发
- COT:大模型的强化利器
- 多角色大模型问答性能提升策略(附代码)
- 大模型接入外部在线信息提升应用性能
- 从零开始的Dify大模型应用开发指南
- 基于dify开发的多模态大模型应用(附代码)
- 基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统
文章目录
- 大模型相关目录
- 需求介绍
- 具体实现
- 零一万物多模态接入测试
需求介绍
OCR甚至多模态大模型的图像文字识别,均存在一定的识别误差或提取结果格式不统一。
例如图像中文字为
MITSUBISHI ELECTRIC 三菱电机
但信息系统中只需要三菱作为关键字填入。
为解决该问题,应在具体应用场景下,外接规范信息。
具体实现
实际操作方案非常简单,如下提所示:
红框中内容即为外部接入信息,具体地可通过外设json等数据,通过程序读入对大模型prompt进行拼接进行实现。
这样,使大模型在文字提取的同时,利用大模型强大的语义对齐和理解能力对识别信息进行统一。
零一万物多模态接入测试
此处分享一个零一万物的使用案例,可自行根据案例修改prompt进行上述思路的实现。
import openai
from openai import OpenAIAPI_BASE = "https://api.lingyiwanwu.com/v1"
API_KEY = ""client = OpenAI(# defaults to os.environ.get("OPENAI_API_KEY")api_key=API_KEY,base_url=API_BASE
)prompt = '''
### 任务:请问从图片识别设备品牌,该品牌从预设品牌中选取
### 预设内容如下:'''input_text = '''
预设品牌【三菱、西门子、施耐德、五菱】
'''completion = client.chat.completions.create(model="yi-vl-plus",messages= [{"role": "user","content": [{"type": "image_url","image_url": {"url": "http://picture.gptkong.com/20240508/Value(HourOfDay,2)Value(MinuteOfHour,2)3eca9c4cd34019bac35849ccd85094.jpg"}},{"type": "text","text": prompt+input_text}]}]
)
print(completion.choices[0].message.content)
其中,需通过如下语句配置环境:
pip install openai
通过如下地址获取自己图片的url(不保障一直有效,这个随便找个能上传图像的web页面均可获取图片url):
https://www.bamuwu.com/sqrcode
通过零一万物官网注册账号获取自己的API KEY即可:
https://platform.lingyiwanwu.com
这篇关于基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!