【业余玩儿AI】【文档问答】实操记录0822

2024-08-23 00:36

本文主要是介绍【业余玩儿AI】【文档问答】实操记录0822,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

电梯

  • 前文回顾
  • 继续踩坑实录
    • 从头来过,docker部署Ollama
    • 我一定是被偷听了,大数据之神把我拉出泥潭
    • 时间回到白天,模型初窥
    • 时间回到开心的链接上Ollama那一刻
  • 按捺住乱撞的小鹿,我去准备下文的剧情了

前文回顾

这里书接上文,上文说到:
目标是文档问答,先是本地部署了Marker,然后又试用了popai,最后发现了Dify,于是开始在本地部署Dify.
前天,小卡拉米我七尺咔嚓几下,Dify部署很顺利,但是链接不上本地Ollama.这种问题对于刚开始学习的小卡拉米来说实在难解.

继续踩坑实录

从头来过,docker部署Ollama

我实在是想不出问题的原因,剩下几个不多的我猜测的且都不愿意相信的原因里面,只能从里面逐个尝试.比如原来下载的Ollama是windows预览版,会不会是有bug.于是卸载了用docker重新部署.
打开Ollama官网的文档hub.docker.com/r/ollama/ollama操作,说要先安装英伟达的toolkit,不会,找到一篇[小小的太阳]前辈的文章,传送门,Sxiu~~~,按着做完了,还算比较顺利,我就不赘述了.
安装完后继续按照Ollama的doc继续下载之前的qwen2:7b.

docker exec -it ollama ollama run qwen2:7b

再重新部署Dify,参照之前的流程,这次就顺利多了,越过了低级错误.
再次来到配置Ollama的页面,激动的心,颤抖的手,输入所有参数,点击确认.
哦买尬~ 依然没连上… 后面一点进展没有,按下不表…

我一定是被偷听了,大数据之神把我拉出泥潭

昨天早上,当我晃晃悠悠的在上班的地铁上消磨我那丈二和尚摸不着头脑的莫名时刻,抖音画面刚刷过一条052D在英国大门口自由航行的新闻,我还在畅想自己啥时候能把这个问题突破让我在AI的道路上也自由航行一把,就刷到了一条Dify+Ollama(Docker)的视频,然后男主当着我的面在配置Ollama的界面上敲入了一行我闻所未闻的链接

http://host.docker.internal:11434

没见过…没见过!意味着新的可能,而且那么巧,我刚刚用docker重新部署了Ollama.你们说我是不是被偷听了…
一闭眼一睁眼,一白天过去了…
晚上回到家,又是激动的心,又是颤抖的手,输入blingbling的链接,点击确认.接下来的几秒,好消息是没有error,坏消息是没有任何反应.额…当我吸足了气准备吐槽一个问题没搞定又出新状况的时候,那个表示链接状态的小灯从灰色变成绿色,哇哈哈哈,简直是天助我也~~~~~
在此,我必须感谢一下把我救出泥潭的大哥,虽然素未谋面也不知大哥身材是否伟岸,但是在我小卡拉米的心里他是伟大的!请受小卡拉米一拜~~
介绍一下大哥,抖音账号ldfmlsys
在这里插入图片描述
去大哥的账号里面翻了翻,都是讲本地知识库部署的,哇哈哈哈,你说大数据没分析我我都不相信!感兴趣的也可以去翻翻,这大哥视频下面的点评都回复的.才关注82个人,小卡拉米我都关注1000个人,一看就是专注技术的大才!是我等小卡拉米的榜样!请容小弟再拜~~

时间回到白天,模型初窥

到这里应该也能看出我今天心情不错了,这个问题卡了我三天了,很多小卡拉米被卡3天可能都已经放弃了,而我是个意志坚定的卡拉米!
这里采用倒叙的叙事方法说一下白天的事情.
白天当然也没闲着,去了Dify官网的页面摸索了一下,感兴趣的也可以去瞅瞅:Dify官网app传送门,Sxiu~~~,在里面试了一下模型链接\上传文档到知识库\参考前辈聊天机器人新建了一个基于知识库进行问答的聊天机器人.像我这么优秀,啊不,这么爱琢磨的卡拉米还是拿捏的了的.
在这个过程里面跟着工具配置的过程,了解它工作的思路和原理,原来LLM\Rerank\Embeding的模型是这么个应用流程,对RAG和Rerank有了比较直观的感受, 过程里面虽然用到了Embeding的模型,但是还没搞明白是怎么用上的,还有传说中的向量数据库,就是所谓的知识库,虽然用了,但是对我完全透明,也有需要进一步研究的.
总而言之,要了解的东西就像吹气球一样随着体积和表面积增大接触到的未知的知识是按照很多次方的速度增加的.

时间回到开心的链接上Ollama那一刻

连上之后准备万解,开始蓄力.
基于白天的收获,开始搜索免费开源可以本地部署的各种模型.
LLM模型除了qwen2,llama3.1,发现google的gemimi收费前的免费额度也很高(了解到这个也得感谢抖音美好生活的大数据之神),这种模型多到几句说不完,不过目前qwen2我觉得就够了,基于前几天的试用,感觉qwen2比llama3.1更适合我,有个能用的先用着,整明白了再优化.
Rerank的模型,在Dify的服务接口页面上找到了jina传送门,Sxiu~~~去看了一眼,这个有意思,页面上直接显示APIKey,还有这个API剩余的token数量,意思是不嫌麻烦就可以白嫖? 直接连在我的Dify上,顺利成功.
Embeding的模型,在Ollama的lib里面直接搜,找到一个pull了380多K的模型,了解了一下的确有点货,直接pull.

ollama pull nomic-embed-text:v1.5

知识库,Dify自带且免费,先不费劲了找了.

按捺住乱撞的小鹿,我去准备下文的剧情了

.
.
.

D:\mybin>python “D:\mybin\PythonScripts\getdays.py”


Since I started self-learning AI, it has been 10 days already. Keep going!

这篇关于【业余玩儿AI】【文档问答】实操记录0822的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1097850

相关文章

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

Java使用SLF4J记录不同级别日志的示例详解

《Java使用SLF4J记录不同级别日志的示例详解》SLF4J是一个简单的日志门面,它允许在运行时选择不同的日志实现,这篇文章主要为大家详细介绍了如何使用SLF4J记录不同级别日志,感兴趣的可以了解下... 目录一、SLF4J简介二、添加依赖三、配置Logback四、记录不同级别的日志五、总结一、SLF4J

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析

在Spring Boot中浅尝内存泄漏的实战记录

《在SpringBoot中浅尝内存泄漏的实战记录》本文给大家分享在SpringBoot中浅尝内存泄漏的实战记录,结合实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录使用静态集合持有对象引用,阻止GC回收关键点:可执行代码:验证:1,运行程序(启动时添加JVM参数限制堆大小):2,访问 htt

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

Java利用docx4j+Freemarker生成word文档

《Java利用docx4j+Freemarker生成word文档》这篇文章主要为大家详细介绍了Java如何利用docx4j+Freemarker生成word文档,文中的示例代码讲解详细,感兴趣的小伙伴... 目录技术方案maven依赖创建模板文件实现代码技术方案Java 1.8 + docx4j + Fr

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当