本文主要是介绍开源的 RAG 和 workflow 技术对比调研,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、先来了解一下开源的技术有哪些,怎么样
我自己就是做RAG工作的,但是还是想关注一下开源的技术做到了什么程度。
所以调研了很长时间,也体验了一下。这里写一篇文章来分享一下结果。
我用五一的假期时间,来做调研,看代码,做测试,写文章。为大家贡献资料。
这里先说一下自己的感受吧:这些开源的技术,还是各有所长的。应该结合融合到一起,才能更好的完成我们的生产需求。但是开源的文档解析最多能做到60的效果。
1.1 分类:rag
1.1.1 Qanything
GitHub - netease-youdao/QAnything: Question and Answer based on Anything.
star数量:9K
社区活跃程度:24年年初开源的。刚开始活跃,现在社区不活跃(社区群没人说话,github上提的Issues 没人处理)
优势:个人觉得部署文档,相对齐全一些。代码质量也好一些。我个人在mac book上已经踩了一遍坑了。它的文档解析也是用ocr做的。此外优化了embedding模型,还有rerank模型。
劣势:资源占用挺多的。内存大概是20多个G。小内存还怕跑不起来(这里我已经是使用openAi来做回答了,如果再加上一个模型,需要的资源就更多了)。
文档:GitHub - netease-youdao/QAnything: Question and Answer based on Anything.
1.1.2 RAGflow
GitHub - infiniflow/ragflow: RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding.
star数量:6.3K
社区活跃程度:24年大概3月份开源的。社区活跃,社区群交流的人比较多。官方群有4个。虽然比Q anything晚,但是起势很猛。
优势:官方最引以为豪的是文档解析。我自己也看了代码,一方面使用到了OCR来解析,另一方面。做了非常多的雕花的工作。这是其他几个都没有的优势。
劣势:个人觉得文档没有那么全。
文档:ragflow/README_zh.md at main · infiniflow/ragflow · GitHub
1.2 分类:rag + workflow + tools (和扣子 coze 类型)
1.2.1 Dify
GitHub - langgenius/dify: Dify is an open-source LLM app development platform. Dify's intuitive interface combines AI workflow, RAG pipeline, agent capabilities, model management, observability features and more, letting you quickly go from prototype to production.
star数量:26K
社区活跃程度:社区活跃,社区群交流的人比较多。现在官方全已经有7个了。
优势: 文档非常齐全。应该是最早开源的。工具非常齐全。它的代码的扩展性,是非常好的。整体不强依赖模型。但是支持了非常多的模型部署工具的接入。还支持工作流,有非常多的tools,并且我们想要接入自己的工具,也非常方便。代码扩展性极好,且轻量级。
劣势:可能不是很关注RAG的效果,文档解析差,没用到模型,也就是说扫描件是无法处理的。
文档:欢迎使用 Dify | 中文 | Dify
1.2.2 fastGPT
GitHub - labring/FastGPT: FastGPT is a knowledge-based platform built on the LLMs, offers a comprehensive suite of out-of-the-box capabilities such as data processing, RAG retrieval, and visual AI workflow orchestration, letting you easily develop and deploy complex question-answering systems without the need for extensive setup or configuration.
star数量:13K
社区活跃程度:社区活跃,社区群交流的人比较多。
优势: 文档非常齐全。工具非常齐全。它的代码的扩展性好。整体不强依赖模型。但是支持了非常多的模型部署工具的接入。还支持工作流,有非常多的tools。fastGPT的商业化道路走在了前边,这是我见到的商业化走的最成熟的一个。
劣势:可能不是很关注RAG的效果,文档解析差,没用到模型,也就是说扫描件是无法处理的。
文档:文档 | FastGPT
二、总结
这里先说一下自己的感受吧:这些开源的技术,还是各有所长的。应该结合融合到一起,才能更好的完成我们的生产需求。
我们在看它的时候,应该带有目的,是想要拿来就用,还是想在上边继续做扩展。还是说学习开眼技术的代码的扩展性,还是文档能力。个人觉得dify的扩展能力是最好的,文档也是最全的,可能得益于开源的时间比较长。
这篇关于开源的 RAG 和 workflow 技术对比调研的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!