GraphRAG 文本分割优化

2024-08-31 20:36
文章标签 优化 分割 文本 graphrag

本文主要是介绍GraphRAG 文本分割优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GraphRAG 文本分割优化

开始调整对微软的 GraphRAG 进行优化,这次优化有以下几点,

  • ‘�’ 乱码问题
  • 句子在中间被截断的问题
# Copyright (c) 2024 Microsoft Corporation.
# Licensed under the MIT License"""A module containing run and split_text_on_tokens methods definition."""from collections.abc import Iterable
from typing import Anyimport tiktoken
from datashaper import ProgressTickerimport graphrag.config.defaults as defs
from graphrag.index.text_splitting import Tokenizer
from graphrag.index.verbs.text.chunk.typing import TextChunkdef trim_sentence(sentence):# 定义固定的分隔符列表delimiters = [',', '、', '。', '!', '?', ';', ':', '.']# 查找第一个非分隔符的字符位置start_index = 0for i, char in enumerate(sentence):if char in delimiters:start_index = i + 1break# 查找最后一个非分隔符的字符位置end_index = len(sentence)for i in range(len(sentence) - 1, -1, -1):if sentence[i] in delimiters:end_index = i + 1break# 返回修剪后的句子return sentence[start_index:end_index]def run(input: list[str], args: dict[str, Any], tick: ProgressTicker
) -> Iterable[TextChunk]:"""Chunks text into multiple parts. A pipeline verb."""tokens_per_chunk = args.get("chunk_size", defs.CHUNK_SIZE)chunk_overlap = args.get("chunk_overlap", defs.CHUNK_OVERLAP)encoding_name = args.get("encoding_name", defs.ENCODING_MODEL)enc = tiktoken.get_encoding(encoding_name)def encode(text: str) -> list[int]:if not isinstance(text, str):text = f"{text}"return enc.encode(text)def decode(tokens: list[int]) -> str:return enc.decode(tokens)return split_text_on_tokens(input,Tokenizer(chunk_overlap=chunk_overlap,tokens_per_chunk=tokens_per_chunk,encode=encode,decode=decode,),tick,)# Adapted from - https://github.com/langchain-ai/langchain/blob/77b359edf5df0d37ef0d539f678cf64f5557cb54/libs/langchain/langchain/text_splitter.py#L471
# So we could have better control over the chunking process
def split_text_on_tokens(texts: list[str], enc: Tokenizer, tick: ProgressTicker
) -> list[TextChunk]:"""Split incoming text and return chunks."""result = []mapped_ids = []for source_doc_idx, text in enumerate(texts):encoded = enc.encode(text)# print(f"{text=} {encoded=}")# encoded = tiktoken.get_encoding("utf8").encode(text)tick(1)mapped_ids.append((source_doc_idx, encoded))input_ids: list[tuple[int, int]] = [(source_doc_idx, id) for source_doc_idx, ids in mapped_ids for id in ids]start_idx = 0cur_idx = min(start_idx + enc.tokens_per_chunk, len(input_ids))chunk_ids = input_ids[start_idx:cur_idx]while start_idx < len(input_ids):chunk_text = enc.decode([id for _, id in chunk_ids])chunk_text = chunk_text.strip("�")chunk_text = trim_sentence(chunk_text)enc.encode(chunk_text)doc_indices = list({doc_idx for doc_idx, _ in chunk_ids})result.append(TextChunk(text_chunk=chunk_text,source_doc_indices=doc_indices,# n_tokens=len(chunk_ids),n_tokens=len(enc.encode(chunk_text)),))start_idx += enc.tokens_per_chunk - enc.chunk_overlapcur_idx = min(start_idx + enc.tokens_per_chunk, len(input_ids))chunk_ids = input_ids[start_idx:cur_idx]return result

这篇关于GraphRAG 文本分割优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1124928

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

MySQL中慢SQL优化方法的完整指南

《MySQL中慢SQL优化方法的完整指南》当数据库响应时间超过500ms时,系统将面临三大灾难链式反应,所以本文将为大家介绍一下MySQL中慢SQL优化的常用方法,有需要的小伙伴可以了解下... 目录一、慢SQL的致命影响二、精准定位问题SQL1. 启用慢查询日志2. 诊断黄金三件套三、六大核心优化方案方案

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

Redis中高并发读写性能的深度解析与优化

《Redis中高并发读写性能的深度解析与优化》Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列、实时统计等场景,本文将深入探讨Redis的读写并发能力,感兴趣的小伙伴可以了解下... 目录引言一、Redis 并发能力概述1.1 Redis 的读写性能1.2 影响 Redis 并发能力的因素二、

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示