dclm专题

[论文笔记] DCLM 分长度区间进行长文本抽取

import osimport zstandard as zstdimport jsonimport ioimport multiprocessingfrom tqdm import tqdm# 定义根目录路径root_dir = "dclm-baseline-1.0"output_base_dir = "dclm" # 输出的基准路径# 定义长度区间 (字符数)length_r