首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
dclm专题
[论文笔记] DCLM 分长度区间进行长文本抽取
import osimport zstandard as zstdimport jsonimport ioimport multiprocessingfrom tqdm import tqdm# 定义根目录路径root_dir = "dclm-baseline-1.0"output_base_dir = "dclm" # 输出的基准路径# 定义长度区间 (字符数)length_r
阅读更多...