[论文笔记] DCLM 分长度区间进行长文本抽取

2024-08-23 14:52

文章标签 进行笔记论文文本长度区间抽取 dclm

本文主要是介绍[论文笔记] DCLM 分长度区间进行长文本抽取，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

import os
import zstandard as zstd
import json
import io
import multiprocessing
from tqdm import tqdm# 定义根目录路径
root_dir = "dclm-baseline-1.0"
output_base_dir = "dclm"  # 输出的基准路径# 定义长度区间 (字符数)
length_ranges = {"dclm_16k": (8000, 16000),"dclm_32k": (16000, 32000),"dclm_64k": (32000, 64000),"dclm_128k": (64000, 128000)
}# 处理函数
def process_file(file_path):relative_dir = os.path.relpath(file_path, root_dir)relative_dir = relative_dir.replace(os.path.basename(file_path), "")with open(file_path, 'rb') as f:dctx = zstd.ZstdDecompressor()with dctx.stream_reader(f) as reader:text_stream = io.TextIOWrapper(reader, encoding='utf-8')for line in text_stream:record = json.loads(line)text_length = len(record['text'])

这篇关于[论文笔记] DCLM 分长度区间进行长文本抽取的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1099700。 23002807@qq.com

相关文章

Golang如何对cron进行二次封装实现指定时间执行定时任务

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》：本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

阅读更多...

MySQL 获取字符串长度及注意事项

MySQL 获取字符串长度及注意事项

《MySQL获取字符串长度及注意事项》本文通过实例代码给大家介绍MySQL获取字符串长度及注意事项,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 获取字符串长度详解核心长度函数对比⚠️ 六大关键注意事项1. 字符编码决定字节长度2

阅读更多...

全面解析MySQL索引长度限制问题与解决方案

全面解析MySQL索引长度限制问题与解决方案

《全面解析MySQL索引长度限制问题与解决方案》MySQL对索引长度设限是为了保持高效的数据检索性能,这个限制不是MySQL的缺陷,而是数据库设计中的权衡结果,下面我们就来看看如何解决这一问题吧... 目录引言：为什么会有索引键长度问题？一、问题根源深度解析mysql索引长度限制原理实际场景示例二、五大解决

阅读更多...

使用Python进行GRPC和Dubbo协议的高级测试

使用Python进行GRPC和Dubbo协议的高级测试

《使用Python进行GRPC和Dubbo协议的高级测试》GRPC（GoogleRemoteProcedureCall）是一种高性能、开源的远程过程调用（RPC）框架,Dubbo是一种高性能的分布式服... 目录01 GRPC测试安装gRPC编写.proto文件实现服务02 Dubbo测试1. 安装Dubb

阅读更多...

Python中图片与PDF识别文本(OCR)的全面指南

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

阅读更多...

基于Linux的ffmpeg python的关键帧抽取

基于Linux的ffmpeg python的关键帧抽取

《基于Linux的ffmpegpython的关键帧抽取》本文主要介绍了基于Linux的ffmpegpython的关键帧抽取,实现以按帧或时间间隔抽取关键帧,文中通过示例代码介绍的非常详细,对大家的学... 目录1.FFmpeg的环境配置1) 创建一个虚拟环境envjavascript2) ffmpeg-py

阅读更多...

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面，macOS26采用了全新的玻璃质感视觉风格，应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日（6 月 13 日）发布博文，报道称在 macOS 26 Tahoe 中

阅读更多...

Python实现精准提取 PDF中的文本,表格与图片

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容：获取整页文本与指定区域内容获取页面上的所有文本内容获取

阅读更多...

Linux使用scp进行远程目录文件复制的详细步骤和示例

Linux使用scp进行远程目录文件复制的详细步骤和示例

《Linux使用scp进行远程目录文件复制的详细步骤和示例》在Linux系统中,scp（安全复制协议）是一个使用SSH（安全外壳协议）进行文件和目录安全传输的命令,它允许在远程主机之间复制文件和目录,... 目录1. 什么是scp？2. 语法3. 示例示例 1: 复制本地目录到远程主机示例 2: 复制远程主

阅读更多...

详解如何使用Python从零开始构建文本统计模型

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

阅读更多...