longwriter专题

DeepSeek 数学大模型现可一键部署!LongWriter-6k数据集上线,助力大模型万字长文输出

公共资源速递 This Weekly Snapshots ! 5 个数据集: * LongWriter-6k 长上下文输出数据集 * Yoga-16 人体瑜伽动作图像数据集 * HUST-OBS 甲骨文识别数据集 * UAVDT 无人机目标检测追踪视频数据集 * SWE-bench Verified 代码生成评估基准 1 个模型: * DeepSeek-Prover-V1.5-R

LongWriter——从长文本语言模型中释放出10,000+字的生成能力

概述 当前的长上下文大型语言模型 (LLM) 可以处理多达 100,000 个词的输入,但它们很难生成超过 2,000 个词的输出。受控实验表明,该模型的有效生成长度本质上受到监督微调(SFT) 期间看到的示例的限制。换句话说,这种输出限制源于现有 SFT 数据集中长输出示例的稀缺性。 长上下文LLM 的最新进展推动了内存容量显着扩展的模型的开发,能够处理长度超过100,000 个标记的历史记