AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
文章全面探讨了大语言模型在预训练数据选择上的重要性,并提出了一种名为 DataMan 的数据管理器,用于对预训练数据进行质量评分和领域识别,以优化 LLMs 的预训练过程,本文由浙江大学和阿里巴巴千问团队共同完成。
在 Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个数据管理器 DataMan,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。通过大量的实验,利用 DataMan 所筛选出的部分数据进行模型训练,胜率最高可达 78.5%,且性能超过多使用 50% 数据训练的模型。
论文标题:DataMan: Data Manager for Pre-training Large Language Models
作者单位:浙江大学 阿里巴巴
论文链接:abs/2502.19363
一. 逆向反思指导质量标准
随着大语言模型(LLMs)的快速发展,数据在模型性能提升中的作用越来越受到关注。现有的数据选择方法主要依赖于有限的手工规则和直觉,缺乏全面和明确的指导原则。为了解决这个问题,作者们提出了 “逆向思维”(reverse thinking)的概念,即通过提示 LLMs 自我识别哪些质量标准对其性能有益,来指导数据选择。
具体来说,这一过程共分为四步:
1)分析文本困惑度的异常:通过分析预训练所使用的文本数据,特别是那些困惑度(PPL)处于前 2% 和后 2% 的文本,来理解哪些文本特征与困惑度异常有关。该步使用一个超级 LLM(Super LLM)来分析这些异常现象背后的原因,并试图找出哪些文本特征对 LLM 的性能有积极影响。
2)迭代提炼质量标准:通过上述分析,作者迭代地提炼出了 13 个与文本质量相关的标准。这些标准包括准确性、连贯性、语言一致性、语义密度、知识新颖性、主题聚焦、创造性、专业性、语法多样性、结构标准化、风格一致性、原创性和敏感性。
3)构建全面的质量评分体系:除了上述 13 个质量标准外,作者还构建了一个综合性的评分标准,称为 “总体评分”(Overall Score)。这个评分标准综合考虑了上述 14 个标准,旨在提供一个更全面的文本质量评估。
4)验证质量标准的有效性:为了验证这些质量标准的有效性,超级 LLM 将对这些标准进行评分,并与人类评分进行了比较。结果显示,超级 LLM 的评分与人类评分有超过 95% 的一致性,这表明这些质量标准是有效的。
二. 数据卷王 DataMan
DataMan 是一个综合性的数据管理器,它能够对文本进行质量评分和领域识别,旨在促进预训练数据的选择和混合。DataMan 的训练和管理数据的过程主要包括以下几个步骤:
1)数据标注:DataMan 模型首先对 SlimPajama 语料库进行标注,标注内容包括 14 个质量评分标准和 15 个常见的应用领域。标注过程通过提示 Super LLM 生成文本的评分,并使用这些评分来创建一个用于模型微调的数据集。
2)模型微调:使用 Qwen2-1.5B 作为基础模型,通过文本生成损失进行微调。微调过程中,DataMan 模型学习如何根据给定的文本自动评分和识别领域。
3)数据采样:基于 DataMan 模型对数据的质量评分和领域识别,可以采用不同的数据采样策略。例如,通过 top-k 采样,根据质量评分和领域分布概率,从源和领域分布中采样数据,以最大化样本的代表性,同时确保数据源和领域的多样性。
三. 实验设置
DataPajama:DataPajama 是一个经过清洗和去重的 447B token 的预训练语料库,其已经由 DataMan 模型为其的每个文档打上 14 个质量评分和 15 个领域类型标签。尽管这一过程很昂贵(等于 1146 NVIDIA A800 小时),但可以通过大规模的并行化和低成本的 DataMan 模型来缓解,以可以服务于各种目的,如数据选择、数据混合或特定领域的持续预训练。
数据选择:该研究使用不同的数据选择方法从 DataPajama 中选择 30B token 的子集进行实验。这些方法包括:
1)Uniform:随机选择。2)DSIR:使用重要性重采样(DSIR)方法选择与英语维基百科或书籍领域相似的文档。3)Perplexity Filtering:基于困惑度过滤数据。4)Sample with Qurating:根据 Qurating 提出的四个质量标准(写作风格、事实、教育价值和所需专业知识)进行采样。5)Sample with DataMan:基于 DataMan 的 13 个质量标准进行采样。
模型训练:使用 Sheared-Llama-1.3B 模型架构,对从 DataPajama 中选择的 30B token 子集进行训练。训练设置包括使用 RoPE 嵌入和 SwiGLU 激活函数,以及 Adam 优化器等。
四. 实验发现
通过大量实验,该研究验证了 DataMan 方法的有效性,并展示了使用 DataMan 选择的数据进行训练的模型在多个下游任务上的优异性能。
Dataman 性能如何?
如下表所示,使用 DataMan 选择的数据进行训练的模型在语言建模、任务泛化能力和指令遵循能力上均优于使用均匀采样的基线模型。此外,使用 DataMan 的 13 个质量标准进行采样,相较于使用均匀采样,可以显著提升模型的性能,尤其是在上下文学习(ICL)任务中。
在指令跟随性能上,作者们的模型始终超过 SOTA 基线,总体得分达到了令人印象深刻的胜率 78.5%。
在垂直领域上继续预训练?
作者们应用 DataMan 的领域识别来过滤医学、法律和金融领域的垂类数据,并进行继续预训练以得到领域特定的模型。如图所示,模型性能得到了进一步提升,这验证了 DataMan 的域混合能力。
数据量与模型性能的关系?
该研究使用同样的方法抽样采样了一个更大的 60B 子集,以探究数据量的影响。如下表所示,模型在 ICL 等下游任务中都取得了进一步提升。
PPL 与 ICL 的失调?
下图我们绘制了 10 个下游任务中所有模型的困惑度(PPL)和上下文学习(ICL)性能之间的关系,包括 Pearson 和 Spearman 相关系数。结果表明,这种错位在 LogiQA 和 MMLU 任务中最为明显。更深入的分析确定了两个主要原因:i)- 域不匹配:预训练通常使用广泛的通用语料库,这使得模型在一个公共文本上表现出较低的困惑度。然而,像 MMLU 这样的任务,它跨越了 57 个不同的专门领域(如抽象代数和解剖学),可能会因为域不匹配尔在 ICL 中受到影响。ii)-ICL 任务的复杂性:许多 ICL 任务需要复杂的推理,而不是简单的文本生成,而困惑性评估难以捕获。这一点在 LogiQA 中尤为明显,该任务通过来自公务员考试中的专家撰写的问题来评估人类的逻辑推理技能。
0 条