大语言模型微调之道5——准备数据

宝玉的技术分享

30 Aug 202310:53

Summary

TLDR本视频教程介绍了如何为训练准备高质量数据。强调了数据质量、多样性和真实性的重要性，并解释了数据预处理的步骤，包括收集指令响应对、拼接、标记化、填充或截断以及分割训练和测试数据集。通过使用Hugging Face的自动标记化器类，演示了如何将文本转换为模型可以理解的数字。最后，展示了如何将这些步骤应用于实际数据集，为模型训练做好准备。

Takeaways

📈 高质量数据：准备用于训练的数据时，应优先考虑数据的质量，避免输入错误导致输出错误。
🌐 数据多样性：确保数据覆盖广泛，以防止模型记忆并重复相同的输入输出对。
🔍 真实与生成数据：尽可能使用真实数据，因为生成数据可能包含可检测的模式，限制模型学习新框架的能力。
📚 数据量的重要性：虽然数据量很重要，但在大多数机器学习应用中，质量、多样性和真实性更为关键。
🔢 收集数据：首先收集指令-响应对或问题-答案对，并将其从模板中提取出来。
🔑 标记化数据：将文本数据转换为模型可以理解的数字，通常基于字符出现的频率。
📏 填充和截断：为了使批次中的所有文本长度一致，使用填充策略，并将过长的文本进行截断。
🔄 批量处理：在处理数据时，通常以批次的形式进行，以便于模型高效学习。
📊 分割数据集：将数据集分为训练集和测试集，以便评估模型的性能。
🛠️ 使用工具：利用如Hugging Face的Transformers库中的AutoTokenizer类来简化数据准备过程。
🚀 准备训练：完成数据预处理后，即可开始模型的训练过程。

Q & A

为什么高质量数据对于模型训练至关重要？
-高质量数据对于模型训练至关重要，因为输入数据的质量直接影响模型的输出。如果输入的是低质量数据，模型可能会简单地复制这些数据的模式，导致输出也是低质量的。
数据多样性在模型训练中的作用是什么？
-数据多样性有助于模型学习到更多的应用场景和处理不同类型的输入。如果所有输入和输出都相同，模型可能会开始记忆它们，而不是学习新的模式或表达方式。
真实数据与生成数据在模型训练中有何区别？
-真实数据通常比生成数据更有效，因为生成数据可能已经包含了某些模式，这些模式可能会被用于检测生成内容。真实数据能够提供更自然、更多样化的模式，有助于模型学习到更广泛的应用场景。
在数据预处理中，数据量的重要性如何？
-虽然数据量在机器学习应用中很重要，但是在预训练阶段模型已经从大量互联网数据中学习，因此对于特定任务而言，数据的质量、多样性和真实性比数据量更为重要。
什么是数据的分词（tokenization）过程？
-分词是将文本数据转换成数字的过程，这些数字代表文本中的各个部分。分词不仅仅按单词进行，而是基于常见字符出现频率。例如，'ing'是一个常见的分词，因为它在所有类型的文本中都很常见。
在模型训练中，为什么需要将数据分批处理？
-模型训练需要固定大小的张量进行操作，因此需要将不同长度的文本统一长度。通过分批处理，可以确保每批数据的长度一致，便于模型处理。
什么是填充（padding）策略？
-填充是处理不同长度文本的策略，通过在较短的文本后面添加特定的符号（通常是零）来使所有文本长度一致，以便模型能够处理。
什么是截断（truncation）策略？
-截断是处理过长的编码文本的策略，通过减少文本的长度使其适应模型的最大处理长度。截断可以是从左边或右边进行，这取决于任务的需求。
如何使用Hugging Face的AutoTokenizer类进行分词？
-AutoTokenizer类可以自动为指定的模型找到正确的分词器。只需提供模型名称，它就会返回与模型训练时使用的分词器相匹配的分词结果。
如何将分词函数应用到整个数据集上？
-可以使用map函数将分词函数应用到整个数据集上。通过设置batch_size和drop_last参数，可以控制数据的批量处理和是否丢弃最后一个不完整的批次。
数据集如何进行分割，以便进行模型训练和测试？
-使用train_test_split函数可以将数据集分割成训练集和测试集。可以通过指定test_size参数来控制测试集的大小，并通过shuffle参数来随机化数据集的顺序。