SFT loss 计算的那些坑（多轮合并/packing）

Micheli 2024-09-25 00:00:00 1588

该内容讨论了神经网络训练中损失函数的复杂性，特别关注了SFT（安全模糊技术）损失计算及其对LLM（大型语言模型）等语言模型的影响。

该内容讨论了神经网络训练中损失函数的复杂性，特别关注了SFT（安全模糊技术）损失计算及其对LLM（大型语言模型）等语言模型的影响。它深入探讨了使用SFT进行训练的挑战，例如需要仔细管理input_ids和标签，并介绍了像“packing”这样的概念来优化训练过程。这篇内容的重要性在于探讨如何在加速神经网络训练的同时保持损失函数的完整性。它还涉及到使用因果关注掩码以及填充和截断数据对训练效果的影响。这份指南对于对高级训练技术和优化大规模语言模型损失函数感兴趣的机器学习从业者可能非常有价值。-SFT损失是一种将多个输入打包为单个序列的方法。 -SFT损失函数计算每个输入的损失，并将其除以令牌的数量。 -SFT损失的公式为（l_1/n_1+l_2/n2+l_3/n_3）/3，其中l_i是输入i的损失，n_i是输入i的令牌数。 -SFT损失可以与因果注意力掩码一起使用，以确保正确的词元会计。 -PyTorch交叉熵损失函数可用于计算损失，并可选择使用“均值”方法。

奇绩创坛

>>>了解更多创新创业资讯

登录后可评论

上一篇：对小语言模型（SLMs）在架构、训练数据集和训练算法方面的广泛调查

下一篇：潞晨Video Ocean正式全面公测，视频大模型全方位升级重塑视觉体验

上一篇：对小语言模型（SLMs）在架构、训练数据集和训练算法方面的广泛调查下一篇：潞晨Video Ocean正式全面公测，视频大模型全方位升级重塑视觉体验