RLHF不够用了,OpenAI设计出了新的奖励机制

阿里云创新中心> 创业资讯> RLHF不够用了,OpenAI设计出了新的奖励机制
0
0

RLHF不够用了,OpenAI设计出了新的奖励机制

Micheli 2024-07-26 00:00:00 565
OpenAI推出了一种名为Rule-Based Rewards (RBR)的新训练机制,旨在确保AI模型更加遵守安全政策和人类价值观。
OpenAI推出了一种名为Rule-Based Rewards (RBR)的新训练机制,旨在确保AI模型更加遵守安全政策和人类价值观。这种创新方法基于预定义的安全规则提供强化学习信号,减少了对广泛人类反馈的需求。RBR允许更精确地控制AI行为,特别是在避免有害内容和生成尊重回应方面。与接受人类反馈训练的模型相比,使用RBR训练的模型在安全性能上表现相当,同时减少了对手动数据的依赖。RBR的灵活性意味着它可以应用于超出安全训练范围的各种需要特定行为的任务。对于对AI安全性和效率感兴趣的人来说,这篇内容提供了关于OpenAI最新努力的见解,以平衡人类输入和基于规则的训练,可能塑造AI模型发展的未来。- OpenAI设计了一种新的奖励机制,称为基于规则的奖励(RBR),用于训练大型语言模型。 - RBR可以自动执行模型微调,避免过度依赖人类反馈。 - RBR根据一组安全规则提供RL信号,使模型更容易适应不断变化的安全政策。 - RBR训练的模型表现出与人类反馈训练的模型相当的安全性能,并减少了过度拒绝安全请求的情况。 - RBR可以与人类反馈结合使用,以平衡在主观任务中的应用。 - RBR不仅限于安全训练,还可以适应各种任务,并为特定应用程序定制模型响应的个性或格式。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等