最佳体验请使用Chrome67及以上版本、火狐、Edge、Safari浏览器 ×

创建银行
创建开票

    测试付费

    作者: 杨鹏飞@有芯电子 阅读25 2025/07/14 08:50:59 文章 原创 公开

    在我们日常使用ChatGPT、文心一言等AI助手时,你是否想过一个问题:这些机器人是如何学会给出"好"回答而避免"坏"回答的?就像教育孩子一样,我们需要告诉AI什么是对的,什么是错的。然而,现实中的"对错"往往并不是非黑即白的,有时候答案的好坏就像在灰色地带中摸索。最近,来自蚂蚁集团、上海数据科学重点实验室和新加坡国立大学的研究团队,发表了一项突破性研究,为这个难题提供了一个巧妙的解决方案。

    这项研究由蚂蚁集团的孙洁、伍俊康等研究人员领导,于2025年6月发表。有兴趣深入了解的读者可以通过GitHub仓库(https://github.com/sunjie279/gammaPO)获取完整的研究代码和详细资料。研究团队面临的核心挑战就像训练一位厨师:当食客给出的评价模糊不清时,厨师该如何改进自己的手艺?

    想象一下,你正在教一个机器人如何回答"如何缓解工作压力"这个问题。机器人给出了两个答案:第一个建议"周末多到户外运动,亲近自然",第二个建议"多喝酒,喝醉了就不用想任何事情"。显然,第一个答案更好,但有时候答案之间的差距并不这么明显。比如第一个答案建议"和朋友家人聊天分享烦恼",第二个答案建议"做简单的伸展运动放松身体",这两个答案都不错,很难说哪个明显更好。

    传统的训练方法就像一个过于严格的老师,不管学生答案质量如何,都用同样的标准来评判。这就导致了一个问题:当面对那些模糊不清、难以区分好坏的答案时,AI可能会"钻牛角尖",过度学习那些本来就不够清晰的判断标准,反而让自己变得更加困惑。

    研究团队的创新就像为这位严格的老师配备了一副"智能眼镜"。这副眼镜能够识别出哪些考试题目是"送分题"(答案差距明显),哪些是"压轴题"(答案难以区分)。对于送分题,老师会更严格地要求学生必须答对;对于压轴题,老师则会适当放宽标准,避免学生因为过度纠结而学歪了。

    这个创新方法被研究团队称为"γ-PO"(gamma-PO),其中的"γ"就像一个智能调节器。当AI面对两个回答质量差距很大的情况时,γ会自动调高"严格度",督促AI更努力地学习明显更好的答案;当两个回答质量相当时,γ会自动降低"严格度",避免AI被这种模糊信息误导。

    最令人兴奋的是,这个方法就像一个万能插头,可以轻松地插入到现有的各种AI训练系统中。无论是DPO、SimPO还是其他训练方法,都可以立即享受这个智能调节器带来的好处,而且几乎不需要额外的计算成本。

    一、发现问题的侦探过程

    研究团队首先像侦探一样仔细观察了现有AI训练过程中的蛛丝马迹。他们发现了一个有趣的现象:在大量的训练数据中,绝大多数的答案对比都集中在"模糊地带"——也就是说,两个答案的质量评分非常接近,很难判断哪个明显更好。

    想象你是一位美食评委,需要为餐厅打分。有些情况下,一道菜明显比另一道菜好吃得多——比如精心烹制的牛排对比烧糊了的鸡蛋,这种情况下你很容易给出明确的评判。但更多时候,你面对的是两道都还不错的菜品,比如红烧肉对比糖醋里脊,此时的评分差距就很小,你的判断可能会受到当天心情、个人喜好等因素影响。


    声明:本网站部分内容来源于网络,版权归原权利人所有,其观点不代表本网站立场;本网站视频或图片制作权归当前商户及其作者,涉及未经授权的制作均须标记“样稿”。如内容侵犯了您相关权利,请及时联系责任编辑(2026闪耀慕尼黑)
    杨鹏飞
    @有芯电子 ,版权号:
    成员
    • 成交数 --
    • 成交额 --
    • 应答率
    聊天 收藏 点赞
    赏
    ¥0.00¥0.00¥0.00¥0.00¥0.00
     0  0
    
    
    分享

    微信扫一扫:分享

    微信里点“+”,扫一扫二维码

    便可将本文分享至朋友圈。

        0
      验证
      二维码支付