OpenAI新论文“为何大模型会有幻觉”火爆AI圈,文章中指出是模型评估机制鼓励了幻觉答复,并提出用“给错答设成本、允许并奖励’我不知道(IDK)’”来遏制幻觉。
业界对此文评价积极,认为有助于未来降低大模型幻觉。而GPT-5幻觉大幅降低,或许部分得益于此。但因果相蔓,这一策略在减少幻觉的同时也可能引发诸多连锁反应。其中关键的一条是:IDK增多可能减少“带证据正确样本”,因此训练时或需额外采用合成数据补救。
合成数据在编码类任务上颇为有效。其原因是编码相对简单,有严格语法与可验证语义。但人类语言不是代码,它包含细微语感、修辞、暗示与创意。当过多使用合成数据训练时,模型的输出就变得“机器味”十足。这也恰恰是许多用户不喜欢 GPT-5 的根本原因。