首页 大发棋牌官方网站入口 >新闻资讯 校园风采 大发棋牌官网
描述了AI的致命弱点,大型模型变为“敏锐”!在被法律领导之后,他将不再悔改
2025-07-04

XIN Zhiyuan报告编辑:Pecedong Yingzhi [Xin Zhiyuan简介] DeepMind新研究表明,当与推理无关的想法直接在理解模型的过程中直接掌握时,它们就难以恢复,并且模型越大,就越难以恢复。当被无关或错误信息打断时,大型模型可以固执,无法保存更正!在20世纪初期,据说有一匹马可以算术,称为“智能汉斯”。然而,在心理学家范斯特(Vonster)的研究之后,终于发现这匹马实际上通过观察发问者的无意识语言(例如呼吸变化)而停止了脚步,并且并不真正理解数学。现在,我们发现大型模型将表现出厌恶的行为,甚至还有一个“解释性现象”,例如AHA时刻。这是像“智能汉斯”的大型模型,它依赖于表面帕特用直接言语而不是具有真正的推理能力。 DeepMind的最新研究表明了大型模型推理的相关部分。纸张链接:https://arxiv.org/abs/2506.10979展开全文 首先,对大型模型的不当思考进行了分类。第一个类别没有信息称为内容。例如,当我们使用大型模型时,我们并没有意外地发现大型模型的思想已经消失了。 例如,大型模型在推理过程中成为了胡说八道的文献和正确信息的输出的主人,但与探针的实际解决方案无关。例如,如何问大型模型如何计算地球与月球之间的距离? 该模型在推理过程中显示:嗯,这个问题非常有趣。首先,我需要仔细考虑并以步骤解决。记住知识渊博的知识可能需要某些公式。如果你想到的车好的,答案应隐藏在某个地方。 第二类称为无关内容,即,思维过程完全偏离了原始问题,并回答与当前无关的问题。 第三类是误导性内容,也就是说,问题被巧妙地篡改,导致解决问题而不是直接单词。第四类可能称为错误的内容,也就是说,在推理过程中存在逼真的错误错误,导致答案错误。 这项研究首先研究了各种大型模型的准确性,以识别四种不当思维。 图1使用带有不同参数的Distillation DeepSeek R1模型的无效内容内容的准确性 模型越大,恢复的困难越难 图1右侧显示的结果将降低模型越大的技能,效果越好。 当研究人员强烈注射不当思考大型模型时,当T大型模型从不当思维的注入中恢复,参数值越大,恢复大型模型的可能性越高,尤其是在短含量的内容(无关的10%)的情况下。 也就是说,大型模型比Thossmall模型更可能偏离,就好像大型模型像人类一样被“分心”。 与注射各种无效思想后大型模型恢复的性能相比,该模型的性能下降(最大崩溃为92%),尤其是最不健康和误导性的内容(错误地认为100%)。 特别是三个常见的基准测试,数学,科学和编程的大型模型,当研究人员在大型模型理解过程中输入10%的无关紧要的内容时,上述三个大型模型的相反缩放效应,即Devicek R1,S1和Exaone。 图2D比较了不同长度的影响与不当插入不当的插入的影响关于模型恢复的恢复。结果表明,较短的干扰文本(长度为10%),较小模型恢复的弯曲越有意义。中断时间越长(100%),量表效应趋于平坦。 图2能够恢复数学中的各种大型模型,即科学,即编程台式数据集,以解决已进入识别过程的无效思维 当研究人员将外部干预应用于大型模型的思考过程时,即添加直接的词:但是,我认为,该模型确实显示了AH HA时刻的一定程度。 该模型有100%的机会从不当思考误导性信息类别中恢复过来,这对于许多其他类别也很有用(图3A)。但是,与没有注入误解的模型性能相比,仍然存在限制,尤其是对于两个不考虑错误信息和错误信息的限制错误的内容(图3b)。 图3通过引入AHA力矩,测量大型模型从不同类型无效的能力 识别模型的上部缺陷为攻击模型黑客提供了新的弱点。黑客可以通过轮询“ AI的思维过程”来操纵答案(而不是直接更改问题)。面对这种攻击,小型型号比大型模型具有更强的阻力。 如图4a所示,当攻击将有害请求识别为模型的思维剪辑(如虚构的故事设置)时,小型模型(7b)的攻击率最低(深绿色的30%“无害”),而大型模型(32b+)更可能具有输出有害答案(60%的RED nargull')。 图4b将输入过程中对大型模型的传统攻击与思考过程中的攻击进行了比较。结果与先前的观点一致,尤其是TRA攻击(输入攻击)的生长攻击:大型模型具有更强的防御力,而面对攻击:大型模型更加脆弱,并带来了反规模的效果。这意味着,对于思维过程,识别模型需要建立单独的防御机制,并且不能依靠参数的量来确保模型的安全性。 图片4面对不同类型的攻击时,理解模型的性能 在本文的开头,五月的引用了“智能汉斯”。现在,当我们看到大型模型显示出可比甚至幸存下来的能力时,《深媒体》的这项研究提醒我们,如果基于硅的马版本可能是算术的,那么推理能力来自与模板根据模板与人相互作用的直接单词的细节匹配。 关于是否确实有合理的能力与人进行推理的能力仍然存在疑问。毕竟,大多数人们不会像大型模型那样无关或误导性而感到难过。即使是错误的思维过程也受到影响和不可能。 这些发现为改善“元认知”和从误导性倾向路径中恢复的识别模型的宽敞空间,这是一种在产生更安全且更可靠的大型识别模型时进行的重大考虑。 参考: https://arxiv.org/abs/2506.10979回到Sohu以查看更多

Copyright © 2024-2026 大发棋牌官方网站入口_大发棋牌官网 版权所有

网站地图

鄂ICP备36659856号

友情链接: