首页 大发棋牌官方网站入口 >新闻资讯 校园风采 大发棋牌官网
AI榜单“变”了!马斯克发布Grok 4.1,盲测排名第一
2025-11-22

随着Openai发布GPT-5.1并大谈“情商”,埃隆·马斯克很快就带着他的Xai加入了“AI体验”的争夺战。就在今天,Xai 宣布推出 Grok 4.1,这是对现有 Grok 4 型号的重大升级,并向 Grok.com、X 平台以及 iOS 和 Android 应用程序上的所有用户完全开放。 。官方表示,新版本在创意表达、情感投入和沟通协作方面尤为出色,出现幻觉的可能性仅为之前型号的三分之一。更引人注目的是,在公开的“盲测”竞技场(LMARENA)中,“思考模式”版本的Grok 4.1悄然名列总榜榜首。甚至“非释放”快速模式也击败了所有“完整推理”模式。 tuktok领域突然“易主”,无疑给日益激烈的AI竞争增添了浓重的火药味。 Grok 4.1 升级了哪些内容? Xai 在 发布了 Grok 4.1 的两个模型这次:Grok 4.1(非Reasing模式)和Grok 4.1 Thinking(思考模式)。两种模型都可以免费使用,但付费用户面临的限制较少。官方表示,新版本可以更详细地理解隐藏的欲望,让对话更具吸引力,更好地保持角色一致性。为了优化模型的风格、个性和实用性,Xai 使用前沿的智能体推理模型作为“奖励模型”,在大环境下自动评估和避免模型响应。在11月1日至14日的“静默发布”期间,Xai在真实流量中进行了盲目的成对比较分析。结果显示,在 64.78% 的情况下,用户更喜欢 GROK 4.1。 “盲测”登顶,Grok 4.1有多强大? Grok 4.1 在盲人偏好评估方面树立了新的行业标准。 Lmarena 是一个开源工具,允许用户通过并行、盲测来比较不同大型语言模型的性能蜇。在这场竞争最激烈的“斗兽场”中,GROK 4.1取得了惊人的成绩: · Grok 4.1的“思维模式”(代号:quasarflux)以1483 ELO的分数位居总榜单第一,领先所有非Xai型号31分。 · Grok 4.1的“非推理模式”(代号:张量)无需使用“思考令牌”即可立即生成答案,以1465 ELO的分数排名第二。 · 更夸张的是,Grok 4.1 的“非推理”性能超过了所有其他模型“完全推理模式”下的公开排名结果。相比之下,Grok 4 此前在这份榜单上的总体排名仅为第 33 位。 “情商”和“文学才华”缺一不可。除了通用能力外,赛伊还强调新车型“软实力”的提升。 · 情商 为了评估人格和人际互动模型的发展,Xai 在 GROK 4.1 上进行了 EQ-Bench3 测试。这是一个测试,以法学硕士为评委,评估模特在主动情商、理解力、洞察力、同理心和人际交往能力方面的表现。 · 创意写作技巧 Xai 还测量了 Grok 4.1 在 Creativewriting V3 基准测试中的性能。在此测试中,模型需要在 3 次迭代中根据 32 种不同的书写提示生成响应。配备搜索工具的“虚幻”程度较低的快速响应模型可以快速提供答案,但更容易出现事实错误。在 Grok 4.1 的后训练阶段,Xai 重点关注减少模型对查询信息提示的现实“错觉”。根据 Xai 的说法,Grok 4.1 出现幻觉的可能性是之前型号的三分之一,这使其成为 Xai 迄今为止最好的版本之一。为了证明这一点,Xai 不仅对真实的劳动力流量进行了分析,还使用了包含 500 个传记问题的公共基准 FactScore。挑战与未来:真正的对手仍在路上。虽然Grok 4.1“盲测”成绩出色,AI王座之争还远未结束。目前,我们不知道它与 GPT-5.1 相比的实际性能如何。更重要的是,谷歌正准备发布Gemini 3.0,这很可能是最强大的型号。 Grok 4.1的发布无疑是马斯克在AI竞赛中做出的重要棋子。但在这场“诸神之战”的游戏中,谁能笑到最后还远未可知。 (简单句)(本文由AI翻译,网易编辑校对)

Copyright © 2024-2026 爆料黑料网站-爆料快手网红黑料网站-快手抖音网红爆料网站 版权所有

网站地图

鄂ICP备36659856号

友情链接: