AI榜单“变”了！马斯克发布Grok 4.1，盲测排名第一_爆料黑料网站-爆料快手网红黑料网站-快手抖音网红爆料网站

AI榜单“变”了！马斯克发布Grok 4.1，盲测排名第一

2025-11-22

随着Openai发布GPT-5.1并大谈“情商”，埃隆·马斯克很快就带着他的Xai加入了“AI体验”的争夺战。就在今天，Xai 宣布推出 Grok 4.1，这是对现有 Grok 4 型号的重大升级，并向 Grok.com、X 平台以及 iOS 和 Android 应用程序上的所有用户完全开放。。官方表示，新版本在创意表达、情感投入和沟通协作方面尤为出色，出现幻觉的可能性仅为之前型号的三分之一。更引人注目的是，在公开的“盲测”竞技场（LMARENA）中，“思考模式”版本的Grok 4.1悄然名列总榜榜首。甚至“非释放”快速模式也击败了所有“完整推理”模式。 tuktok领域突然“易主”，无疑给日益激烈的AI竞争增添了浓重的火药味。 Grok 4.1 升级了哪些内容？ Xai 在发布了 Grok 4.1 的两个模型这次：Grok 4.1（非Reasing模式）和Grok 4.1 Thinking（思考模式）。两种模型都可以免费使用，但付费用户面临的限制较少。官方表示，新版本可以更详细地理解隐藏的欲望，让对话更具吸引力，更好地保持角色一致性。为了优化模型的风格、个性和实用性，Xai 使用前沿的智能体推理模型作为“奖励模型”，在大环境下自动评估和避免模型响应。在11月1日至14日的“静默发布”期间，Xai在真实流量中进行了盲目的成对比较分析。结果显示，在 64.78% 的情况下，用户更喜欢 GROK 4.1。 “盲测”登顶，Grok 4.1有多强大？ Grok 4.1 在盲人偏好评估方面树立了新的行业标准。 Lmarena 是一个开源工具，允许用户通过并行、盲测来比较不同大型语言模型的性能蜇。在这场竞争最激烈的“斗兽场”中，GROK 4.1取得了惊人的成绩： · Grok 4.1的“思维模式”（代号：quasarflux）以1483 ELO的分数位居总榜单第一，领先所有非Xai型号31分。 · Grok 4.1的“非推理模式”（代号：张量）无需使用“思考令牌”即可立即生成答案，以1465 ELO的分数排名第二。 · 更夸张的是，Grok 4.1 的“非推理”性能超过了所有其他模型“完全推理模式”下的公开排名结果。相比之下，Grok 4 此前在这份榜单上的总体排名仅为第 33 位。 “情商”和“文学才华”缺一不可。除了通用能力外，赛伊还强调新车型“软实力”的提升。 · 情商为了评估人格和人际互动模型的发展，Xai 在 GROK 4.1 上进行了 EQ-Bench3 测试。这是一个测试，以法学硕士为评委，评估模特在主动情商、理解力、洞察力、同理心和人际交往能力方面的表现。 · 创意写作技巧 Xai 还测量了 Grok 4.1 在 Creativewriting V3 基准测试中的性能。在此测试中，模型需要在 3 次迭代中根据 32 种不同的书写提示生成响应。配备搜索工具的“虚幻”程度较低的快速响应模型可以快速提供答案，但更容易出现事实错误。在 Grok 4.1 的后训练阶段，Xai 重点关注减少模型对查询信息提示的现实“错觉”。根据 Xai 的说法，Grok 4.1 出现幻觉的可能性是之前型号的三分之一，这使其成为 Xai 迄今为止最好的版本之一。为了证明这一点，Xai 不仅对真实的劳动力流量进行了分析，还使用了包含 500 个传记问题的公共基准 FactScore。挑战与未来：真正的对手仍在路上。虽然Grok 4.1“盲测”成绩出色，AI王座之争还远未结束。目前，我们不知道它与 GPT-5.1 相比的实际性能如何。更重要的是，谷歌正准备发布Gemini 3.0，这很可能是最强大的型号。 Grok 4.1的发布无疑是马斯克在AI竞赛中做出的重要棋子。但在这场“诸神之战”的游戏中，谁能笑到最后还远未可知。（简单句）（本文由AI翻译，网易编辑校对）