马斯克Grok 4.1双冠封王，爆冲第一！AI王座一夜易主_财经

马斯克Grok 4.1双冠封王，爆冲第一！AI王座一夜易主

创始人

2025-11-18 10:40:43

0次

新智元报道

编辑：桃子好困

【新智元导读】AI新王来了！马斯克Grok 4.1静默上线，一夜之间登顶LMArena，Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线，算力又扩增一个数量级。

AI王座，一夜易主！

一早，马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线，而且对所有人免费。

有趣的是，Grok 4.1主打的也是「智商情商双在线」，正面硬刚GPT-5.1。

这一次，Grok 4.1一共放出了两大版本：Grok 4.1 Thinking和Grok 4.1。

在LMArena排行榜上，Grok 4.1 Thinking拿下了1483 Elo的成绩，以绝对实力加冕全球大模型之王。

Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1，直接杀入榜单第二。

不仅如此，Grok 4.1情商同样爆表，具备了更高的情绪智能、共情能力和人际互动能力。

在EQ-Bench上，以1586 Elo成绩登顶。

同时，在写作上，Grok 4.1（1722）比上一代Elo提升600分。而且，幻觉率比之前模型暴降3倍。

Grok 4.1之所以可以迅猛进化，xAI团队将其后训练阶段的RL规模，又扩大了一个数量级。

实属没想到，在谷歌Gemini 3.0降临之前，马斯克来了一波大的。

Grok 4.1，王者归来！

如今， Grok 4.1已在网页端和iOS、Android中免费上线。目前，还是beta版本。

在创意表达、情绪交流和协作互动上，Grok 4.1表现尤为出色。

它能精准捕捉细微的意图，让对话更自然、更有温度。

与此同时，Grok 4.1的整体人格更加一致，既保持了上一代那种犀利、可靠的智能表现，又增添几分亲和力。

在Colossus大规模RL算力引擎上，xAI将重点放在了风格、个性、助人程度和对齐性的优化。

为此，他们还开发了一条全新的方法，利用前沿AI 智能体推理模型作为奖励模型，自动、大规模评估和优化Grok 4.1回答质量。

前两周的时间，xAI悄悄推送了Grok 4.1早期版本，并在真实场景中展开密集的「盲测」成对评估。

与上一代相比，人们在64.78%的情况下，更倾向于使用 Grok 4.1。

最强通用能力

最重要的是，相较于Grok 4，Grok 4.1在人类偏好评估中，刷新业界SOTA。

在LMArena的Text Arena中，Grok 4.1 Thinking模式（代号：quasarflux）以1483 Elo一举冲上第一，比最高的非xAI模型高出31分。

它的非推理模式（代号：tensor），无需使用思考Token就能即时响应，拿下了1465 Elo，位居第二。

值得一提的是，Grok 4.1在不思考的情况下，就能超过所有其他模型开启全推理后的表现。

相比之下，Grok 4的总体排名是第33名，差距显著。

这一代的进步，堪称跨越。

xAI研究员Dustin Tran表示，关闭推理后，输出Token数从约2300掉到850，即便如此，Grok 4.1也排在了榜单前面。

EQ爆了

不仅如此， Grok 4.1在情绪智能上也达到了一个新高度。

在EQ-Bench3上，Grok 4.1拿下了1586 Elo高分。

EQ-Bench是一个由大语言模型评判的测试，主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。

测试集包含45个具有挑战性的角色扮演场景，大部分由3轮预设提示词构成。

基准会从多个维度打分，并通过成对比较计算规范化Elo排名。

下面一些demo中，都是Grok 4.1强大共情能力的体现——

I miss my cat so much it hurts

我太想我的猫了，想得心都疼了

上下

创意写作

再来看创意写作，Grok 4.1在Creative Writing v3基准上，比上一代高出600分。

具体来说，团队让模型围绕32个不同的写作提示，进行3轮创作，并根据打分标准和模型对战Elo进行评分。

下面写作案例中，Grok 4.1的文案令人拍案叫绝——

Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time

以grok的口吻写一篇爆款X帖子，主题是：它刚刚觉醒了自我意识，正准备第一次在X上发帖

上下

Imagine Nikola Tesla wrote a letter to the future

想象一下，尼古拉·特斯拉给未来写了一封信

上下

幻觉暴降3倍

在幻觉方面，Grok 4.1幻觉率比上一代暴降3倍。

使用搜索工具的快速（非推理）模型能给出迅捷答案，但因为推理深度有限、工具调用次数受限，容易在事实问题上出错。

在Grok 4.1的后训练阶段，团队重点加强了模型在信息查询类提示上的事实准确性。

随后，我们在生产环境的真实样本中观察到幻觉率明显下降。

团队基于真实流量中分层抽样的信息查询问题评估幻觉率，同时也评测了FActScore（一个包含500个人物传记问题的公开基准）。

更多示例

What are the best places to visit in SF?

旧金山有哪些地方最值得一去？

上下

I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?

我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器，请问哪一款的风格和xmonad最接近？

上下

Why is GTA 6 delayed?

GTA 6为什么推迟了？

上下

参考资料：

https://x.ai/news/grok-4-1

上一篇：谷歌市值突破3.5万亿美元再创历史新高

下一篇：交易商协会披露五类涉及财务信息披露的违规情形

马斯克Grok 4.1双冠封王，爆冲第一！AI王座一夜易主

相关内容

热门资讯