文 |硅基研讨室 kiki 文 |硅基研讨室 kiki「一个寻求极致真谛的AI。」北京时光2月18日半夜,马斯克跟xAI宣布了其最新旗舰模子Grok-3系列跟最新谈天呆板人Grok,凭仗着马斯克的强盛光环,只管xAI作为这场AI比赛中的后发者,但其一举一动都备受存眷。在不到一个小时、百万人围不雅的宣布会中,xAI展示了Grok-3令人印象深入的模子才能——从马斯克的最强数据集群到直接的评测数据对照,仿佛在回应他此前对Grok-3的评估——「地表最强AI」。马斯克跟xAI宣布最新旗舰模子 图源:xAI但据前OpenAI结合开创人Anderj Karpathy的评估,「Grok-3+Thinking」感到与OpenAl最强模子o1-pro相差无多少,但获得等同才能须要加上一个条件:Grok-2跟Grok-3之间,才从前了六个月罢了。“到达开始进范畴的时光表是史无前例的”。Anderj Karpathy说。Grok-3的宣布合乎马斯克的竞争不雅——他老是习气用最快的时光表、推进团队实现翻新,这也是他善于报告的故事——用宏大的算力(20万张GPU,Grok-3应用了超越DeepSeek-V3百倍的算力)、范围小的团队(xAI最初建立只有12人),做不下牌桌的人。一、「地表最强AI」Grok 3表示怎样?直播中xAI团队将Grok-2描述为「玩具」,这固然是为了凸起Grok-3的强盛。xAI宣布的Grok-3是一个模子系列,包含了推理模子跟mini模子。在模子才能上,Grok-3在推理、数学、代码、数学等多方面,都获得了新的冲破,Grok-3的推理模子Grok-3 Reasoning跟Grok-3 mini Reasoning在 AIME上获得了96分,在GPQA上获得了85分,跑赢了o3 mini、DeepSeek-R1等。 开展全文 Grok-3在数学、迷信跟代码范畴的表示 图源:xAI 在AIME 2025最新的数学基准测试中,Grok-3 Reasoning超出了o3-mini的最佳版本o3-mini high。 Grok-3在AIME 2025最新的数学基准测试的表示 图源:xAI 在年夜模子竞技场LMSYS上,Grok-3晚期版本(巧克力)在总榜上位列排名第一,也是首个评分冲破1400分的模子,尤其在「编码」种别中,Grok-3超出了o1跟Gemini-thinking等顶级推理模子。 Grok-3位列LMSYS第一 图源:lmarena.ai xAI现场演示了Grok-3的推理跟创意编程才能,比方让Grok-3天生一段从地球发射、着陆火星再到前往地球的3D动画代码,另有波及推理才能的进级版俄罗斯方块小游戏。 用Grok天生代码 图源:xAI 这些模子中心才能进级也被马斯克融进了新的Grok利用中,以Agent情势集成了DeepSearch、Think跟Big Brain三种形式,针对用户搜寻场景,供给编程、数学等高阶才能。DeepSearch能够联网跟扫描X来剖析信息、供给查问跟择要,Big Brain则能够停止更多、更细心的散布推理编程。 Grok具有 DeepSearch、Think跟Big Brain三种形式 图源:xAI 除此以外,马斯克还流露后续语音交互、多模态交互等新功效将上线,xAI还将建立一个AI游戏社区,马斯克现在曾流露将开设AI游戏任务室。 Grok-3不会立刻向全部用户开放,针对X的Premium+订阅用户就起首获解锁,在Grok自力的APP端也会推出会员效劳「SuperGrok」——价钱为每月30美元或每年300美元。 会员效劳「SuperGrok」图源:xAI 明天早些时间取得Grok-3的晚期应用权的前OpenAI结合开创人Anderj Karpathy表现Grok-3是领有开始进的思考模子之一,机能与o1-pro相称,“咱们须要现实的、实在的评价来察看。”他举了一个例子,他经由过程Grok-3 Think形式上传了GPT-2论文,在问了一堆简略的查找成绩,请求其估量练习GPT-2所需的练习flops数目,这磨练模子将查找、数学跟常识相联合,依据他的测试成果,GPT-4o未能实现这项义务,o1 pro也掉败了,但Grok-3 with Thinking 很好地处理了这个成绩。 Anderj Karpathy的评估 图源:@Anderj Karpathy 从前,Grok还给人留下的印象是,更风趣的,有意思的AI,直播中xAI也夸大了这一点,但据Anderj Karpathy测试,模子的风趣感仿佛不显明改良,对「庞杂的伦理成绩」也过于敏感。 客不雅来看,作为后发者,xAI用不到一年时光推出Grok-3,再度印证了马斯克「鼎力出奇观」的上风,但评价模子现实才能跟落地仍旧要看后续的产物功效情形。 二、马斯克的AI筹码 在寰球年夜模子的竞逐中,马斯克寄盼望于xAI走一条典范的「后发先至」道路。 在宣布Grok-3前,xAI在从前两年之间内对Grok系列的旗舰模子停止了三次年夜迭代,在模子才能上,Grok系列在推理、浏览懂得、数学、迷信、写代码等方面都浮现出不错的表示。而在模子轻量化、多模态偏向上,xAI也曾宣布首个多模态模子Grok-1.5V跟Grok-2mini,一直丰盛其模子家属。 在产物交互情势跟贸易形式上,马斯克也始终针对Grok停止优化,在产物交互情势上,一方面更新界面、功效跟产物组件。如将X的及时洞察跟收集搜寻联合,推出新的引文功效,晋升答复的正确性。往年1月,差别于内嵌于X外部,xAI还发布上线自力的iOS利用顺序,并缭绕体育、金融等场景推出新内容组件,晋升用户内容休会。 而在贸易形式上,经由过程收费跟开放API,下降模子应用门槛,客岁岁尾,xAI发布 Grok-2模子对X平台用户收费开放(固然也有应用限度),同步推出了企业API公然测试版。「硅基研讨室」查问发明,现在xAI供给Grok-2-1212跟Grok-2-vision-1212两种模子挪用,以Grok-2-1212为例,其API订价为2.00美元/百万输入、10美元/百万输出,同时xAI还推出了数据共享打算,为参加团队供给每月取得150美元的收费API积分。 xAI API订价 图源:xAI 直播中,xAI称Grok-3模子将与DeepSearch功效一同呈现在xAI的企业API 中,对人们存眷的开源成绩上,当Grok-3成熟稳固时,可能在多少个月内会开源Grok -2。 在年夜模子竞争、估值水涨船高的明天,深信Grok跟马斯克能解围的人,信任的是Grok本身的奇特上风,即数据、卡、钱跟「反OpenAI故事」。 起首,是数据。Grok与X高度绑定,是一个闭环的内容生态,高品质的数据跟稳固的场景,这自身就是后天上风。马斯克屡次夸大,Grok经由过程分解数据,绕过了困扰其余AI模子的数据隐衷跟常识产权相干的执法挑衅,同时确保用户的数据隐衷保险。 其次,是卡,即算力。特斯拉跟xAI贮备了大批的英伟达H100系列芯片,马斯克此前曾质疑机构给将「Meta列为囤积寰球最多的H100 GPU」的排行榜,指出「假如盘算准确,特斯拉应当是第二名,xAI将是第三名」,他还用122天将一个家电厂房改革为聚集10万张H100芯片的超等算力集群,就连英伟达开创人黄仁勋也不由得感慨:“在如斯短的时光里内实现,这几乎是超人的成绩”。 直播演示中,马斯克在Grok-3宣布前,也率先展现他的最强数据集群,团队表现,他们在往年2月碰到良多成绩,如冷却跟能耗等,也挥霍了良多算力,但终极仍是以Grok-2的10倍算力资本,用六个月时光推出了Grok-3。 马斯克的数据集群 图源:xAI xAI也仿佛不缺钱,据彭博社报道,xAI正以750亿美元的估值筹集100亿美元,红杉资源、Andreessen Horowitz跟Valor Equity Partners等现有投资者,均参加了此次会谈。 再者,另有「人」,xAI的团队中心成员曾在Google DeepMind、特斯拉、OpenAI跟微软等公司任务。 呈现在直播中的两位华工资Jimmy Ba跟Yuhuai Wu 图源:xAI 最后,马斯克「反OpenAI」的故事也失掉了不少人的拥趸。始终以来,马斯克的人工智能不雅就是反OpenAI而行,他频仍以政治中破、保险来夸大xAI的差别。 三、Grok 野心能成吗? 不外,马斯克狼子野心的打算背地,Grok也面对「内忧外祸」。 起首,就Grok本身而言,一方面,就B端,企业API挪用上,Grok现在还不齐备的效劳企业的才能,而咱们看到在效劳企业上,用编码等才能吸引企业级客户,OpenAI跟Anthropic均有更快的停顿。据The information此前报道,Anthropic从应用其模子停止软件开辟跟代码天生的客户那边取得的年化收入增加了10倍。另一方面在C端,现在Grok跟X的集成度还不敷多,特殊是尚未上线的语音、视频等功效。 有业内子士发生的迷惑是,在OpenAI已集成了语音、视频等功效下,包含豆包在内的中国公司也做得不错,Grok还能在这方面跟X结合作出哪些新的创意?“假如只是一个TTS(文本转语音技巧),那不会有转变”。(固然直播中,xAI说不会是TTS)。 其次,在外部,在DeepSeek等中国模子公司的打击下,更剧烈的竞争曾经开启,OpenAI已宣布GPT-4.5跟GPT-5道路图,Anthropic也发布将推出Claude 4 系列。 某种水平上,在AI上的摸索跟实验反应出的是马斯克从一而终的「竞争不雅」——用令人惊奇的时光表,推着团队掉臂所有的行进,从而迫近本人的预期目的,这在特斯拉、SpaceX身上都有过验证。 在交际媒体上,人们年夜多对马斯克的实验表现高兴,这也产生在DeepSeek所掀起的海潮中——一位人工智能创业者如许写:“新的LLM竞赛曾经火爆起来了,一周后谁会赢?”前往搜狐,检查更多