Grok4作为马斯克旗下xAI公司最新发布的旗舰AI模型,其核心看点和评测要点可总结如下:
一、Grok4的核心看点
-
学术推理能力全面超越人类博士水平
在「人类终极考试」(HLE)中,Grok4基础版正确率达25.4%,启用工具后飙升至44.4%,远超Gemini 2.5 Pro(21.6%)和OpenAI o3(20.3%)。该测试涵盖数学、生物、物理等2500道专家级题目,Grok4 Heavy版本甚至在AIME25(美国数学竞赛邀请赛)中取得满分。此外,其在GPQA(研究生级问题测试)中得分88-89,在ARC-AGI-2(抽象推理挑战赛)中以15.9%的正确率刷新商用模型纪录。 -
多智能体协作与复杂任务处理
Grok4 Heavy版本支持四个代理并行工作,通过协同推理提升复杂任务完成效率。例如,在HLE测试中,多智能体协作使正确率从25.4%提升至44.4%。实际应用中,Grok4可模拟自