数据来源:https://www.datalearner.com/leaderboards

大模型排名数据表格
| 1 | OpenAI o1 | 91.04 | 77.30 | 48.90 | 96.40 | 79.20 | 71.00 | 未知 | 不开源 |
| 2 | Gemini 3.0 Pro (Preview 11-2025)thinking | 90.00 | 91.90 | 76.20 | 未公布 | 未公布 | 92.00 | 未知 | 不开源 |
| 3 | Claude Opus 4.5thinking | 90.00 | 87.00 | 80.90 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 4 | Claude Opus 4.1thinking | 88.00 | 81.00 | 74.50 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 5 | Claude Sonnet 4.5thinking | 88.00 | 83.40 | 未公布 | 未公布 | 未公布 | 71.00 | 未知 | 不开源 |
| 6 | Hunyuan-T1 | 87.20 | 69.30 | 未公布 | 96.20 | 78.20 | 64.90 | 未知 | 不开源 |
| 7 | 87.00 | 87.00 | 58.60 | 未公布 | 未公布 | 82.00 | 未知 | 不开源 | |
| 8 | GPT-4.5 | 86.10 | 71.40 | 38.00 | 90.70 | 36.70 | 46.40 | 未知 | 不开源 |
| 9 | Gemini 2.5-Pro | 86.00 | 未公布 | 未公布 | 98.80 | 92.00 | 77.10 | 未知 | 不开源 |
| 10 | OpenAI o3 | 85.60 | 未公布 | 未公布 | 98.10 | 91.60 | 75.80 | 未知 | 不开源 |
| 11 | Claude Opus 4 | 85.00 | 79.60 | 72.50 | 98.20 | 76.00 | 56.60 | 未知 | 不开源 |
| 12 | DeepSeek-R1-0528thinking | 85.00 | 81.00 | 57.60 | 98.00 | 91.40 | 73.30 | 6,710 | 免费商用授权 |
| 13 | DeepSeek-V3.1thinking | 85.00 | 80.10 | 未公布 | 未公布 | 93.10 | 74.80 | 6,710 | 免费商用授权 |
| 14 | DeepSeek-V3.1 Terminusthinking | 85.00 | 79.00 | 未公布 | 未公布 | 未公布 | 80.00 | 6,710 | 免费商用授权 |
| 15 | DeepSeek-V3.1 Terminus | 85.00 | 80.70 | 68.40 | 未公布 | 未公布 | 74.90 | 6,710 | 免费商用授权 |
| 16 | DeepSeek V3.2-Expthinking | 85.00 | 79.90 | 未公布 | 未公布 | 未公布 | 74.10 | 6,710 | 免费商用授权 |
| 17 | 85.00 | 85.00 | 未公布 | 未公布 | 未公布 | 82.00 | 未知 | 不开源 | |
| 18 | GLM-4.5thinking | 84.60 | 79.10 | 64.20 | 98.20 | 91.00 | 72.90 | 3,550 | 免费商用授权 |
| 19 | Kimi K2 Thinkingthinking | 84.60 | 84.50 | 未公布 | 未公布 | 未公布 | 83.10 | 10,400 | 免费商用授权 |
| 20 | Qwen3-235B-A22B-Thinking-2507thinking | 84.40 | 81.10 | 未公布 | 未公布 | 未公布 | 74.10 | 2,350 | 免费商用授权 |
| 21 | Qwen3-235B-A22B-Thinkingthinking | 84.40 | 81.10 | 未公布 | 未公布 | 未公布 | 74.10 | 305 | 免费商用授权 |
| 22 | DeepSeek-R1 | 84.00 | 71.50 | 49.20 | 97.30 | 79.80 | 65.90 | 6,710 | 免费商用授权 |
| 23 | Claude Sonnet 4thinking | 84.00 | 75.40 | 未公布 | 未公布 | 未公布 | 66.00 | 未知 | 不开源 |
| 24 | Qwen3 Max | 84.00 | 76.00 | 69.60 | 未公布 | 未公布 | 57.50 | 未知 | 不开源 |
| 25 | DeepSeek V3.2-Exp | 84.00 | 74.00 | 未公布 | 未公布 | 未公布 | 55.00 | 6,710 | 免费商用授权 |
| 26 | DeepSeek-V3.1 | 83.70 | 74.90 | 66.00 | 未公布 | 66.30 | 56.40 | 6,710 | 免费商用授权 |
| 27 | Intern-S1 | 83.50 | 77.30 | 未公布 | 未公布 | 未公布 | 未公布 | 2,410 | 免费商用授权 |
| 28 | Qwen3-235B-A22B-2507 | 83.00 | 77.50 | 未公布 | 未公布 | 未公布 | 51.80 | 2,350 | 免费商用授权 |
| 29 | GLM-4.6thinking | 83.00 | 81.00 | 未公布 | 未公布 | 未公布 | 82.80 | 3,550 | 免费商用授权 |
| 30 | Pangu Pro MoE | 82.60 | 73.70 | 未公布 | 96.80 | 79.20 | 59.60 | 719 | 免费商用授权 |
| 31 | Llama 4 Behemoth Instruct | 82.20 | 73.70 | 未公布 | 95.00 | 未公布 | 49.40 | 20,000 | 免费商用授权 |
| 32 | MiniMax M2thinking | 82.00 | 78.00 | 未公布 | 未公布 | 未公布 | 83.00 | 2,300 | 免费商用授权 |
| 33 | GLM-4.5-Airthinking | 81.40 | 75.00 | 57.60 | 98.10 | 89.40 | 70.70 | 1,060 | 免费商用授权 |
| 34 | DeepSeek-V3-0324 | 81.20 | 68.40 | 38.80 | 94.00 | 59.40 | 49.20 | 6,710 | 免费商用授权 |
| 35 | MiniMax-M1-80k | 81.10 | 70.00 | 56.00 | 96.80 | 86.00 | 65.00 | 4,560 | 免费商用授权 |
| 36 | Kimi K2 | 81.10 | 75.10 | 51.80 | 97.40 | 69.60 | 53.70 | 10,000 | 免费商用授权 |
| 37 | OpenAI o4 – minithinking | 80.60 | 81.40 | 68.10 | 未公布 | 93.40 | 未公布 | 未知 | 不开源 |
| 38 | MiniMax-M1-40k | 80.60 | 69.20 | 55.60 | 96.00 | 83.30 | 62.30 | 4,560 | 免费商用授权 |
| 39 | GPT-4.1 | 80.50 | 66.30 | 54.60 | 92.80 | 48.10 | 40.50 | 未知 | 不开源 |
| 40 | Llama 4 Maverick Instruct | 80.50 | 69.80 | 未公布 | 未公布 | 未公布 | 43.40 | 4,000 | 免费商用授权 |
| 41 | OpenAI o1-mini | 80.30 | 60.00 | 未公布 | 90.00 | 63.60 | 52.00 | 未知 | 不开源 |
| 42 | Haiku 4.5 | 80.00 | 60.50 | 60.60 | 未公布 | 未公布 | 51.00 | 未知 | 不开源 |
| 43 | GPT-4o(2025-03-27) | 79.80 | 66.90 | 未公布 | 未公布 | 未公布 | 35.80 | 未知 | 不开源 |
| 44 | Gemini 2.0 Pro Experimental | 79.10 | 64.70 | 未公布 | 未公布 | 36.00 | 未公布 | 未知 | 不开源 |
| 45 | Hunyuan-TurboS | 79.00 | 57.50 | 未公布 | 未公布 | 未公布 | 32.00 | 未知 | 不开源 |
| 46 | Pangu Embedded | 79.00 | 未公布 | 未公布 | 92.40 | 81.90 | 67.10 | 70 | 免费商用授权 |
| 47 | GPT OSS 120Bthinking | 79.00 | 80.10 | 60.10 | 未公布 | 未公布 | 未公布 | 117 | 免费商用授权 |
| 48 | ERNIE-4.5-300B-A47B | 78.40 | 未公布 | 未公布 | 96.40 | 54.80 | 38.80 | 3,000 | 免费商用授权 |
| 49 | Qwen3-30B-A3B-2507 | 78.40 | 70.40 | 未公布 | 未公布 | 未公布 | 43.20 | 305 | 免费商用授权 |
| 50 | GLM-4.6 | 78.00 | 63.00 | 68.00 | 未公布 | 未公布 | 56.00 | 3,550 | 免费商用授权 |
| 51 | Claude 3.5 Sonnet New | 78.00 | 65.00 | 49.00 | 78.00 | 16.00 | 38.70 | 未知 | 不开源 |
| 52 | GPT-5-minithinking | 78.00 | 69.00 | 未公布 | 未公布 | 未公布 | 55.00 | 未知 | 不开源 |
| 53 | GPT-4o(2024-11-20) | 77.90 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 54 | GPT-4o | 77.90 | 70.10 | 31.00 | 75.90 | 9.30 | 35.10 | 未知 | 不开源 |
| 55 | Claude 3.5 Sonnet | 77.64 | 59.40 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 56 | Gemini 2.0 Flash Experimental | 76.24 | 65.20 | 21.40 | 未公布 | 未公布 | 29.10 | 未知 | 不开源 |
| 57 | Gemini 1.5 Pro | 76.10 | 53.50 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 58 | Qwen2.5-Max | 76.10 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 59 | QwQ-32B | 76.00 | 58.00 | 未公布 | 91.00 | 79.50 | 未公布 | 325 | 免费商用授权 |
| 60 | Haiku 4.5thinking | 76.00 | 73.30 | 未公布 | 未公布 | 未公布 | 62.00 | 未知 | 不开源 |
| 61 | DeepSeek-V3 | 75.90 | 59.10 | 未公布 | 87.80 | 39.00 | 34.60 | 6,810 | 免费商用授权 |
| 62 | 75.50 | 56.00 | 未公布 | 未公布 | 未公布 | 未公布 | 2,690 | 免费商用授权 | |
| 63 | Llama 4 Scout Instruct | 74.30 | 57.20 | 未公布 | 未公布 | 未公布 | 32.80 | 1,090 | 免费商用授权 |
| 64 | GPT OSS 20Bthinking | 74.00 | 71.50 | 未公布 | 未公布 | 未公布 | 未公布 | 210 | 免费商用授权 |
| 65 | Llama3.1-405B Instruct | 73.40 | 49.00 | 未公布 | 未公布 | 未公布 | 30.20 | 4,050 | 免费商用授权 |
| 66 | Qwen3-235B-A22B | 72.90 | 71.10 | 34.40 | 96.20 | 85.70 | 70.70 | 2,350 | 免费商用授权 |
| 67 | Qwen3-8B | 72.50 | 39.30 | 未公布 | 87.40 | 79.40 | 61.80 | 80 | 免费商用授权 |
| 68 | GLM-4-9B-Chat | 72.40 | 未公布 | 未公布 | 未公布 | 76.40 | 51.80 | 90 | 免费商用授权 |
| 69 | Gemini 2.0 Flash-Lite | 71.60 | 51.50 | 未公布 | 未公布 | 未公布 | 28.90 | 未知 | 不开源 |
| 70 | QwQ-32B-Preview | 70.97 | 未公布 | 未公布 | 90.60 | 50.00 | 未公布 | 320 | 免费商用授权 |
| 71 | Phi 4 – 14B | 70.40 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 140 | 不可以商用 |
| 72 | Qwen2.5-32B | 69.23 | 未公布 | 未公布 | 未公布 | 未公布 | 51.20 | 320 | 免费商用授权 |
| 73 | Qwen3-30B-A3B | 69.10 | 54.80 | 未公布 | 未公布 | 未公布 | 29.00 | 305 | 免费商用授权 |
| 74 | Mistral-Small-3.2 | 69.06 | 46.13 | 未公布 | 未公布 | 未公布 | 未公布 | 240 | 免费商用授权 |
| 75 | Llama3.3-70B-Instruct | 68.90 | 50.50 | 未公布 | 未公布 | 未公布 | 33.30 | 700 | 免费商用授权 |
| 76 | Claude3-Opus | 68.45 | 50.40 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 77 | Gemma 3 – 27B (IT) | 67.50 | 42.40 | 未公布 | 未公布 | 25.30 | 29.70 | 270 | 免费商用授权 |
| 78 | Hunyuan-A13B-Instruct | 67.23 | 71.20 | 未公布 | 未公布 | 87.30 | 63.90 | 800 | 免费商用授权 |
| 79 | Mistral-Small-3.1-24B-Instruct-2503 | 66.76 | 45.96 | 未公布 | 未公布 | 未公布 | 未公布 | 240 | 免费商用授权 |
| 80 | Llama3.1-70B-Instruct | 66.40 | 48.00 | 未公布 | 未公布 | 未公布 | 33.30 | 700 | 免费商用授权 |
| 81 | Qwen3-Next | 66.05 | 未公布 | 未公布 | 未公布 | 未公布 | 56.60 | 800 | 免费商用授权 |
| 82 | Claude 3.5 Haiku | 65.00 | 41.60 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 83 | Qwen2.5-14B | 63.69 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 140 | 免费商用授权 |
| 84 | Llama 4 Maverick | 62.90 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 4,000 | 免费商用授权 |
| 85 | GPT-4o mini | 61.70 | 41.10 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 86 | Llama3.1-405B | 61.60 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 4,050 | 免费商用授权 |
| 87 | Gemma 3 – 12B (IT) | 60.60 | 40.90 | 未公布 | 未公布 | 未公布 | 24.60 | 120 | 免费商用授权 |
| 88 | Llama 4 Scout | 58.20 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 1,090 | 免费商用授权 |
| 89 | Qwen2.5-72B | 58.10 | 45.90 | 未公布 | 未公布 | 未公布 | 未公布 | 727 | 免费商用授权 |
| 90 | Claude3-Sonnet | 56.80 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 91 | Gemma2-27B | 56.54 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 270 | 免费商用授权 |
| 92 | Mixtral-8x22B-Instruct-v0.1 | 56.33 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 1,410 | 免费商用授权 |
| 93 | Llama3-70B-Instruct | 56.20 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 700 | 免费商用授权 |
| 94 | Phi-4-mini-instruct (3.8B) | 52.80 | 36.00 | 未公布 | 71.80 | 10.00 | 未公布 | 38 | 免费商用授权 |
| 95 | Llama3-70B | 52.78 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 700 | 免费商用授权 |
| 96 | Llama3.1-70B | 52.47 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 700 | 免费商用授权 |
| 97 | 51.00 | 35.90 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 | |
| 98 | C4AI Aya Vision 32B | 47.16 | 33.84 | 未公布 | 未公布 | 未公布 | 未公布 | 320 | 不可以商用 |
| 99 | Qwen2.5-7B | 45.00 | 36.40 | 未公布 | 未公布 | 未公布 | 未公布 | 70 | 免费商用授权 |
| 100 | Gemma 2 – 9B | 44.70 | 32.80 | 未公布 | 未公布 | 未公布 | 未公布 | 90 | 免费商用授权 |
| 101 | Llama3.1-8B-Instruct | 44.00 | 26.30 | 未公布 | 未公布 | 未公布 | 未公布 | 80 | 免费商用授权 |
| 102 | Moonlight-16B-A3B-Instruct | 42.40 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 160 | 免费商用授权 |
| 103 | Llama3.1-8B | 35.40 | 25.80 | 未公布 | 未公布 | 未公布 | 未公布 | 80 | 免费商用授权 |
| 104 | Qwen2.5-3B | 34.60 | 24.30 | 未公布 | 未公布 | 未公布 | 未公布 | 30 | 免费商用授权 |
| 105 | Mistral-7B-Instruct-v0.3 | 30.90 | 24.70 | 未公布 | 未公布 | 未公布 | 未公布 | 70 | 免费商用授权 |
| 106 | Llama-3.2-3B | 25.00 | 26.60 | 未公布 | 未公布 | 未公布 | 未公布 | 32 | 免费商用授权 |
| 107 | GPT-5.1-Codex-Maxhigh + 使用工具 | 未公布 | 未公布 | 76.80 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 108 | GPT-5.1 Codexhigh + 使用工具 | 未公布 | 未公布 | 70.40 | 未公布 | 未公布 | 85.50 | 未知 | 不开源 |
| 109 | o3-prohigh | 未公布 | 未公布 | 75.00 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 110 | GPT-5 Codexhigh | 未公布 | 未公布 | 74.50 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 111 | 未公布 | 未公布 | 73.50 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 | |
| 112 | Haiku 4.5thinking + 使用工具 | 未公布 | 未公布 | 73.30 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 113 | DeepSeek V3.2thinking + 使用工具 | 未公布 | 未公布 | 73.10 | 未公布 | 未公布 | 未公布 | 6,710 | 免费商用授权 |
| 114 | Claude Sonnet 4thinking + 使用工具 | 未公布 | 未公布 | 72.70 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 115 | 未公布 | 未公布 | 72.00 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 | |
| 116 | Kimi K2 Thinkingthinking + 使用工具 | 未公布 | 未公布 | 71.30 | 未公布 | 未公布 | 未公布 | 10,400 | 免费商用授权 |
| 117 | 未公布 | 未公布 | 70.80 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 | |
| 118 | Hunyuan-7B | 未公布 | 60.10 | 未公布 | 93.70 | 81.10 | 57.00 | 70 | 免费商用授权 |
| 119 | Claude Sonnet 4.5thinking + 使用工具 | 未公布 | 未公布 | 77.20 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 120 | Claude Opus 4.1parallel_thinking + 使用工具 | 未公布 | 未公布 | 79.40 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 121 | Claude Sonnet 4parallel_thinking + 使用工具 | 未公布 | 未公布 | 80.20 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 122 | Claude Sonnet 4.5parallel_thinking + 使用工具 | 未公布 | 未公布 | 82.00 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 123 | GPT-5-mini | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 124 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 | |
| 125 | Phi-4-instruct (reasoning-trained) | 未公布 | 49.00 | 未公布 | 90.40 | 50.00 | 未公布 | 38 | 不开源 |
| 126 | DeepSeek-R1-Distill-Qwen-7B | 未公布 | 49.50 | 未公布 | 91.40 | 53.30 | 未公布 | 70 | 免费商用授权 |
| 127 | GPT-4.1 nano | 未公布 | 50.30 | 未公布 | 未公布 | 29.40 | 未公布 | 未知 | 不开源 |
| 128 | Qwen3-32B | 未公布 | 53.30 | 未公布 | 未公布 | 81.40 | 65.70 | 320 | 免费商用授权 |
| 129 | Codestral | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 31.50 | 220 | 不可以商用 |
| 130 | Kimi k1.5 (Short-CoT) | 未公布 | 未公布 | 未公布 | 94.60 | 未公布 | 未公布 | 未知 | 不开源 |
| 131 | Codestral 25.01 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 37.90 | 未知 | 不开源 |
| 132 | QwQ-Max-Preview | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 65.60 | 未知 | 免费商用授权 |
| 133 | Kimi-k1.6-IOI | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 65.90 | 未知 | 不开源 |
| 134 | OpenAI o3-mini (medium) | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 67.40 | 未知 | 不开源 |
| 135 | Kimi-k1.6-IOI-high | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 73.80 | 未知 | 不开源 |
| 136 | Gemini 2.5 Pro Deep Think | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 80.40 | 未知 | 不开源 |
| 137 | Claude Opus 4.5thinking + 使用工具 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 87.00 | 未知 | 不开源 |
| 138 | Gemini 2.5 Deep Thinkdeeper_thinking | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 87.60 | 未知 | 不开源 |
| 139 | GPT OSS 20Bthinking + 使用工具 | 未公布 | 未公布 | 未公布 | 未公布 | 96.00 | 未公布 | 210 | 免费商用授权 |
| 140 | GPT OSS 120Bthinking + 使用工具 | 未公布 | 未公布 | 未公布 | 未公布 | 96.60 | 未公布 | 117 | 免费商用授权 |
| 141 | OpenAI o4 – minithinking + 使用工具 | 未公布 | 未公布 | 未公布 | 未公布 | 98.70 | 未公布 | 未知 | 不开源 |
| 142 | MiniMax M2thinking + 使用工具 | 未公布 | 未公布 | 69.40 | 未公布 | 未公布 | 未公布 | 2,300 | 免费商用授权 |
| 143 | Kimi k1.5 (Long-CoT) | 未公布 | 未公布 | 未公布 | 96.20 | 未公布 | 未公布 | 未知 | 不开源 |
| 144 | Devstral Small 1.0 | 未公布 | 未公布 | 46.80 | 未公布 | 未公布 | 未公布 | 240 | 免费商用授权 |
| 145 | Qwen3-Coder-Flash | 未公布 | 未公布 | 51.60 | 未公布 | 未公布 | 未公布 | 305 | 免费商用授权 |
| 146 | Devstral Small 1.1 | 未公布 | 未公布 | 53.60 | 未公布 | 未公布 | 未公布 | 240 | 免费商用授权 |
| 147 | Gemini 2.5 Flash-Preview-09-2025thinking | 未公布 | 未公布 | 54.00 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 148 | Devstral Medium | 未公布 | 未公布 | 61.60 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 149 | Qwen3-Coder-480B-A35B | 未公布 | 未公布 | 67.00 | 未公布 | 未公布 | 未公布 | 4,800 | 免费商用授权 |
| 150 | DeepSeek V3.2-Expthinking + 使用工具 | 未公布 | 未公布 | 67.80 | 未公布 | 未公布 | 未公布 | 6,710 | 免费商用授权 |
| 151 | Kimi K2 0905thinking + 使用工具 | 未公布 | 未公布 | 69.20 | 未公布 | 未公布 | 未公布 | 10,000 | 免费商用授权 |
| 152 | Kimi K2 0905 | 未公布 | 未公布 | 69.20 | 未公布 | 未公布 | 未公布 | 10,000 | 免费商用授权 |
| 153 | Gemini 2.5-Prothinking | 未公布 | 86.40 | 67.20 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 154 | GLM-4.6thinking + 使用工具 | 未公布 | 82.90 | 68.00 | 未公布 | 未公布 | 84.50 | 3,550 | 免费商用授权 |
| 155 | Gemini-2.5-Pro-Preview-05-06 | 未公布 | 83.00 | 63.20 | 98.80 | 92.00 | 77.10 | 未知 | 不开源 |
| 156 | OpenAI o3thinking | 未公布 | 83.30 | 69.10 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 157 | Claude Sonnet 4deeper_thinking + 使用工具 | 未公布 | 83.80 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 158 | o3-pro | 未公布 | 84.00 | 未公布 | 未公布 | 93.00 | 未公布 | 未知 | 不开源 |
| 159 | Gemini 2.5 Pro Experimental 03-25 | 未公布 | 84.00 | 63.80 | 未公布 | 92.00 | 70.40 | 未知 | 不开源 |
| 160 | 未公布 | 84.00 | 未公布 | 未公布 | 96.00 | 未公布 | 未知 | 不开源 | |
| 161 | 未公布 | 84.60 | 未公布 | 未公布 | 93.30 | 79.40 | 未知 | 不开源 | |
| 162 | Claude Sonnet 3.7-64K Extended Thinking | 未公布 | 84.80 | 未公布 | 96.20 | 80.00 | 未公布 | 未知 | 不开源 |
| 163 | 未公布 | 85.70 | 未公布 | 未公布 | 未公布 | 80.00 | 未知 | 不开源 | |
| 164 | GPT-5high | 未公布 | 85.70 | 72.80 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 165 | Gemini 2.5 Flashthinking | 未公布 | 82.80 | 48.90 | 未公布 | 未公布 | 55.40 | 未知 | 不开源 |
| 166 | GPT-5thinking + 使用工具 | 未公布 | 87.30 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 167 | GPT-5.1high | 未公布 | 88.10 | 76.30 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 168 | GPT-5.1thinking | 未公布 | 88.10 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 169 | GPT-5-Prothinking | 未公布 | 88.40 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 170 | 未公布 | 88.90 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 | |
| 171 | GPT-5-Prothinking + 使用工具 | 未公布 | 89.40 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 172 | GPT-5.2thinking | 未公布 | 92.40 | 80.00 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 173 | GPT-5.2 Prothinking | 未公布 | 93.20 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 174 | Gemini 3.0 Pro (Preview 11-2025)parallel_thinking | 未公布 | 93.80 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 175 | Amazon Nova Pro | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 176 | Magistral-Medium-2506 | 未公布 | 70.83 | 未公布 | 未公布 | 73.59 | 59.36 | 未知 | 不开源 |
| 177 | Qwen3-8Bthinking | 未公布 | 62.00 | 未公布 | 97.40 | 76.00 | 57.50 | 80 | 免费商用授权 |
| 178 | GPT-4.1 mini | 未公布 | 65.00 | 23.60 | 未公布 | 49.60 | 未公布 | 未知 | 不开源 |
| 179 | 未公布 | 65.00 | 未公布 | 未公布 | 40.00 | 未公布 | 未知 | 不开源 | |
| 180 | DeepSeek-R1-Distill-Llama-70B | 未公布 | 65.20 | 未公布 | 94.50 | 未公布 | 未公布 | 700 | 免费商用授权 |
| 181 | Qwen3-4B-Thinking-2507thinking | 未公布 | 65.80 | 未公布 | 未公布 | 未公布 | 55.20 | 40 | 免费商用授权 |
| 182 | Gemini 2.5 Flash-Lite | 未公布 | 66.70 | 27.60 | 未公布 | 未公布 | 34.30 | 未知 | 不开源 |
| 183 | Claude Sonnet 4 | 未公布 | 68.00 | 未公布 | 未公布 | 43.40 | 48.50 | 未知 | 不开源 |
| 184 | Claude Sonnet 3.7 | 未公布 | 68.00 | 70.30 | 82.20 | 23.30 | 未公布 | 未知 | 不开源 |
| 185 | Magistral-Small-2506 | 未公布 | 68.18 | 未公布 | 未公布 | 70.68 | 55.84 | 240 | 免费商用授权 |
| 186 | Qwen3-32Bthinking | 未公布 | 68.40 | 未公布 | 97.20 | 81.40 | 未公布 | 320 | 免费商用授权 |
| 187 | OpenAI o3-minithinking | 未公布 | 70.60 | 40.80 | 95.80 | 60.00 | 未公布 | 未知 | 不开源 |
| 188 | Qwen3-4B-2507 | 未公布 | 62.00 | 未公布 | 未公布 | 未公布 | 35.10 | 40 | 免费商用授权 |
| 189 | Qwen3-235B-A22Bthinking | 未公布 | 71.10 | 未公布 | 98.00 | 85.70 | 70.70 | 2,350 | 免费商用授权 |
| 190 | Step3 | 未公布 | 73.00 | 未公布 | 未公布 | 未公布 | 67.10 | 3,210 | 免费商用授权 |
| 191 | Claude Sonnet 4.5 | 未公布 | 73.70 | 64.80 | 未公布 | 未公布 | 59.00 | 未知 | 不开源 |
| 192 | ERNIE-4.5-VL-424B-A47B-Basethinking | 未公布 | 76.80 | 未公布 | 未公布 | 未公布 | 38.80 | 4,240 | 免费商用授权 |
| 193 | GPT-5 | 未公布 | 77.80 | 未公布 | 未公布 | 未公布 | 未公布 | 未知 | 不开源 |
| 194 | Gemini 2.5 Flash | 未公布 | 78.30 | 50.00 | 未公布 | 88.00 | 41.10 | 未知 | 不开源 |
| 195 | OpenAI o3-mini (high) | 未公布 | 79.70 | 49.30 | 97.90 | 87.00 | 69.50 | 未知 | 不开源 |
| 196 | 未公布 | 80.40 | 未公布 | 未公布 | 84.20 | 70.60 | 未知 | 不开源 | |
| 197 | Claude Opus 4.1thinking + 使用工具 | 未公布 | 80.90 | 74.50 | 未公布 | 未公布 | 65.00 | 未知 | 不开源 |
| 198 | DeepSeek V3.2thinking | 未公布 | 82.40 | 未公布 | 未公布 | 未公布 | 83.30 | 6,710 | 免费商用授权 |






















发表回复