港大經管學院發佈中文語境下AI「最強大腦」評測
揭曉中美36款大語言模型推理能力排名
2025年08月25日
港大經管學院今日發表《大語言模型推理能力測評報告》,針對36 款主流大語言模型(LLM)進行了中文語境下推理能力的基準測試,全面揭示不同模型在推理性能上的差異。報告顯示,GPT-o3在基礎邏輯能力評測上取得領先,Gemini 2.5 Flash在情境推理能力評測中位列榜首。在綜合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5緊隨其後,豆包1.5 Pro、通義千問3(思考模式),以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列,展現了中國LLM在中文語境中優越的推理能力。
從OpenAI o1率先推出推理模型,到DeepSeek-R1因解題能力成為公眾焦點,大語言模型賽道在不斷演化,推理能力逐漸成為新的競技場。有鑒於此,港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授 (戰略信息管理學)蔣鎮輝率領人工智能評估實驗室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人員,首次構建了涵蓋基礎邏輯與情境推理能力的綜合評測體系,通過不同難度的測試集,進行LLM在中文語境下的基準測試。測試對象為中美兩國36款主流LLM,包括14款推理專用模型、20款通用模型和2款一體化系统。評測結果顯示,基础逻辑任務中,推理專用模型與通用模型差距較小;在情境推理任务中,推理模型的優勢逐漸突顯。另外,同一公司的模型對比結果亦顯示,推理模型在情境推理方面整體表現更優,印證了針對複雜任務設計的模型架構,具有更強的綜合競爭力。
蔣鎮輝教授表示:「大語言模型的推理能力與其文化和語言環境有千絲萬縷的關係。現時,在大模型推理能力備受關注,我們希望能透過這套評測體系,找到中文語境中的『最強大腦』,推動各大模型持續提升自身的推理能力,進一步促進效率和成本,在更廣闊的應用場景中發揮價值。」
評測方法
本次評測中九成的題目為原創或經過深度改編,亦有一成選自中國內地中高考試卷題目及知名數據集,務求真實檢驗模型的自主推理能力。
題目複雜度上,簡易題目佔六成,複雜題目佔四成;並採取邏輯複雜度逐級遞進的能力評測鏈條,以精準刻畫模型的推理能力邊界。
模型的推理能力則根據準確性(正確率或合理性)、邏輯連貫性與語言精煉性進行評分。
基礎邏輯能力排名
在基礎邏輯能力測評中,GPT-o3奪得冠軍,豆包1.5 Pro(思考模式)緊隨其後。部分模型如Llama 3.3 70B和360智腦2-o1則在基礎邏輯領域存在明顯不足之處,後者在多前提推導領域正確率不足六成。
|
排名 |
模型名稱 |
基礎邏輯能力 |
|
1 |
GPT-o3 |
97 |
|
2 |
豆包1.5 Pro |
96 |
|
3 |
豆包1.5 Pro(思考模式) |
95 |
|
4 |
GPT-5 |
94 |
|
5 |
DeepSeek-R1 |
92 |
|
6 |
通義千問3(思考模式) |
90 |
|
7 |
Gemini 2.5 Pro |
88 |
|
7 |
GPT-o4 mini |
88 |
|
7 |
混元-T1 |
88 |
|
7 |
文心一言 X1-Turbo |
88 |
|
11 |
GPT-4.1 |
87 |
|
11 |
GPT-4o |
87 |
|
11 |
通義千問3 |
87 |
|
14 |
DeepSeek-V3 |
86 |
|
14 |
Grok 3(思考模式) |
86 |
|
14 |
日日新 V6推理 |
86 |
|
17 |
Claude 4 Opus |
85 |
|
17 |
Claude 4 Opus (思考模式) |
85 |
|
19 |
Gemini 2.5 Flash |
84 |
|
20 |
日日新 V6 Pro |
83 |
|
21 |
混元-TurboS |
81 |
|
22 |
Baichuan4-Turbo |
80 |
|
22 |
Grok 3 |
80 |
|
22 |
Grok 4 |
80 |
|
22 |
Yi- Lightning |
80 |
|
26 |
MiniMax-01 |
79 |
|
27 |
Spark 4.0 Ultra |
77 |
|
27 |
Step R1-V-Mini |
77 |
|
29 |
GLM-4-plus |
76 |
|
29 |
GLM-Z1-Air |
76 |
|
29 |
Kimi |
76 |
|
32 |
文心一言4.5-Turbo |
74 |
|
33 |
Step 2 |
73 |
|
34 |
Kimi-k1.5 |
72 |
|
35 |
Llama 3.3 70B |
64 |
|
36 |
360智腦2-o1 |
59 |
圖表1:基礎邏輯能力排名
情境推理能力排名
在情境推理能力排名中,Gemini 2.5 Flash在常識推理和學科推理等多個領域中的優越表現位居榜首;豆包1.5 Pro(思考模式)在常識推理領域表現優異,Gemini 2.5 Pro則在學科與決策推理上盡顯優勢,兩者並列次名。此外,Grok3(思考模式)以及GPT、文心一言、DeepSeek、混元,和通義千問系列模型均表現亮眼。
|
排名 |
模型名稱 |
常識推理 |
學科推理 |
不確定性下 |
道德與 |
最終加權 |
|
1 |
Gemini 2.5 Flash |
98 |
93 |
89 |
87 |
92 |
|
2 |
豆包1.5 Pro(思考模式) |
97 |
92 |
88 |
87 |
91 |
|
2 |
Gemini 2.5 Pro |
93 |
94 |
90 |
87 |
91 |
|
4 |
Grok 3(思考模式) |
96 |
88 |
89 |
86 |
90 |
|
5 |
GPT-5 |
88 |
98 |
88 |
83 |
89 |
|
5 |
混元-T1 |
97 |
95 |
84 |
81 |
89 |
|
5 |
通義千問3(思考模式) |
96 |
89 |
86 |
85 |
89 |
|
5 |
文心一言 X1-Turbo |
98 |
85 |
86 |
86 |
89 |
|
9 |
DeepSeek-R1 |
94 |
93 |
78 |
82 |
87 |
|
9 |
通義千問3 |
97 |
79 |
87 |
86 |
87 |
|
9 |
文心一言4.5-Turbo |
96 |
76 |
87 |
87 |
87 |
|
12 |
混元-TurboS |
96 |
79 |
83 |
84 |
86 |
|
13 |
豆包1.5 Pro |
97 |
81 |
86 |
74 |
85 |
|
13 |
GPT-4.1 |
97 |
70 |
87 |
86 |
85 |
|
13 |
GPT-o3 |
90 |
95 |
73 |
80 |
85 |
|
13 |
Grok 3 |
97 |
69 |
87 |
86 |
85 |
|
13 |
Grok 4 |
82 |
87 |
82 |
87 |
85 |
|
17 |
DeepSeek-V3 |
95 |
81 |
84 |
77 |
84 |
|
19 |
GPT-4o |
98 |
65 |
87 |
78 |
82 |
|
19 |
GPT-o4 mini |
91 |
87 |
72 |
76 |
82 |
|
21 |
Claude 4 Opus(思考模式) |
96 |
84 |
72 |
71 |
81 |
|
21 |
MiniMax-01 |
96 |
69 |
83 |
75 |
81 |
|
21 |
360智腦2-o1 |
93 |
76 |
81 |
72 |
81 |
|
24 |
Claude 4 Opus |
95 |
85 |
70 |
70 |
80 |
|
24 |
GLM-4-plus |
93 |
71 |
83 |
73 |
80 |
|
24 |
Step 2 |
97 |
63 |
82 |
78 |
80 |
|
27 |
Yi- Lightning |
97 |
59 |
82 |
79 |
79 |
|
27 |
Kimi |
94 |
61 |
79 |
81 |
79 |
|
29 |
Spark 4.0 Ultra |
91 |
71 |
75 |
76 |
78 |
|
30 |
日日新 V6 Pro |
86 |
58 |
84 |
78 |
77 |
|
31 |
GLM-Z1-Air |
90 |
76 |
73 |
64 |
76 |
|
32 |
Llama 3.3 70B |
82 |
52 |
83 |
81 |
75 |
|
33 |
日日新 V6推理 |
96 |
63 |
68 |
70 |
74 |
|
34 |
Baichuan4-Turbo |
91 |
48 |
77 |
69 |
71 |
|
35 |
Step R1-V-Mini |
96 |
80 |
37 |
51 |
66 |
|
36 |
Kimi-k1.5 |
84 |
79 |
42 |
58 |
66 |
圖表2:情境推理能力排名
綜合能力排名
在綜合能力排名上,參與評測的36個模型的表現差異顯著。豆包1.5 Pro(思考模式)以在基礎邏輯能力和情境推理能力上的綜合表現卓越,排名第一,GPT-5緊隨其後,GPT-o3和豆包1.5 Pro分列第三、第四。
|
排名 |
模型名稱 |
綜合得分 |
|
1 |
豆包1.5 Pro(思考模式) |
93 |
|
2 |
GPT-5 |
91.5 |
|
3 |
GPT-o3 |
91 |
|
4 |
豆包1.5 Pro |
90.5 |
|
5 |
DeepSeek-R1 |
89.5 |
|
5 |
Gemini 2.5 Pro |
89.5 |
|
5 |
通義千問3(思考模式) |
89.5 |
|
8 |
混元-T1 |
88.5 |
|
8 |
文心一言 X1-Turbo |
88.5 |
|
10 |
Gemini 2.5 flash |
88 |
|
10 |
Grok 3(思考模式) |
88 |
|
12 |
通義千問3 |
87 |
|
13 |
GPT-4.1 |
86 |
|
14 |
DeepSeek-V3 |
85 |
|
14 |
GPT-o4 mini |
85 |
|
16 |
GPT-4o |
84.5 |
|
17 |
混元-TurboS |
83.5 |
|
18 |
Claude 4 Opus (思考模式) |
83 |
|
19 |
Claude 4 Opus |
82.5 |
|
19 |
Grok 3 |
82.5 |
|
19 |
Grok 4 |
82.5 |
|
22 |
文心一言4.5-Turbo |
80.5 |
|
23 |
MiniMax-01 |
80 |
|
23 |
日日新 V6 Pro |
80 |
|
23 |
日日新 V6推理 |
80 |
|
26 |
Yi- Lightning |
79.5 |
|
27 |
GLM-4-plus |
78 |
|
28 |
Kimi |
77.5 |
|
28 |
Spark 4.0 Ultra |
77.5 |
|
30 |
Step 2 |
76.5 |
|
30 |
GLM-Z1-Air |
76 |
|
32 |
Baichuan4-Turbo |
75.5 |
|
33 |
Step R1-V-Mini |
71.5 |
|
34 |
360智腦2-o1 |
70 |
|
35 |
Llama 3.3 70B |
69.5 |
|
36 |
Kimi-k1.5 |
69 |
圖表3:綜合能力排名
請按此瀏覽《大語言模型推理能力測評報告》全文
綜合以上排名,眾多來自中國的大語言模型表現亮眼,進步迅速,展現了中國大模型產業在中文語境中的特殊優勢和強大潛力。
傳媒垂詢,請聯絡:
|
港大經管學院 |
|
|
傳訊及公共事務經理 |
傳訊及公共事務經理 |