港大經管學院最新評測:AI高階推理能力,哪家最強?
2025年10月15日
港大經管學院今日發表《AI高階推理能力評測報告》,針對選定的AI大語言模型(LLM)在中文語境下的高階推理能力進行評測,揭示AI高階推理能力的發展現狀。
2025年以來,AI大語言模型從「能對話」向「會思考」快速演進。然而在需要複雜推理能力的場景中,AI的推理能力參差不齊,包括對圖片和文字等跨模態訊息的整合分析能力,或面對非常規性複雜題目時的創新推理能力。因此,港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授蔣鎮輝率領人工智能評估實驗室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人員,首次構建多模態推理和國際數學奧林匹克競賽(奧賽)推理綜合評測體系,以系統性、定量化的方式針對2025年人工智能技術的核心發展瓶頸——高階推理能力,進行全面深入的現狀評測。評測對象涵蓋中美兩國截至2025年10月中旬發佈的37款大語言模型(包括14個推理模型、20個通用模型和3個一體化系統)。
評測結果顯示:
- 在「多模態推理」方面,GPT系列持續領先,以「豆包1.5 Pro」(思考模式)為首的頂尖國產模型,亦已成功躋身全球第一梯隊。
- 在更高難度的「奧賽推理」方面,則由美國模型整體主導,其中 GPT-5(思考模式)的優勢更可謂表現突出,大幅拋離對手,而Gemini 2.5 Pro亦緊隨其後。
- 整體而言,是次評測揭示了一個清晰的行業趨勢:專為高階任務而設的「推理模型」,表現遠勝「通用模型」,兩者梯度差異明顯。這趨勢正正吻合AI產業的發展規律——行業焦點正由以往「追求功能夠多夠廣」,轉向「聚焦特定場景的深度優化」。這標誌著AI技術的發展,已由「廣度擴張」,正式邁向「深度精耕」的新時代。
蔣鎮輝教授表示:「高階推理能力對AI在教育、科研及商業決策等領域的應用拓展至關重要。此研究旨在揭示高階人工智能技術的發展現狀,令行業能夠精準定位技術瓶頸,加速通用人工智能在高要求領域的落地應用,最終推動AI從『對話助手』轉型成為更加高級的『智能伙伴』。 」
評測方法
為全面評測大型語言模型(LLM)的高階推理能力,本研究設計了兩大核心測試維度,旨在評估AI在應對真實世界挑戰時的表現。
- 多模態推理能力指模型能否打通文本、圖像、數據圖表等不同格式的資訊,進行跨模態關聯分析與邏輯推理。 例如在教學上,AI需要結合教科書文字與物理圖解,才能透徹解釋力學原理;在商業分析上,分析師亦要靠AI同時解讀市場文字報告和銷售數據圖表,才能準確預測消費趨勢。這是AI處理現實世界複雜任務的「基本功」。
- 奧賽推理能力採用「國際數學奧林匹克(IMO)」等頂級學術競賽的高難度題目,去測試模型在複雜邏輯、多步驟推理和創意思維上的極限。這類問題往往沒有標準答案,極度考驗AI能否跳出固有框架、尋找最佳解決方案的創造力,是衡量其「高階智能」的終極試煉。
多模態推理能力排名
根據評測結果,各大語言模型在「多模態推理能力」上的表現出現明顯分層。在最頂尖的梯隊(85分以上區間),GPT系列幾乎壟斷了五個席位中的四席,展現出全面的領先優勢。而內地研發的「豆包1.5 Pro」(思考模式)成為唯一打入前五名的國產模型,表現相當亮眼。值得留意的是,其「通用模式」與「思考模式」的評分差距極小,證明其多模態推理的底層實力已達到國際頂尖水平。
從模型類型看,和通用模型相比,同公司的推理模型在複雜任務中展現出一定的優勢。
|
排名 |
模型名稱 |
多模態推理能力準確率得分 |
|
1 |
GPT-5(思考模式) |
91 |
|
2 |
GPT-4.1 |
90 |
|
3 |
GPT-o3 |
87 |
|
4 |
豆包1.5 Pro(思考模式) |
85 |
|
4 |
GPT-5(自动模式) |
85 |
|
6 |
GPT-4o |
84 |
|
7 |
Claude 4 Opus(思考模式) |
83 |
|
8 |
豆包1.5 Pro |
82 |
|
8 |
Grok 3(思考模式) |
82 |
|
10 |
通義千問3 |
81 |
|
11 |
Kimi-k1.5 |
80 |
|
11 |
日日新 V6推理 |
80 |
|
11 |
Step R1-V-Mini(階躍 R1-V-Mini) |
80 |
|
14 |
Grok 4 |
79 |
|
14 |
GPT-o4 mini |
79 |
|
14 |
混元-T1 |
79 |
|
17 |
GLM-4-plus(智譜-4-Plus) |
78 |
|
17 |
通義千問3(思考模式) |
78 |
|
19 |
Gemini 2.5 Flash |
77 |
|
19 |
GLM-Z1-Air(智譜-Z1-Air) |
77 |
|
21 |
Llama 3.3 70B |
76 |
|
22 |
日日新 V6 Pro |
75 |
|
22 |
Gemini 2.5 Pro |
75 |
|
23 |
文心一言4.5-Turbo |
74 |
|
24 |
Step 2(階躍2) |
73 |
|
26 |
混元-TurboS |
71 |
|
26 |
Claude 4 Opus |
71 |
|
28 |
Spark 4.0 Ultra(訊飛星火 4.0 Ultra) |
68 |
|
28 |
MiniMax-01 |
68 |
|
30 |
Baichuan4-Turbo(百川4-Turbo) |
67 |
|
31 |
Grok 3 |
66 |
|
32 |
Kimi |
63 |
圖表 1:多模態推理能力排名
奧賽推理能力排名
根據評測結果,在「奧賽推理能力」方面,美國的大型語言模型於正確性、邏輯連貫性、解題方法創新性等多個維度,均呈現出全面的領先態勢。
處於龍頭位置的是GPT-5(思考模式)和Gemini 2.5 Pro,它們以絕對優勢遙遙領先,與其他模型形成巨大差距。緊隨其後構成第二梯隊的,則是GPT-o3及Claude 4 Opus(思考模式),分別位列第三及第四名。至於國產模型的表現,當中僅有「通義千問3」(思考模式)和Step R1_V_mini表現尚可,反映國產模型在處理頂尖複雜推理任務上,仍有相當大的進步空間。
此外,即使是同一間公司旗下的模型,思考模式下的模型在各項奧賽推理維度上的表現,普遍優於其通用模型。
|
排名 |
模型名稱 |
正確性 |
邏輯連貫性 |
方法創新性 |
奧賽推理能力 |
|
1 |
GPT-5(思考模式) |
48 |
47 |
44 |
48 |
|
2 |
Gemini 2.5 Pro |
48 |
39 |
36 |
44 |
|
3 |
GPT-o3 |
36 |
42 |
39 |
38 |
|
4 |
Claude 4 Opus(思考模式) |
30 |
36 |
39 |
33 |
|
5 |
Gemini 2.5 Flash |
35 |
28 |
31 |
32 |
|
5 |
GPT-o4 mini |
32 |
33 |
33 |
32 |
|
7 |
通義千問3(思考模式) |
29 |
25 |
28 |
28 |
|
7 |
Step R1_V_mini |
26 |
33 |
22 |
28 |
|
9 |
GLM_Z1_Air |
27 |
31 |
22 |
27 |
|
9 |
日日新 V6推理 |
27 |
28 |
22 |
27 |
|
11 |
通義千問3 |
25 |
31 |
17 |
26 |
|
12 |
文心一言4.5-Turbo |
25 |
25 |
19 |
24 |
|
13 |
Grok 3(思考模式) |
21 |
28 |
25 |
23 |
|
14 |
GPT-5(自动模式) |
22 |
22 |
28 |
22 |
|
14 |
DeepSeek-V3(深度求索-V3) |
26 |
14 |
22 |
22 |
|
16 |
Claude 4 Opus |
22 |
17 |
31 |
21 |
|
17 |
豆包1.5 Pro(思考模式) |
22 |
17 |
22 |
20 |
|
17 |
DeepSeek-R1(深度求索-R1) |
17 |
25 |
22 |
20 |
|
19 |
Grok 3 |
20 |
19 |
17 |
19 |
|
19 |
Grok 4 |
19 |
17 |
25 |
19 |
|
21 |
文心一言 X1-Turbo |
17 |
19 |
14 |
17 |
|
21 |
混元-T1 |
17 |
17 |
19 |
17 |
|
21 |
混元-TurboS |
17 |
17 |
19 |
17 |
|
21 |
Kimi-k1.5 |
17 |
19 |
11 |
17 |
|
25 |
豆包1.5 Pro |
16 |
17 |
19 |
16 |
|
26 |
GLM-4-plus(智譜-4-Plus) |
12 |
17 |
8 |
13 |
|
27 |
GPT-4o |
13 |
8 |
19 |
12 |
|
27 |
Spark 4.0 Ultra(訊飛星火 4.0 Ultra) |
13 |
11 |
14 |
12 |
|
29 |
Baichuan4-Turbo(百川4-Turbo) |
8 |
19 |
11 |
11 |
|
29 |
GPT-4.1 |
11 |
8 |
17 |
11 |
|
31 |
Kimi |
6 |
14 |
17 |
9 |
|
31 |
Llama 3.3 70B |
7 |
14 |
6 |
9 |
|
33 |
Yi-Lightning(零一-Lightning) |
6 |
11 |
14 |
8 |
|
33 |
日日新 V6 Pro |
8 |
8 |
6 |
8 |
|
35 |
MiniMax-01 |
5 |
11 |
8 |
7 |
|
35 |
Step2 |
6 |
8 |
8 |
7 |
|
35 |
360智腦2-o1 |
7 |
6 |
8 |
7 |
|
Note: 所有分數均為四捨五入得分结果。 |
|||||
圖表 2:奧賽推理能力排名
請按此瀏覽《AI高階推理能力評測報告》全文
綜合以上排名可知,在地域上,美國模型在多模態和奧賽推理中表現突出,優勢明顯;中國模型仍需在深層語境理解、複雜推理鏈或創造性解決問題上彌補差距。 此外,推理模型在高階推理能力領域的表現普遍優於通用模型。
未來,人工智慧需在跨模態深度融合、極端複雜問題創造性解決上持續突破。 而中國模型可依託本土場景理解優勢,針對性補足高階推理短板,推動「真智慧」 向更廣闊的應用場景邁進。
請按此下載高清圖片。
傳媒垂詢,請聯絡:
|
港大經管學院 |
|
|
傳訊及公共事務經理 |
傳訊及公共事務經理 |