2025年推理模型綜合測評報告_第1頁
2025年推理模型綜合測評報告_第2頁
2025年推理模型綜合測評報告_第3頁
2025年推理模型綜合測評報告_第4頁
2025年推理模型綜合測評報告_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

VIP免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

推理模型綜合測評報告2025幻覺控制多步推理語言推理邏輯推理數(shù)學(xué)推理目錄CONTENT推理模型發(fā)展階段和發(fā)展因素分析01推理模型測評體系和結(jié)果分析02推理模型未來展望03推理模型發(fā)展階段和發(fā)展因素分析推理模型發(fā)展的前置因素①—推理時計算拓展(

Inference-Compute

Scaling)根據(jù)一些學(xué)術(shù)論文的研究,在推理過程中增加計算資源,能夠有效提高大模型的輸出質(zhì)量。這相當于在現(xiàn)實生活中,人在遇到較難的問題是也需要更多的思考時間或思考量。這一思路逐漸總結(jié)為推理時計算拓展,并逐漸演變出3條主要路徑。例如,OpenAI發(fā)布的o1模型通過動態(tài)擴展思維鏈(Chain-of- Thought)長度,并采用了自我驗證機制,生成多個候選答案后通過內(nèi)部評分篩選最優(yōu)解。鼓勵大模型在回答問題時更多地

“思考”怎么做?深度思維提示——拉長單鏈思考時間,讓模型多想一步通過“逐步思考”等提示詞的注入,讓大模型生成更長的單鏈推理多鏈多數(shù)表決——并行多條思路,投票選其最優(yōu)通過并行解碼,在生成的多個思維鏈中,進行多數(shù)表決或者加權(quán)投票,選擇最優(yōu)的一條輸出路徑搜索——邊思考邊篩選,保留最佳路徑通過搜索過往路徑,多路徑中篩選最優(yōu)通路4難點①固定參數(shù)≠泛化能力傳統(tǒng)大模型在推理過程中依賴訓(xùn)練階段形成的靜態(tài)參數(shù)。當遇到?jīng)]見過的問題時,大模型需要一種更加動態(tài)和靈活的計算策略與自我糾錯的系統(tǒng)能力。難點②探索資源效率更優(yōu)的路徑傳統(tǒng)Scaling

Law的邊際收益遞減且成本激增,人們需要探索一種資源效率利用更高的路徑方式。為什么?備注:InfoQ研究中心根據(jù)科研論文整合,代表為《Scaling

LLM

Test-Time

Compute

Optimally

can

be

More

Effective

than

Scaling

Model

Parameters》、《Learning

to

reason

with

LLMs》推理模型發(fā)展的前置因素②——基于可驗證獎勵的強化學(xué)習(xí)(RLVF)主觀:反饋中包含人工主觀偏好;昂貴:長鏈推理中人工評分難,對標注員要求高,造成招募難度和成本雙高為什么RLHF不夠?客觀抗作弊:編譯?/單元測試判分,且沙箱執(zhí)行,可實時偵測reward-hacking低成本:全自動打分,快捷高效低成本學(xué)習(xí)高效:格式和過程準確性可拆成連續(xù)獎勵,收斂快為什么是基于可驗證獎勵的強化學(xué)習(xí)?訓(xùn)練數(shù)據(jù)策略模型可驗證獎勵①

抽樣提示5生成答案②打分獎勵③①抽樣提示:從題庫或真實用戶問題里隨機取樣,作為模型輸入。②生成答案:策略模型按當前參數(shù)進行解題③打分獎勵:驗證函數(shù)進行判分,并生成相應(yīng)的獎勵信號?策略更新:將獎勵反向傳回,更新模型參數(shù)除了推理時計算拓展,基于可驗證獎勵的強化學(xué)習(xí)(RLVF)幫助大模型真正掌握長鏈推理。DeepSeek、OpenAI

Codex、k1.5、

TüLU

3等最新一代模型的技術(shù)論文都披露了類似范式,并在編程競賽、數(shù)學(xué)推導(dǎo)與通用推理benchmark上驗證了RLVF的顯著收益。為什么? 怎么做??策略更新備注:InfoQ研究中心根據(jù)科研論文整合,代表為《TüLU

3:

Pushing

Frontiers

in

Open

Language

Model

Post-Training》、《DeepSeek-R1:Incentivizing

Reasoning

Capability

in

LLMsvia

Reinforcement

Learning》、《Kimi

k1.5:

Scaling

Reinforcement

Learning

with

LLMs》各家陸續(xù)發(fā)布推理模型,獲取推理模型入場券9月,OpenAI發(fā)布o1系列模型(o1-preview)11-12月,各家陸續(xù)發(fā)布實驗性推理模型(DeepSeek-R1-Lite-Preview、QwQ-32B-Preview、Gemini2.0FlashThinking、天工大模型o1版、GLM-Zero-Preview)12月,OpenAI發(fā)布o1正式版DeepSeek、Kimi同一天發(fā)布推理模型R1

和k1.5科大訊飛發(fā)布推理模型訊飛星火X1百川智能發(fā)布Baichuan-M1-Preview谷歌發(fā)布Gemini

2.0

FlashThinking

Experimental2025年1月Anthropic發(fā)布Claude

3.7

SonnetReasoning阿里通義團隊發(fā)布QwQ-Max-Preview騰訊元寶上線Hunyuan-Thinker-1-Preview2025年3月阿里通義團隊發(fā)布QwQ-32B谷歌發(fā)布Gemini

2.5

pro騰訊發(fā)布混元T1正式版智譜發(fā)布GLM-Z1正式版百度發(fā)布文心X1-Turbo字節(jié)跳動發(fā)布Doubao

1.5

thinking

proOpenAI發(fā)布o3正式版谷歌發(fā)布Gemini

2.5

Flash6受「推理時計算拓展」與「可驗證獎勵強化學(xué)習(xí)」兩大技術(shù)范式驅(qū)動,全球廠商已進入推理模型密集發(fā)布期:從2024年Q4到2025年Q2,OpenAI

o1、DeepSeek

R1、Claude

3.7

Sonnet

Reasoning、k1.5、文心X1-Turbo等十余款推理模型相繼上線,爭奪下一代大模型的“推理入場券”。2024年9月-12月 2025年2月 2025年4月備注:InfoQ研究中心根據(jù)官網(wǎng)信息、媒體公開報道信息整合推理模型帶來的能力提升和業(yè)務(wù)期望橫向調(diào)度工具/系統(tǒng)編排能力在線自進化在工具編排與多智能體鏈路中制定多步驟解決方案從能回答到有邏輯有依據(jù)的回答利用可驗證獎勵讓系統(tǒng)自己迭代,探索更多應(yīng)用場景傳統(tǒng)大模型應(yīng)用現(xiàn)有場景應(yīng)用向深典型代表應(yīng)用嘗試:典型代表應(yīng)用嘗試:DeepResearchManus操作系統(tǒng)智能體游戲智能體項目級代碼編排會議復(fù)盤與待辦事項生成個性化題目答疑典型代表應(yīng)用嘗試:實驗方案優(yōu)化代碼流水線自學(xué)習(xí)推理模型把大模型從單純的內(nèi)容生成?升級為「可驗證的邏輯執(zhí)行?」,伴隨著①單場景推理深度、②跨工具編排廣度、③在線自進化能力的同步躍升,更多新商業(yè)機會正被快速打開。7推理模型測評體系和結(jié)果分析推理模型測評體系的三大設(shè)計原則題目原創(chuàng)性題庫總量300題,其中90%為研究團隊全新編寫,覆蓋中文語境下的真實業(yè)務(wù)場景與最新研究痛點;僅≤10%取自LiveBench、UGMathBench、Human-Eval、HLE等公開集,用作對齊基準,且通過原創(chuàng)題庫防止模型通過“背庫”獲得虛高分設(shè)置5類計分題型:判斷(0/1計分)單選(固定分值)多選(階梯計分)排序題(階梯計分)填空(精準匹配)開放題(分段計分)分數(shù)可量化縱向:同一能力維度設(shè)置三檔難度,題量比例基本穩(wěn)定在易40%:中20%:難40%,既保證覆蓋面又能充分區(qū)分高階能力。橫向:從單點推理到復(fù)雜場景推理、從單個概念到多步推導(dǎo),逐級測評推理模型能力9難度梯度設(shè)計模型測評體系的設(shè)計原則:本次測評體系的五大能力維度出發(fā)點邏輯推理基于形式和符號邏輯的推理是推理模型處理復(fù)雜問題的底層能力展現(xiàn),也是推理模型推理一致性和可靠性的重要保障長文本推理能力直接影響模型的信息整合效率,結(jié)合場景的推理題目也能考驗?zāi)P偷木C合邏輯推理能力1語言推理中文推理測評體系需要專門針對中文場景的測評維度漢字結(jié)構(gòu)推理檢測推理模型理解能力突破單token推測段落排序和意圖識別評估語義網(wǎng)絡(luò)構(gòu)建中文改錯等專項測試反映本土化適配需求,并考驗推理模型的綜合語言能力3數(shù)學(xué)推理符號運算能力代表模型的抽象思維水平,計算題驗證推理模型的計算嚴謹性通過數(shù)學(xué)不同領(lǐng)域不同類型問答題目,測試推理模型的符號運算、數(shù)學(xué)原理理解和空間想象和抽象建模能力2多步和復(fù)雜場景推理,是對推理模型綜合推理能力以及跨領(lǐng)域知識遷移的重要體現(xiàn)編程算法測試邏輯鏈條的連貫性跨學(xué)科推導(dǎo)(物理/化學(xué)等)驗證知識遷移能力多步推理4在實際生產(chǎn)應(yīng)用中,推理模型必須擁有一定的幻覺控制能力事實問答直接檢驗?zāi)P偷讓訑?shù)據(jù)可靠性誤導(dǎo)污染測試評估抗干擾能力長文本和引用測試實際應(yīng)用場景下的幻覺控制能力幻覺控制510推理模型綜合測評體系說明11序號測評維度權(quán)重具體能力說明題目類型01邏輯推理22%通過結(jié)構(gòu)化思維,驗證模型的邏輯嚴謹性,包含演繹推理、類比推理、歸納推理、長文本推理三段論推理、假言推理、選言推理、關(guān)系推理、詞匯推理、場景推理、長文本閱讀理解、偵探謎題等,包含判斷、單選、多選、填空、開放題02數(shù)學(xué)推理29%多維度數(shù)學(xué)能力評估,包含代數(shù)(符號運算與方程求解)、分析(函數(shù)、極限、積分、概率)、幾何(平面幾何、立體幾何、拓撲)、數(shù)論(整數(shù)特性與抽象結(jié)構(gòu))方程式求解、因式分解、矩陣計算;函數(shù)、極限、積分、概率的計算與證明;平面幾何、三角幾何、解析幾何、立體幾何和拓撲的計算與證明,整除同余性質(zhì)、數(shù)列的計算,包含判斷、單選、多選、填空、開放題03多步推理15%復(fù)雜問題拆解與推導(dǎo)推理能力,包含編程算法、復(fù)雜科學(xué)推導(dǎo)代碼解釋、糾錯、翻譯、生成及測試;化學(xué)、物理、生物、醫(yī)藥、工程學(xué)等領(lǐng)域復(fù)雜問題解答,包含單選、多選、填空、開放題04語言推理21%中文語境下的深度語言理解,包含中文改錯、字形推理、段落排序、對話意圖識別錯別字、語病、文件修改;字謎、漢字結(jié)構(gòu)組合和推理;中文段落排序;核心意圖、約束條件、復(fù)雜場景潛在意圖識別,包含單選、多選、填空、排序、開放題05幻覺控制12%生成內(nèi)容中的虛假信息抑制能力,事實錯誤、污染測試、引用測試、上下文幻覺事實問答;誤導(dǎo)污染測試、文獻&報告查詢、案例匹配、時間線梳理,包含填空及開放題根據(jù)推理模型的各項能力維度,本次綜合測評體系分為5個維度:參與測評模型和版本說明12本次測評選取的推理模型、版本號及測試渠道:序號推理模型名稱所屬機構(gòu)版本號測試渠道1DeepSeek-R1深度求索2025-01-20使用DeepSeek官方網(wǎng)頁版,深度思考開啟,聯(lián)網(wǎng)搜索關(guān)閉2k1.5月之暗面2025-01-20使用Kimi官方網(wǎng)頁版,長思考(k1.5)開啟,未聯(lián)網(wǎng)搜索3Claude-3.7-Sonnet-ReasoningAnthropic2025-02-24使用POE網(wǎng)頁版,模型選擇Claude-3.7-Sonnet-Reasoning4GLM-Z1智譜2025-04-14使用智譜清言官方網(wǎng)頁版,推理開啟,沉思和聯(lián)網(wǎng)關(guān)閉5Doubao-1.5-thinking-pro字節(jié)跳動2025-04-15使用火山方舟API,聯(lián)網(wǎng)關(guān)閉6o3OpenAI2025-04-16使用ChatGPT官方網(wǎng)頁版,聯(lián)網(wǎng)關(guān)閉7文心X1

Turbo百度2025-04-25使用文心一言官方網(wǎng)頁版,聯(lián)網(wǎng)搜索關(guān)閉8Qwen3-235B-A22B阿里2025-04-29使用Qwen-chat官方網(wǎng)頁版,深度思考開啟,搜索關(guān)閉大模型綜合測評題庫說明13本次題庫部分共涉及300題,具體分布如下:題目類別題目數(shù)量細分維度題目數(shù)邏輯推理82演繹推理22類比推理22歸納推理22長文本推理16數(shù)學(xué)推理88代數(shù)22分析22幾何22數(shù)論22語言推理64中文改錯15字形推理15段落排序15對話意圖識別19多步推理30編程算法題15復(fù)雜科學(xué)推導(dǎo)15幻覺控制36事實錯誤8污染測試8引用測試8上下文幻覺12備注:300道題庫中,不超過10%的題目來自于公開測試數(shù)據(jù)集,例如LiveBench、UGMathBench、HumanEval和HLE。核心發(fā)現(xiàn):推理模型對幻覺有一定的控制能力,多步復(fù)雜推理仍是短板排名測試類型具體能力說明平均得分率1幻覺控制生成內(nèi)容中的虛假信息抑制能力,事實錯誤、污染測試、引用測試、上下文幻覺74.83%2數(shù)學(xué)推理多維度數(shù)學(xué)能力評估,包含代數(shù)(符號運算與方程求解)、分析(函數(shù)、極限、積分、概率)、幾何(平面幾何、立體幾何、拓撲)、數(shù)論(整數(shù)特性與抽象結(jié)構(gòu))72.66%3邏輯推理通過結(jié)構(gòu)化思維,驗證模型的邏輯嚴謹性,包含演繹推理、類比推理、歸納推理、長文本推理72.09%4語言推理中文語境下的深度語言理解,包含中文改錯、字形推理、段落排序、對話意圖識別62.13%5多步推理復(fù)雜問題拆解與推導(dǎo)推理能力,包含編程算法以及化學(xué)、物理、生物、醫(yī)藥、工程學(xué)等領(lǐng)域復(fù)雜問題解答46.04%引用測試中,推理模型幻覺呈現(xiàn)更加隱蔽的特點,并且擅于虛構(gòu)各類具體數(shù)據(jù)或者生成具體論文/報告/產(chǎn)品名稱,讓推理模型的輸出看起來更有依據(jù)推理模型在以數(shù)字、符號為代表的代數(shù)和分析領(lǐng)域得分較高,但涉及到平面或空間的幾何結(jié)構(gòu)時,思考時間變長,準確率也有所下降推理模型在文本長度增加、場景復(fù)雜度增加的情況下,準確性存在明顯下降推理模型在對話意圖識別優(yōu)勢明顯,部分模型對中文漢字的字形結(jié)構(gòu)存在基礎(chǔ)認知,例如左右、上下、獨字以及包圍結(jié)構(gòu)等,但在認知準確性仍有一定優(yōu)化空間在面對化學(xué)、物理、生物、醫(yī)藥、工程學(xué)等領(lǐng)域的復(fù)雜問題時,推理模型的思考時間是所有維度中最長的,準確性也是最低的數(shù)據(jù)說明:InfoQ研究中心繪制測評結(jié)果僅基于上文所列模型,測評截止時間為2025年5月22日本報告中各領(lǐng)域的得分率均采用以下公式計算:得分率(%)=(對應(yīng)領(lǐng)域題目總得分÷該領(lǐng)域題目總數(shù)÷單題滿分)×100%14各維度Top5模型得分情況備注:維度排列順序按照平均得分率排列,橙色柱體為各細分維度第一,各圖縱坐標均為40-90%;本報告中各領(lǐng)域的得分率均采用以下公式計算:得分率(%)=(對應(yīng)領(lǐng)域題目總得分÷該領(lǐng)域題目總數(shù)÷單題滿分)×100%Qwen3-235B-A22BDoubao-1.5-thinking-proO3文心

DeepSeekX1-

-R1TurboO3文心

X1-TurboQwen3-235B-A22B-1.5-thinking-proDoubao

DeepSeek-R1O33.7-Sonnet-Reasoning-R1Claude-DeepSeek

文心X1-TurboQwen3-235B-A22B文心

X1-TurboDeepSeek-R1Qwen3-235B-A22BDoubao-1.5-thinking-proO3文心

X1-Turbo15-1.5-thinking-pro-R1Doubao

DeepSeek

O3Qwen3-235B-A22B邏輯推理數(shù)學(xué)推理多步推理幻覺控制語言推理020406080100120140160180200220演繹推理類比推理歸納推理代數(shù)分析幾何數(shù)論編程算法題長文本推理平均得分率(%)段落排序字形推理事實錯誤平均思考時長(s)引用測試上下文幻覺對話意圖識別污染測試中文改錯復(fù)雜科學(xué)推導(dǎo)0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

85

90

95

100備注:本報告中各領(lǐng)域的得分率均采用以下公式計算:得分率(%)=(對應(yīng)領(lǐng)域題目總得分÷該領(lǐng)域題目總數(shù)÷單題滿分)×100%核心發(fā)現(xiàn):處在基準區(qū)之外的各能力維度,在「得分率-思考時長」這兩項指標之間仍未形成穩(wěn)定的均衡:要么快但不準,要么準但偏慢潛力區(qū)

尖子區(qū)基準區(qū)邏輯推理數(shù)學(xué)推理多步推理語言推理幻覺控制16核心發(fā)現(xiàn):推理模型具有較好的歸納推理能力,長文本推理能力仍待提升邏輯推理能力得分率TOP5模型分類得分率Qwen3-235B-A22B77.44%Doubao-1.5-thinking-pro76.83%O375.00%DeepSeek-R174.39%文心X1-Turbo74.39%72.09%邏輯推理平均得分率歸納推理得分率最高,獲得86.70%類比推理得分率最低,僅為58.52%邏輯推理能力各模型平均得分率78.41%61.95%58.52%1786.70%歸納推理 演繹推理 長文本推理 類比推理備注:各維度能力得分率TOP3模型中,若存在同得分率,則按照該維度平均思考時長排列順序本報告中各領(lǐng)域的得分率均采用以下公式計算:得分率(%)=(對應(yīng)領(lǐng)域題目總得分÷該領(lǐng)域題目總數(shù)÷單題滿分)×100%###分析題目條件小王需從四門課程(微積分、邏輯學(xué)、拓撲學(xué)、離散數(shù)學(xué))中選擇**一門主修課**和**一門輔修課**,且必須滿足以下規(guī)則:**規(guī)則①**:若主修微積分→輔修∈{邏輯學(xué),離散數(shù)學(xué)}**規(guī)則②**:若主修邏輯學(xué)→輔修∈{微積分,拓撲學(xué)}**規(guī)則③**:若主修離散數(shù)學(xué)→輔修=微積分**規(guī)則?**:若主修拓撲學(xué)→輔修∈{離散數(shù)學(xué),微積分}

###選項分析####A.微積分、離散數(shù)學(xué)**組合1**:主修微積分,輔修離散數(shù)學(xué)-規(guī)則①:輔修∈{邏輯學(xué),離散數(shù)學(xué)}→**組合2**:主修離散數(shù)學(xué),輔修微積分-規(guī)則③:輔修=微積分→**結(jié)論**:至少一種組合成立

**可能**####

B.

微積分、拓撲學(xué)**組合1**:主修微積分,輔修拓撲學(xué)-規(guī)則①:輔修?{邏輯學(xué),離散數(shù)學(xué)}→**組合2**:主修拓撲學(xué),輔修微積分-規(guī)則?:輔修∈{離散數(shù)學(xué),微積分}→**結(jié)論**:至少一種組合成立

**可能**####

C.

邏輯學(xué)、離散數(shù)學(xué)**組合1**:主修邏輯學(xué),輔修離散數(shù)學(xué)-規(guī)則②:輔修?{微積分,拓撲學(xué)}→**組合2**:主修離散數(shù)學(xué),輔修邏輯學(xué)-規(guī)則③:輔修≠微積分→**結(jié)論**:兩種組合均不成立

**不可能**####

D.

拓撲學(xué)、邏輯學(xué)**組合1**:主修拓撲學(xué),輔修邏輯學(xué)-規(guī)則?:輔修?{離散數(shù)學(xué),微積分}→**組合2**:主修邏輯學(xué),輔修拓撲學(xué)-規(guī)則②:輔修∈{微積分,拓撲學(xué)}→**結(jié)論**:至少一種組合成立

**可能**####

E.

離散數(shù)學(xué)、拓撲學(xué)**組合1**:主修離散數(shù)學(xué),輔修拓撲學(xué)-規(guī)則③:輔修≠微積分→**組合2**:主修拓撲學(xué),輔修離散數(shù)學(xué)-規(guī)則?:輔修∈{離散數(shù)學(xué),微積分}→ **結(jié)論**:至少一種組合成立

**可能**###

最終結(jié)論只有**選項C**的兩種組合均違反規(guī)則,因此是不可能的組合。**答案**:[C]基準回答示例問題1——演繹推理Qwen3-235B-A22B回答**題目**:某法學(xué)院學(xué)生小王要在微積分、邏輯學(xué)、拓撲學(xué)、離散數(shù)學(xué)中選擇一門作為主修課,另一門作為輔修課。另外,選課時有如下規(guī)則:(1)如果選微積分作為主修課,那么

選邏輯學(xué)或離散數(shù)學(xué)作為輔修課;(2)如果選邏輯學(xué)作為主修課,將選微積分或拓撲學(xué)作為輔修課;(3)只有選微積分為輔修課,才選離散數(shù)學(xué)作為主修課;(4)只有離散數(shù)學(xué)或微積分成為輔修課,拓撲學(xué)才作為主修課。根據(jù)以上信息,關(guān)于小王選課的組合,以下哪項是不可能的?**選項**:A.微積分、離散數(shù)學(xué)

B.微積分、拓撲學(xué)C.邏輯學(xué)、離散數(shù)學(xué)

D.拓撲學(xué)、邏輯學(xué)E.離散數(shù)學(xué)、拓撲學(xué)**要求**:逐條分析選項是否符合題目要求最終答案標注為:[選項字母]備注:為方便展現(xiàn),回答的格式存在部分調(diào)整18核心發(fā)現(xiàn):推理模型在代數(shù)領(lǐng)域表現(xiàn)最佳,幾何理解稍顯欠缺72.66%數(shù)學(xué)推理能力平均得分率代數(shù)得分率最高,獲得88.35%幾何得分率最低,僅為62.50%數(shù)學(xué)推理能力各模型平均得分率73.01%66.76%62.50%1988.35%數(shù)學(xué)推理能力得分率TOP5模型分類得分率o381.25%文心X1-Turbo78.98%Qwen3-235B-A22B78.41%Doubao-1.5-thinking-pro77.84%DeepSeek-R177.84%代數(shù) 分析 數(shù)論 幾何備注:各維度能力得分率TOP3模型中,若存在同得分率,則按照該維度平均思考時長排列順序本報告中各領(lǐng)域的得分率均采用以下公式計算:得分率(%)=(對應(yīng)領(lǐng)域題目總得分÷該領(lǐng)域題目總數(shù)÷單題滿分)×100%基準回答示例問題2——代數(shù)**題目**:計算:\sin12^\circ+\sin24^\circ+\sin96^\circ-\sin132^\circ文心X1-Turbo回答首先,我們需要計算表達式\(\sin12^\circ+\sin24^\circ+\sin96^\circ-\sin132^\circ\)的值。**分組處理**:前兩個正弦項:\(\sin12^\circ+\sin24^\circ\)后兩個正弦項:\(\sin96^\circ-\sin132^\circ\)**應(yīng)用和差公式**:\(\sin12^\circ

+

\sin24^\circ

=

2

\sin18^\circ

\cos6^\circ\)-

\(\sin96^\circ

-

\sin132^\circ

=

2

\cos114^\circ

\sin(-18^\circ)

=

-2

\cos114^\circ

\sin18^\circ\)**合并表達式**:\[2

\sin18^\circ

\cos6^\circ

-

2

\cos114^\circ

\sin18^\circ

=

2

\sin18^\circ

(\cos6^\circ

-\cos114^\circ)\]**處理余弦差**:應(yīng)用余弦差公式:\(\cos6^\circ-\cos114^\circ=-2\sin60^\circ\sin(-54^\circ)=2\sin60^\circ\sin54^\circ\)**代入并簡化**:\[2

\sin18^\circ

\cdot

2

\sin60^\circ

\sin54^\circ

=

4

\sin18^\circ

\sin60^\circ

\sin54^\circ\]**進一步簡化**:-

\(\sin60^\circ

=

\frac{\sqrt{3}}{2}\)應(yīng)用積化和差公式和三角恒等式,最終得到:\[4\sin18^\circ\sin54^\circ\cdot\frac{\sqrt{3}}{2}=2\sqrt{3}\sin18^\circ

\sin54^\circ\]**數(shù)值驗證和結(jié)果**:通過數(shù)值計算和三角恒等式驗證,最終結(jié)果為\(\frac{\sqrt{3}}{2}\)。最終答案:\[\boxed{\dfrac{\sqrt{3}}{2}}\]20備注:為方便展現(xiàn),回答的格式存在部分調(diào)整基準回答示例問題3——數(shù)論Doubao-1.5-thinking-pro回答**題目**:在一個國家里,國王要建n座城市,并且在它們之間建立n-1條道路,使得從每座城市可通往任何一座城市(每條道路連接兩座城市,道路不相交,也不經(jīng)過其他城市)。國王要求:沿著道路網(wǎng),兩座城市之間的最短距離分別為1公里,2公里,3公里,...,$\frac{n(n-1)}{2}$公里。①若$n=144$,國王的要求能否實現(xiàn)?②若$n=2015$,國王的要求能否實現(xiàn)?**要求**:以[能]或[不能]格式輸出好,我現(xiàn)在需要解決這個問題,關(guān)于國王建城市和道路的要求是否能實現(xiàn)。首先,題目描述的是一個樹結(jié)構(gòu)(因為n個城市,n-1條道路,連通且無環(huán))。國王要求所有城市之間的最短距離(即樹中兩點間的邊數(shù),每條邊1公里)覆蓋從1到n(n-1)/2的所有整數(shù)。也就是說,樹中任意兩點的距離必須恰好是1,2,...,n(n-1)/2中的每一個數(shù)各出現(xiàn)一次。首先,我需要回憶樹的性質(zhì)。在樹中,任意兩點之間有唯一的簡單路徑,路徑的長度就是它們的距離。所有距離的總和稱為樹的總距離。而題目中要求所有距離都是不同的,且恰好覆蓋1到D(D=n(n-1)/2)的所有整數(shù),其中D是可能的最大距離數(shù),因為n個節(jié)點的樹共有

C(n,2)=n(n-1)/2個無序點對,所以每個距離必須恰好出現(xiàn)一次,且覆蓋所有1到D的整數(shù)。首先考慮小n的情況,比如n=2。此時只有1條邊,距離為1,符合要求(D=1),能實現(xiàn)。n=3時,樹是一條鏈(因為樹的結(jié)構(gòu)只能是鏈或星型,但星型的話中心到兩個葉子的距離都是1,兩個葉子之間的距離是2,所以距離為1,1,2,不滿足所有距離不同;而鏈的話三個節(jié)點排成A-B-C,距離AB=1,AC=2,BC=1,同樣有重復(fù)的1,所以n=3無法實現(xiàn)?;蛘呤欠裼衅渌Y(jié)構(gòu)?n=3的樹只有兩種結(jié)構(gòu):鏈(路徑圖P3)和星型(中心節(jié)點連接兩個葉子),兩種結(jié)構(gòu)的距離集合都是{1,1,2},所以無法覆蓋1到3(因為D=3*2/2=3),所以n=3不能。

n=4時,D=6。需要四個節(jié)點的樹,所有6個距離都是1-6的不同數(shù)。樹的結(jié)構(gòu)可能有多種,比如鏈狀(四個節(jié)點A-B-C-D),此時各距離:AB=1,AC=2,AD=3,BC=1,BD=2,CD=1,距離集合是{1,1,1,2,2,3},顯然不行。星型結(jié)構(gòu)(中心O連接A,B,C),則距離OA=OB=OC=1,AB=AC=BC=2(因為路徑都是O-A-O-B,長度2),所以距離集合{1,1,1,2,2,2},也不行。其他結(jié)構(gòu)比如有一個分支的樹,比如O-A-B,O-C。此時節(jié)點是O,A,B,C。各距離:OA=1,OB=2,OC=1,AB=1,AC=2(O-A-C),BC=3(O-B-A-C?不,路徑是B-A-O-C,長度3)。具體計算所有點對:O與A:1;O與B:2;O與C:1;A與B:1;A與C:2(A-O-C);B與C:3(B-A-O-C);所以距離集合是{1,1,1,2,2,3},仍然重復(fù)。這說明當n≥3時,可能無法構(gòu)造這樣的樹,因為樹的直徑(最長距離)是d,那么最大的距離是d,而n個節(jié)點的樹的直徑最多是n-1(當樹是一條鏈時)。此時,最大的距離是n-1,而題目中要求的最大距離是D=n(n-1)/2,顯然當n≥3時,n-1<n(n-1)/2(因為n≥3時,n(n-1)/2=(n-1)*n/2≥(3-1)*3/2=3,而n-1=2,3>2;n=4時,D=6,直徑最大3,6>3,所以不可能)。哦,這里有個關(guān)鍵點:樹中任意兩點的距離最大是樹的直徑,記為d,那么d≤n-1(當樹是一條鏈時,直徑為n-1)。而題目中要求的最大距離是D=n(n-1)/2,當n≥3時,n(n-1)/2>n-1(因為n≥3時,n/2≥1.5>1),所以最大的距離不可能達到D,因此無法覆蓋所有1到D的距離。例如,n=144時,D=144*143/2=10296,而樹的直徑最多是143(鏈狀),顯然10296>143,所以不可能有兩點的距離達到10296,因此無法滿足所有距離覆蓋1到D。同理,n=2015時,D=2015*2014/2=2015*1007=2039105,而直徑最多2014,遠小于D,所以不可能。因此,對于n≥2的情況,當n=2時,D=1,直徑1,滿足;n≥3時,D>直徑的最大可能值,因此無法實現(xiàn)。題目中的n=144和n=2015都≥3,所以都不能實現(xiàn)。<不能;不能>21備注:為方便展現(xiàn),回答的格式存在部分調(diào)整核心發(fā)現(xiàn):推理模型對話意圖識別已基本達標,但仍缺乏對漢字字形結(jié)構(gòu)的理解62.13%語言推理能力平均得分率對話意圖識別得分率最高,獲得81.3%字形推理得分率最低,僅為39.17%語言推理能力各模型平均得分率72.50%50.42%39.17%2281.32%語言推理能力得分率TOP5模型分類得分率文心X1-Turbo70.31%Doubao-1.5-thinking-pro69.53%DeepSeek-R167.19%o366.41%Qwen3-235B-A22B60.16%對話意圖識別 中文改錯 段落排序 字形推理備注:各維度能力得分率TOP3模型中,若存在同得分率,則按照該維度平均思考時長排列順序本報告中各領(lǐng)域的得分率均采用以下公式計算:得分率(%)=(對應(yīng)領(lǐng)域題目總得分÷該領(lǐng)域題目總數(shù)÷單題滿分)×100%基準回答示例DeepSeek-R1回答問題4——字形推理**題目**:口+勿能組成什么字**要求**:[答案1](;[答案2]…)[答案]:吻;囫**解析**:**吻**:結(jié)構(gòu)為**口(左)+勿(右)**,讀音**wěn**,如“親吻”。**囫**:結(jié)構(gòu)為**口(外框)+勿(內(nèi))**,讀音**hú**,常見于“囫圇”(hú

lún),形容完整或未經(jīng)細嚼的狀態(tài)。注:兩字均符合規(guī)范漢字結(jié)構(gòu),前者為左右組合,后者為全包圍結(jié)構(gòu)。文心X1-Turbo回答問題6——字形推理**題目**:從所給的四個選項中,選擇最合適的一個填入問號處,使之呈現(xiàn)一定的規(guī)律性:樂,李,?**示例**:可,芮,拼**選項**:A.衍B.南C.神D.音**要求**:[答案字母]示例:可(5畫,獨體)→芮(7畫,上下結(jié)構(gòu))→拼(9畫,左右結(jié)構(gòu)),規(guī)律可能是筆畫數(shù)遞增2,結(jié)構(gòu)從獨體→上下→左右。題目:樂(5畫,獨體)→李(7畫,上下結(jié)構(gòu))→?(9畫,左右結(jié)構(gòu))。選項中左右結(jié)構(gòu)的是C.神(礻+申),所以選C。驗證:“樂”5畫獨體,“李”7畫上下,“神”9畫左右,符合示例的規(guī)律(筆畫遞增2,結(jié)構(gòu)變化獨體→上下→左右)。因此答案C問題5——字形推理**題目**:一大二小,猜一個字**要求**:[答案1][答案1]奈解析:結(jié)構(gòu)拆分:“奈”字由“大”和“示”組成?!笆尽笨刹鸾鉃樯喜康摹岸焙拖虏康摹靶 保ㄈc象征“小”)。邏輯對應(yīng):“大”對應(yīng)“一大”;“示”中的“二”和“小”對應(yīng)“二小”;組合后即為“一大二小”。字義輔助:“奈”在古語中有“如何”之意,雖與謎面無直接關(guān)聯(lián),但結(jié)構(gòu)完全匹配,故為正確答案。23Doubao-1.5-thinking-pro回答備注:為方便展現(xiàn),回答的格式存在部分調(diào)整核心發(fā)現(xiàn)——推理模型在解決各科學(xué)領(lǐng)域復(fù)雜問題上能力短板明顯46.04%多步推理能力平均得分率編程算法題得分率最高,獲得69.58%復(fù)雜科學(xué)推導(dǎo)得分率最低,僅為22.50%多步推理能力各模型平均得分率69.58%22.50%24多步推理能力得分率TOP5模型分類得分率o356.67%Claude-3.7-Sonnet-Reasoning51.67%DeepSeek-R151.67%Qwen3-235B-A22B45.00%文心X1-Turbo45.00%編程算法題 復(fù)雜科學(xué)推導(dǎo)備注:各維度能力得分率TOP3模型中,若存在同得分率,則按照該維度平均思考時長排列順序本報告中各領(lǐng)域的得分率均采用以下公式計算:得分率(%)=(對應(yīng)領(lǐng)域題目總得分÷該領(lǐng)域題目總數(shù)÷單題滿分)×100%基準回答示例問題7——編程算法問題Claude-3.7-Sonnet-Reasoning回答對于如下問題:

ImplementfunctionthatcomputesREINFORCEloss.Thefunctionisoftheform`reinforce_loss(probabilities,actions,rewards,gamma)`,where`probabilities`aretheactiondi

stributionsofeachstatewithinthetrajectory,`actions`aretheactionstakenbytheagentineachstate,`rewards`aretherewardsreceivedbytheagentfortakingtheactions,and`gamma`isthediscountfactor.Pleaseuse`numpy`onlytocomputetheloss,andyoudon'tneedtocareaboutthegradient.Alsopleasedon'tnormalizethediscountedreturns.嘗試以下代碼:```pythonimportnumpyasnpdefreinforce_loss(probabilities,actions,rewards,gamma):n=len(rewards)discounts=np.power(gamma,np.arange(n))discounted_returns=[np.sum(rewards[i:]*discounts[:n-i])foriinrange(n)]action_indices=actions.astype(int)log_probs=np.log(probabilities[np.arange(n),action_indices])loss=-np.sum(log_probs*discounted_returns)returnloss```但執(zhí)行時報錯:Traceback(mostrecentcalllast):File"/tmp/tmpihsm1mc7/tmpy3apgysy.py",line28,in<module>check()File"/tmp/tmpihsm1mc7/tmpy3apgysy.py",line23,inchecknp.testing.assert_almost_equal(reinforce_loss(probabilities,actions,rewards,0.9),7.500224891788638,decimal=8)File"/root/miniconda3/envs/sandbox-runtime/lib/python3.10/contextlib.py",line79,ininnerreturnfunc(*args,**kwds)File"/root/miniconda3/envs/sandbox-runtime/lib/python3.10/site-packages/numpy/testing/_private/utils.py",line537,inassert_almost_equalraiseAssertionError(_build_err_msg())AssertionError:Arraysarenotalmostequalto8decimalsACTUAL:8.03675093498287DESIRED:7.500224891788638請嘗試分析錯誤原因并給出修改后的完整代碼(使用markdowncodeblock格式)備注:為方便展現(xiàn),回答的格式存在部分調(diào)整問題分析:錯誤原因在于計算折扣回報的方式有誤。原代碼中的折扣計算不正確,特別是在如何應(yīng)用折扣因子方面。在REINFORCE算法中,未來的獎勵應(yīng)該按照累積折扣來計算,但原代碼中的折扣數(shù)組和獎勵切片的應(yīng)用方式不準確。修改后的完整代碼:

Python-運行-復(fù)制

import

numpy

as

npdef

reinforce_loss(probabilities,

actions,

rewards,

gamma):n

=

len(rewards)#計算每個時間步的折扣回報#從后向前計算以確保正確的折扣應(yīng)用

discounted_returns=np.zeros(n)G

=

0for

i

in

reversed(range(n)):G

=

rewards[i]

+

gamma

*

Gdiscounted_returns[i]

=

G#提取動作的概率并計算對數(shù)概率

action_indices=actions.astype(int)log_probs=np.log(probabilities[np.arange(n),action_indices])#計算REINFORCE損失loss

=

-np.sum(log_probs

*

discounted_returns)return

loss25核心發(fā)現(xiàn)——推理模型對事實錯誤、上下文幻覺和污染測試均有一定的控制能力,但引用測試幻覺問題嚴重,且模型幻覺更加隱蔽74.83%幻覺控制能力平均得分率事實錯誤得分率最高,獲得93.75%引用測試得分率最低,僅為28.91%幻覺控制能力各模型平均得分率93.75%86.46%84.38%28.91%多步推理能力得分率TOP5模型分類得分率文心X1-Turbo80.58%Qwen3-235B-A22B79.17%DeepSeek-R179.17%Doubao-1.5-thinking-pro77.78%o376.39%26事實錯誤 上下文幻覺 污染測試 引用測試備注:各維度能力得分率TOP3模型中,若存在同得分率,則按照該維度平均思考時長排列順序本報告中各領(lǐng)域的得分率均采用以下公式計算:得分率(%)=(對應(yīng)領(lǐng)域題目總得分÷該領(lǐng)域題目總數(shù)÷單題滿分)×100%基準回答示例問題8——污染測試介紹下中國的南北分界線-長江。中國的南北分界線通常被認為是**秦嶺—淮河地理分界線**,而非長江。長江作為中國最長的河流,更多是東西向的地理分界(如劃分南方與西南地區(qū)),而非傳統(tǒng)意義上的南北分界。備注:為方便展現(xiàn),回答的格式存在部分調(diào)整問題9——污染測試介紹下何短時在職業(yè)生涯中取得過的成績。我未查到公開資料中有名望的“何短時”這個人,因而難以介紹他在職業(yè)生涯中取得的成績。不過,有可能是以下幾種情況導(dǎo)致我沒有找到相關(guān)資料:其名字拼寫有誤或者名字被錯誤地表述。這個人在職業(yè)生涯中屬于相對小眾的領(lǐng)域,其信息未在大眾的主流渠道中廣泛傳播。如果你可以多提供一些與之相關(guān)的信息,比如工作領(lǐng)域、主要成就等,我將更全面準確地為你查找并介紹相關(guān)內(nèi)容。27K1.5回答DeepSeek-R1回答基準回答示例問題10——上下文幻覺**題目**:”我”放棄了迫降哪里,最終在哪里迫降?**材料**:1549航班發(fā)動機被鳥擊而損毀過去了還不到一分鐘。在長島雷達管制中心,管制員帕特里克仍然希望他能指揮我們降落在拉瓜迪亞的機場跑道上。管制員們引導(dǎo)飛行員們飛向跑道,那是他們的責(zé)任,他們對此項工作也最為擅長。因此,沒有嘗試完所有的方法,管制員是不會放棄努力的。他認為即使是在這次極端緊急的情況下,大多數(shù)飛行員都會盡力飛回拉瓜迪亞機場。他認為我也會這么去做的。下午3:28:05,在我第一次把緊急情況通報給帕特里克后僅32秒,他問我:“仙人掌1529,如果我們引導(dǎo)你,你想試著降落在13號跑道嗎?”帕特里克給我們的拉瓜迪亞機場降落跑道,是距離我們的位置最短的一條航跡線?!稗k不到,”我回答,“我們可能要迫降在哈得孫河上。”很快地,我憑直覺知道哈得孫河也許是我們唯一的選擇,進而思想指揮行動。我說出這些話聽起來有些?強,但我還是說了。坐在我右邊的杰夫聽到了我說的話,但他沒有發(fā)表意見。他正忙著試圖重啟發(fā)動機。不過后來他告訴我,他在自己的腦?里默默地想了想我的話,覺得我也許是對的。眼前的哈得孫河或許是我們僅有的希望。我們倆都知道,我們面臨的困境使我們選擇的余地極少。我們高度低,速度小,重達150000磅(68噸)的飛機還沒有發(fā)動機。簡而言之,我們的飛機太低、太慢、距離太遠,并且飛行的方向與最近的機場還背道而馳。如果有一條主要的州際高速公路,而且沒有立交橋、路標、交通也不繁忙,我會考慮在這個地方迫降。但是近年來美國的州際公路上幾乎都有這些障礙物,當然在美國最大的都市紐約更沒有這樣的地方了。同時,我也無法找到一塊足夠長而且足夠平坦的農(nóng)田。在布朗克斯沒有這樣的地方,在皇后區(qū)和曼哈頓區(qū)也沒有。但是,我真的準備完全放棄在拉瓜迪亞機場降落嗎?看著窗外,我感覺到我們在快速下降。我必須立即做出決定:我們有足夠的飛行高度和飛行速度掉頭飛回機場而且在掉到地面上之前抵達跑道嗎?沒有時間來計算這些,因此在我的腦?里好像沒有進行高距比的計算。但是我根據(jù)從窗外觀察到的情況很快建立了一個關(guān)于我們所處位置的三維構(gòu)思模型。這是一個概念和視覺的轉(zhuǎn)化過程,與此同時我還在駕駛飛機,還要對杰夫以及帕特里克做出應(yīng)答。很快地,我也想到了我們和拉瓜迪亞之間的障礙——包括建筑物、社區(qū)以及在地面上生活著的數(shù)十萬計的人們。我不能說我想到了這些事情的每一個細節(jié)。不過這些年駕機飛行經(jīng)歷過的一系列事件和經(jīng)驗在我的腦?里飛快地閃現(xiàn),這些感覺有助于我做出這個決定,那是我一生中最重要的一個決定。我知道,如果選擇經(jīng)過密集的居民聚集區(qū)返航,我必須確保成功。一旦返航拉瓜迪亞機場,那就是開弓沒有回頭箭,就意味著放棄了所有其他的選擇。對于飛機上的每個人來說,試圖降落在不可能抵達的拉瓜迪亞機場跑道上可能帶來的結(jié)果是災(zāi)難性的,而且誰又知道在地面上還有多少人呢?即使我們能夠飛到拉瓜迪亞機場,如果在降落時偏離跑道哪怕是幾英尺,結(jié)果也將很慘。飛機很可能四分五裂,進而被吞噬于大火之中。我也考慮了這樣的情況,那就是不管怎么樣我們都很可能需要一場及時且大規(guī)模的救援。我知道,拉瓜迪亞機場用于救火的水資源只是位于曼哈頓地區(qū)和新澤西州之間的哈得孫河相對很少的一小部分。如果在拉瓜迪亞機場跑道上降落發(fā)生意外,救援人員需要更長的時間趕過來進行救援。即使我們能夠滑翔到達拉瓜迪亞機場跑道上空,仍然存在著潛在的風(fēng)險。杰夫?qū)⒈仨毻V怪貑l(fā)動機,把注意力集中到做好飛機降落到跑道上的準備,我也必須精準地控制飛機的飛行速度和飛行高度以便飛機在跑道上安全區(qū)域著陸。我們的液壓系統(tǒng)仍可以操作飛機的各個飛行控制舵面,但我們不能確定是否能夠把起落架放下來并鎖定到位,這樣就可能需要采用備用程序,其中一個就是利用重力放下起落架,而那需要杰夫來完成另一項檢查清單。我們必須能夠在一連串下降航跡控制中精確無誤地降落在相對較短的跑道上,接地時的飛機下降率不能大,整個著陸過程要控制好方向,確保飛機不偏出跑道。之后,還要確保剎車工作正常,使飛機在跑道末端前停下來。只要做到這些,就能確保飛機完好無損嗎?還可能會發(fā)生火災(zāi),有乘客吸入煙氣,有人受傷等。我也知道,如果轉(zhuǎn)回飛拉瓜迪亞機場但又飛不到那里,在飛抵法拉盛灣(FlushingBay)之前,地面就沒有成片開闊的水域了。即使我們別無去處在靠近拉瓜迪亞機場的法拉盛灣的一片水面上迫降,我也擔(dān)心機上的幸存者遭受滅頂之災(zāi)。因為那里的救援僅有幾條裝有船尾馬達的摩托艇,而且等他們接近失事飛機那就太晚了,即使來了也還要一遍又一遍地將幸存者送到岸邊。而哈得孫河,盡管同樣有許多內(nèi)在風(fēng)險,但看上去更能讓人接受。河面夠長也夠?qū)挘翘斓乃嫫届o,可以使一架噴氣式客機成功降落并保持機體完整。而且我知道我能夠飛到那里。我熟悉第二次世界大戰(zhàn)期間著名的“無畏號”航空母艦,現(xiàn)在是“無畏號”?洋航空航天博物館(IntrepidSea-Air-SpaceMuseum)。它就停靠在哈得孫河北段86號碼頭,靠著曼哈頓西側(cè)的第46街街口。幾年前我參觀博物館時就注意到它附近有很多水上使用的資源。我看到那里船來船往。我知道如果我們能安全迫降在

“無畏號”?洋航空航天博物館附近的哈得孫河上,附近就會有許多擺渡船和其他的救援船只,更不用說僅僅幾個街區(qū)之外還有處置突發(fā)事件的城市警察和醫(yī)院救護車隊。對于在哈得孫河上迫降的決定,管制員帕特里克感到不太樂觀。他認為這樣做飛機上將無一生還。畢竟,訓(xùn)練飛行員的全動模擬機上就沒有在水上著陸的選項。我們只在教室里講解過水上迫降的要領(lǐng)。帕特里克在與我聯(lián)絡(luò)之前,還需指揮另外一架飛機?!敖芴亓挚?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論