全網熱榜|糖心Vlog一区二区精品_社會新聞

首頁 >新聞 >社會新聞

「0污染」LLM理解基準來了！20000道題14個學科全覆蓋，來自微軟

2025-07-25 12:34:53

來源：

貓眼電影

作者：

张顺兴

手機查看

　　貓眼電影記者李鸾汉報道P6F3X2M7T9QJ8L1B4WZR

新智元報道

編輯：LRST

【新智元導讀】MMLU-CF是一個無污染的多任務語言理解基準測試，旨在更公平、準確地評估大語言模型的能力。顺利获得去污染規則和閉源測試集防止數據泄露，確保評估結果可靠。該基準包含20,000道題目，涵蓋14個學科，驗證集公開透明，測試集閉源防泄露。

近年來，隨着大語言模型（LLM）的不斷進步，如何準確評估其能力已經成為研究的熱點問題。

諸如大規模多任務語言理解基準MMLU（Massive Multitask Language Understanding），在評估大語言模型中起到重要作用。

然而，由於開放原始碼和訓練數據的多樣性，現有基準測試難免存在數據污染問題，影響評估結果的可靠性。

為了给予更為準確、公平的評估，微軟亞洲研究院推出了MMLU-CF，它是基於公開數據源，經過去污染設計的大語言模型理解基準，並已在Huggingface上開放。

MMLU-CF是一個「無污染」的、更具挑戰性的多項選擇題基準數據集。

論文連結：http://arxiv.org/pdf/2412.15194

代碼連結：http://github.com/microsoft/MMLU-CF

數據連接：http://huggingface.co/datasets/microsoft/MMLU-CF

數據集包含20,000道題目，分為10,000道驗證集題目和10,000道測試集題目，其中驗證集開源，測試集閉源，涵蓋健康、數學、物理、商業、化學、哲學、法律、工程等14個學科領域。

MMLU-CF為大語言模型的評估给予了一個更加公平和可靠的基準，不僅幫助研究者準確理解模型的能力，也為未來模型優化给予了寶貴的數據支持。

MMLU-CF的貢獻

消除數據污染

傳統基準測試可能存在數據污染，影響評估的公正性。MMLU-CF顺利获得引入三條去污染規則並擴展數據源，確保測試結果更可靠。

防止惡意數據泄露

研究人員將數據集分為驗證集和測試集，確保測試集保持閉源，避免數據泄漏引發的不公正結果。同時，驗證集開源以促進透明度，便於獨立驗證。

對比結果

評估結果顯示，OpenAI o1在MMLU-CF測試集上的5-shot得分為80.3%，顯著低於其在MMLU上取得的92.3%得分，表明了MMLU-CF基準的嚴格性。

圖1 主流大模型在MMLU-CF的測試集的5-shot得分表現

基準對比

MMLU與MMLU-Pro基準測試主要關注任務的廣度、推理能力和難度，但未考慮數據污染問題。

對於MMLU-CF，研究人員在數據收集時應用了去污染規則，確保避免數據泄露，同時將測試集保持閉源，防止惡意泄露。

以下是幾款主流模型在MMLU與MMLU-CF數據集上的表現與排名變化：

圖2 主流大模型在MMLU-CF和MMLU上的表現與排名

新的基準MMLU-CF擾亂了已評估的語言模型（LM）在MMLU上的性能排名。

排名前三的語言模型：OpenAI o1、Deepseek-R1和Deepseek-V3 ，保持了領先地位，排名沒有任何變化。

有趣的是，在顯著的排名變化（>=3位）中，排名下降的往往比上升的更為顯著。

平均而言，排名下降的語言模型下降了5.14位次，而排名上升的語言模型上升了3.78位次。

這種不對稱性表明，性能大幅下降比上升更容易，這可能是由於預訓練語料庫中的數據污染造成的。

與規模較大的語言模型相比，規模較小的語言模型在新的MMLU-CF基準測試中似乎更具破壞性。

測試集與驗證集的劃分

在MMLU-CF中，研究人員將數據集劃分為測試集和驗證集，並顺利获得計算「絕對分數差異」評估模型的泛化能力。統計結果顯示，約60%的差異值小於0.5，96%的差異值低於1.0，表明測試集和驗證集的評估結果高度一致。

圖3 數據構建流程圖

MMLU-CF的數據構建包括以下幾個步驟：

1.題目收集：從廣泛的開放互聯網域收集問題，保證問題的多樣性。

2.題目清洗：確保收集到的問題質量高，適合用於評估。

3.難度採樣：確保問題的難度分佈合理。

4.大模型檢查：使用GPT-4o、Gemini、Claude模型對數據的準確性和安全性進行檢查。

5.去污染處理：顺利获得去污染處理，確保數據集的無污染性。

最終，MMLU-CF數據集分別包含了10,000道測試集域驗證集題目，同時測試集保持閉源，驗證集則公開以保證透明性。

去污染處理規則

為了避免無意中的污染並評估模型的推理和理解能力，研究人員採用了三條去污染規則：

•規則1：改寫問題，減少模型對已見數據的依賴。

•規則2：打亂選項，避免模型顺利获得記憶選項順序做出正確答案。

•規則3：隨機替換選項，增加模型的推理難度。

圖4 去污染示例

這些規則有效減少了惡意和無意的泄漏風險，確保了數據集的「無污染」性。

參考資料：

http://arxiv.org/pdf/2412.15194

時事1：男喘自慰h女性向av

07月25日,熊猫杯国际足球锦标赛：中国U19男足收获“开门红”,

　　五色雞，身覆絢麗的羽毛，非常的漂亮，長的跟鸞鳥似的，每一頭都有兩米多長，是一種難得的補骨藥。

,云韵爽⋯好大⋯快⋯深。

07月25日,【良法善治】习言道｜更好发挥宪法在治国理政中的重要作用,

　　光芒一閃，信件消失。

,!脱让学生免费网站,熊出没纳雅被C❌裸体,肥岳虎狼原文和翻译。

時事2：农村人与禽ZOZ0性伦

07月25日,潘岳：多元一体在新疆,

同上一堂國家安全教育課個人篇27

,色黄婬乱短篇小说霍水小黄书视,سىكسHDXXXX18,炮阁导航官方。

07月25日,外国政要：中国式现代化为“全球南方”国家提供借鉴范本,

　　一群人議論，但並沒有忘記戒備，向着山中進發，每一個人都心有期待，不說得到山寶，若是能意外得到其他靈藥也不虛此行了。

,91亚洲码,羞羞漫画❌黄漫免费下载,中原中也哭着太宰停下治。

時事3：黑土被爆❌自慰naruto

07月25日,11月15日起，粤港澳三地推出3项两地牌车辆管理便利措施,

　　小孤山鎮人心惶惶，各大部族、各地強者全都開始逃離，以最快的速度沖向大地盡頭，再也不願多呆哪怕片刻鐘。

,韩漫被❌到爽🔞流小说,云曦柳神3D同人18❌AV网址,国产➕无码➕成人免费。

07月25日,第十三届藏传佛教教义阐释研讨会在北京举行,

　　「什麼？」遠處，那群凶寇眼睛差點瞪出來，那麼龐大的一頭祭靈，竟然被撼動了。

,国产精品亚洲AV天传媒,免费的看黄短剧的软件,a点w片在线。

時事4：希格雯被打开双腿灌满白浆的视频

07月25日,浙江温州警方通报一汽车碰撞4辆电动车：造成3人受伤,

　　雷明遠低喝，發動攻擊，紫山昆也再次出手向前衝來。

,u蓝仙气奶狗正太正版,亚洲AV无码久久久久久精品酒店,米塔被❌到爽🔞流下载。

07月25日,以金融高质量发展助力强国建设、民族复兴伟业,

　　床上的老人疑惑，在這彌留之際，竟見到這樣一個從未見過的孩子，這般稱呼他，他迷茫地看着。

,看美女隐私㊙️免费视频,星野大战光头哥免费播放,丝❌❌❌流水大叫。

【环境式戏曲为中国传统戏曲注入新活力】

【广西南宁电信网络诈骗立案数同比下降37%】

責編：王文雄

審核：黄辉冯

責編：乐正

相關推薦換一換

凯发k8国际

「0污染」LLM理解基準來了！20000道題14個學科全覆蓋，來自微軟

同上一堂國家安全教育課個人 篇27

「0污染」LLM理解基準來了！20000道題14個學科全覆蓋，來自微軟

同上一堂國家安全教育課個人篇27