凯发k8国际

搜索 貓眼電影 融媒體矩陣
  • 山東手機報

  • 貓眼電影

  • 大眾網官方微信

  • 大眾網官方微博

  • 抖音

  • 人民號

  • 全國黨媒平台

  • 央視頻

  • 百家號

  • 快手

  • 頭條號

  • 嗶哩嗶哩

首頁 >新聞 >社會新聞

「0污染」LLM理解基準來了!20000道題14個學科全覆蓋,來自微軟

2025-07-25 12:34:53
來源:

貓眼電影

作者:

张顺兴

手機查看

  貓眼電影記者 李鸾汉 報道P6F3X2M7T9QJ8L1B4WZR

新智元報道

編輯:LRST

【新智元導讀】MMLU-CF是一個無污染的多任務語言理解基準測試,旨在更公平、準確地評估大語言模型的能力。顺利获得去污染規則和閉源測試集防止數據泄露,確保評估結果可靠。該基準包含20,000道題目,涵蓋14個學科,驗證集公開透明,測試集閉源防泄露。

近年來,隨着大語言模型(LLM)的不斷進步,如何準確評估其能力已經成為研究的熱點問題。

諸如大規模多任務語言理解基準MMLU(Massive Multitask Language Understanding),在評估大語言模型中起到重要作用。

然而,由於開放原始碼和訓練數據的多樣性,現有基準測試難免存在數據污染問題,影響評估結果的可靠性。

為了给予更為準確、公平的評估,微軟亞洲研究院推出了MMLU-CF,它是基於公開數據源,經過去污染設計的大語言模型理解基準,並已在Huggingface上開放。

MMLU-CF是一個「無污染」的、更具挑戰性的多項選擇題基準數據集。

論文連結:http://arxiv.org/pdf/2412.15194

代碼連結:http://github.com/microsoft/MMLU-CF

數據連接:http://huggingface.co/datasets/microsoft/MMLU-CF

數據集包含20,000道題目,分為10,000道驗證集題目和10,000道測試集題目,其中驗證集開源,測試集閉源,涵蓋健康、數學、物理、商業、化學、哲學、法律、工程等14個學科領域。

MMLU-CF為大語言模型的評估给予了一個更加公平和可靠的基準,不僅幫助研究者準確理解模型的能力,也為未來模型優化给予了寶貴的數據支持。

MMLU-CF的貢獻

消除數據污染

傳統基準測試可能存在數據污染,影響評估的公正性。MMLU-CF顺利获得引入三條去污染規則並擴展數據源,確保測試結果更可靠。

防止惡意數據泄露

研究人員將數據集分為驗證集和測試集,確保測試集保持閉源,避免數據泄漏引發的不公正結果。同時,驗證集開源以促進透明度,便於獨立驗證。

對比結果

評估結果顯示,OpenAI o1在MMLU-CF測試集上的5-shot得分為80.3%,顯著低於其在MMLU上取得的92.3%得分,表明了MMLU-CF基準的嚴格性。

圖1 主流大模型在MMLU-CF的測試集的5-shot得分表現

基準對比

MMLU與MMLU-Pro基準測試主要關注任務的廣度、推理能力和難度,但未考慮數據污染問題。

對於MMLU-CF,研究人員在數據收集時應用了去污染規則,確保避免數據泄露,同時將測試集保持閉源,防止惡意泄露。

以下是幾款主流模型在MMLU與MMLU-CF數據集上的表現與排名變化:

圖2 主流大模型在MMLU-CF和MMLU上的表現與排名

新的基準MMLU-CF擾亂了已評估的語言模型(LM)在MMLU上的性能排名。

排名前三的語言模型:OpenAI o1、Deepseek-R1和Deepseek-V3 ,保持了領先地位,排名沒有任何變化。

有趣的是,在顯著的排名變化(>=3位)中,排名下降的往往比上升的更為顯著。

平均而言,排名下降的語言模型下降了5.14位次,而排名上升的語言模型上升了3.78位次。

這種不對稱性表明,性能大幅下降比上升更容易,這可能是由於預訓練語料庫中的數據污染造成的。

與規模較大的語言模型相比,規模較小的語言模型在新的MMLU-CF基準測試中似乎更具破壞性。

測試集與驗證集的劃分

在MMLU-CF中,研究人員將數據集劃分為測試集和驗證集,並顺利获得計算「絕對分數差異」評估模型的泛化能力。統計結果顯示,約60%的差異值小於0.5,96%的差異值低於1.0,表明測試集和驗證集的評估結果高度一致。

圖3 數據構建流程圖

MMLU-CF的數據構建包括以下幾個步驟:

1.題目收集:從廣泛的開放互聯網域收集問題,保證問題的多樣性。

2.題目清洗:確保收集到的問題質量高,適合用於評估。

3.難度採樣:確保問題的難度分佈合理。

4.大模型檢查:使用GPT-4o、Gemini、Claude模型對數據的準確性和安全性進行檢查。

5.去污染處理:顺利获得去污染處理,確保數據集的無污染性。

最終,MMLU-CF數據集分別包含了10,000道測試集域驗證集題目,同時測試集保持閉源,驗證集則公開以保證透明性。

去污染處理規則

為了避免無意中的污染並評估模型的推理和理解能力,研究人員採用了三條去污染規則:

•規則1:改寫問題,減少模型對已見數據的依賴。

•規則2:打亂選項,避免模型顺利获得記憶選項順序做出正確答案。

•規則3:隨機替換選項,增加模型的推理難度。

圖4 去污染示例

這些規則有效減少了惡意和無意的泄漏風險,確保了數據集的「無污染」性。

參考資料:

http://arxiv.org/pdf/2412.15194

 時事1:男喘自慰h女性向av

  07月25日,熊猫杯国际足球锦标赛:中国U19男足收获“开门红”,

  五色雞,身覆絢麗的羽毛,非常的漂亮,長的跟鸞鳥似的,每一頭都有兩米多長,是一種難得的補骨藥。

,云韵爽⋯好大⋯快⋯深。

  07月25日,【良法善治】习言道|更好发挥宪法在治国理政中的重要作用,

  光芒一閃,信件消失。

,!脱让学生免费网站,熊出没纳雅被C❌裸体,肥岳虎狼原文和翻译。

 時事2:农村人与禽ZOZ0性伦

  07月25日,潘岳:多元一体在新疆,

同上一堂國家安全教育課個人 篇27

,色黄婬乱短篇小说霍水小黄书视,سىكسHDXXXX18,炮阁导航官方。

  07月25日,外国政要:中国式现代化为“全球南方”国家提供借鉴范本,

  一群人議論,但並沒有忘記戒備,向着山中進發,每一個人都心有期待,不說得到山寶,若是能意外得到其他靈藥也不虛此行了。

,91亚洲码,羞羞漫画❌黄漫免费下载,中原中也哭着太宰停下治。

 時事3:黑土被爆❌自慰naruto

  07月25日,11月15日起,粤港澳三地推出3项两地牌车辆管理便利措施,

  小孤山鎮人心惶惶,各大部族、各地強者全都開始逃離,以最快的速度沖向大地盡頭,再也不願多呆哪怕片刻鐘。

,韩漫被❌到爽🔞流小说,云曦柳神3D同人18❌AV网址,国产➕无码➕成人免费。

  07月25日,第十三届藏传佛教教义阐释研讨会在北京举行,

  「什麼?」遠處,那群凶寇眼睛差點瞪出來,那麼龐大的一頭祭靈,竟然被撼動了。

,国产精品亚洲AV天传媒,免费的看黄短剧的软件,a点w片在线。

 時事4:希格雯被打开双腿灌满白浆的视频

  07月25日,浙江温州警方通报一汽车碰撞4辆电动车:造成3人受伤,

  雷明遠低喝,發動攻擊,紫山昆也再次出手向前衝來。

,u蓝仙气奶狗正太正版,亚洲AV无码久久久久久精品酒店,米塔被❌到爽🔞流下载。

  07月25日,以金融高质量发展助力强国建设、民族复兴伟业,

  床上的老人疑惑,在這彌留之際,竟見到這樣一個從未見過的孩子,這般稱呼他,他迷茫地看着。

,看美女隐私㊙️免费视频,星野大战光头哥免费播放,丝❌❌❌流水大叫。

【环境式戏曲为中国传统戏曲注入新活力】

【广西南宁电信网络诈骗立案数同比下降37%】

責編:王文雄

審核:黄辉冯

責編:乐正

相關推薦 換一換