貓眼電影
貓眼電影記者 李鸾汉 報道P6F3X2M7T9QJ8L1B4WZR
新智元報道
編輯:LRST
【新智元導讀】MMLU-CF是一個無污染的多任務語言理解基準測試,旨在更公平、準確地評估大語言模型的能力。顺利获得去污染規則和閉源測試集防止數據泄露,確保評估結果可靠。該基準包含20,000道題目,涵蓋14個學科,驗證集公開透明,測試集閉源防泄露。
近年來,隨着大語言模型(LLM)的不斷進步,如何準確評估其能力已經成為研究的熱點問題。
諸如大規模多任務語言理解基準MMLU(Massive Multitask Language Understanding),在評估大語言模型中起到重要作用。
然而,由於開放原始碼和訓練數據的多樣性,現有基準測試難免存在數據污染問題,影響評估結果的可靠性。
為了给予更為準確、公平的評估,微軟亞洲研究院推出了MMLU-CF,它是基於公開數據源,經過去污染設計的大語言模型理解基準,並已在Huggingface上開放。
MMLU-CF是一個「無污染」的、更具挑戰性的多項選擇題基準數據集。
論文連結:http://arxiv.org/pdf/2412.15194
代碼連結:http://github.com/microsoft/MMLU-CF
數據連接:http://huggingface.co/datasets/microsoft/MMLU-CF
數據集包含20,000道題目,分為10,000道驗證集題目和10,000道測試集題目,其中驗證集開源,測試集閉源,涵蓋健康、數學、物理、商業、化學、哲學、法律、工程等14個學科領域。
MMLU-CF為大語言模型的評估给予了一個更加公平和可靠的基準,不僅幫助研究者準確理解模型的能力,也為未來模型優化给予了寶貴的數據支持。
MMLU-CF的貢獻
消除數據污染
傳統基準測試可能存在數據污染,影響評估的公正性。MMLU-CF顺利获得引入三條去污染規則並擴展數據源,確保測試結果更可靠。
防止惡意數據泄露
研究人員將數據集分為驗證集和測試集,確保測試集保持閉源,避免數據泄漏引發的不公正結果。同時,驗證集開源以促進透明度,便於獨立驗證。
對比結果
評估結果顯示,OpenAI o1在MMLU-CF測試集上的5-shot得分為80.3%,顯著低於其在MMLU上取得的92.3%得分,表明了MMLU-CF基準的嚴格性。
圖1 主流大模型在MMLU-CF的測試集的5-shot得分表現
基準對比
MMLU與MMLU-Pro基準測試主要關注任務的廣度、推理能力和難度,但未考慮數據污染問題。
對於MMLU-CF,研究人員在數據收集時應用了去污染規則,確保避免數據泄露,同時將測試集保持閉源,防止惡意泄露。
以下是幾款主流模型在MMLU與MMLU-CF數據集上的表現與排名變化:
圖2 主流大模型在MMLU-CF和MMLU上的表現與排名
新的基準MMLU-CF擾亂了已評估的語言模型(LM)在MMLU上的性能排名。
排名前三的語言模型:OpenAI o1、Deepseek-R1和Deepseek-V3 ,保持了領先地位,排名沒有任何變化。
有趣的是,在顯著的排名變化(>=3位)中,排名下降的往往比上升的更為顯著。
平均而言,排名下降的語言模型下降了5.14位次,而排名上升的語言模型上升了3.78位次。
這種不對稱性表明,性能大幅下降比上升更容易,這可能是由於預訓練語料庫中的數據污染造成的。
與規模較大的語言模型相比,規模較小的語言模型在新的MMLU-CF基準測試中似乎更具破壞性。
測試集與驗證集的劃分
在MMLU-CF中,研究人員將數據集劃分為測試集和驗證集,並顺利获得計算「絕對分數差異」評估模型的泛化能力。統計結果顯示,約60%的差異值小於0.5,96%的差異值低於1.0,表明測試集和驗證集的評估結果高度一致。
圖3 數據構建流程圖
MMLU-CF的數據構建包括以下幾個步驟:
1.題目收集:從廣泛的開放互聯網域收集問題,保證問題的多樣性。
2.題目清洗:確保收集到的問題質量高,適合用於評估。
3.難度採樣:確保問題的難度分佈合理。
4.大模型檢查:使用GPT-4o、Gemini、Claude模型對數據的準確性和安全性進行檢查。
5.去污染處理:顺利获得去污染處理,確保數據集的無污染性。
最終,MMLU-CF數據集分別包含了10,000道測試集域驗證集題目,同時測試集保持閉源,驗證集則公開以保證透明性。
去污染處理規則
為了避免無意中的污染並評估模型的推理和理解能力,研究人員採用了三條去污染規則:
•規則1:改寫問題,減少模型對已見數據的依賴。
•規則2:打亂選項,避免模型顺利获得記憶選項順序做出正確答案。
•規則3:隨機替換選項,增加模型的推理難度。
圖4 去污染示例
這些規則有效減少了惡意和無意的泄漏風險,確保了數據集的「無污染」性。
參考資料:
http://arxiv.org/pdf/2412.15194
時事1:男喘自慰h女性向av
07月25日,熊猫杯国际足球锦标赛:中国U19男足收获“开门红”,
五色雞,身覆絢麗的羽毛,非常的漂亮,長的跟鸞鳥似的,每一頭都有兩米多長,是一種難得的補骨藥。
,云韵爽⋯好大⋯快⋯深。07月25日,【良法善治】习言道|更好发挥宪法在治国理政中的重要作用,
光芒一閃,信件消失。
,!脱让学生免费网站,熊出没纳雅被C❌裸体,肥岳虎狼原文和翻译。時事2:农村人与禽ZOZ0性伦
07月25日,潘岳:多元一体在新疆,
同上一堂國家安全教育課個人 篇27
,色黄婬乱短篇小说霍水小黄书视,سىكسHDXXXX18,炮阁导航官方。07月25日,外国政要:中国式现代化为“全球南方”国家提供借鉴范本,
一群人議論,但並沒有忘記戒備,向着山中進發,每一個人都心有期待,不說得到山寶,若是能意外得到其他靈藥也不虛此行了。
,91亚洲码,羞羞漫画❌黄漫免费下载,中原中也哭着太宰停下治。時事3:黑土被爆❌自慰naruto
07月25日,11月15日起,粤港澳三地推出3项两地牌车辆管理便利措施,
小孤山鎮人心惶惶,各大部族、各地強者全都開始逃離,以最快的速度沖向大地盡頭,再也不願多呆哪怕片刻鐘。
,韩漫被❌到爽🔞流小说,云曦柳神3D同人18❌AV网址,国产➕无码➕成人免费。07月25日,第十三届藏传佛教教义阐释研讨会在北京举行,
「什麼?」遠處,那群凶寇眼睛差點瞪出來,那麼龐大的一頭祭靈,竟然被撼動了。
,国产精品亚洲AV天传媒,免费的看黄短剧的软件,a点w片在线。時事4:希格雯被打开双腿灌满白浆的视频
07月25日,浙江温州警方通报一汽车碰撞4辆电动车:造成3人受伤,
雷明遠低喝,發動攻擊,紫山昆也再次出手向前衝來。
,u蓝仙气奶狗正太正版,亚洲AV无码久久久久久精品酒店,米塔被❌到爽🔞流下载。07月25日,以金融高质量发展助力强国建设、民族复兴伟业,
床上的老人疑惑,在這彌留之際,竟見到這樣一個從未見過的孩子,這般稱呼他,他迷茫地看着。
,看美女隐私㊙️免费视频,星野大战光头哥免费播放,丝❌❌❌流水大叫。【广西南宁电信网络诈骗立案数同比下降37%】
責編:王文雄
審核:黄辉冯
責編:乐正