凯发k8国际

搜索 貓眼電影 融媒體矩陣
  • 山東手機報

  • 貓眼電影

  • 大眾網官方微信

  • 大眾網官方微博

  • 抖音

  • 人民號

  • 全國黨媒平台

  • 央視頻

  • 百家號

  • 快手

  • 頭條號

  • 嗶哩嗶哩

首頁 >新聞 >社會新聞

One image is all you need多模態指令數據合成,只管給圖給Oasis

2025-07-23 04:32:01
來源:

貓眼電影

作者:

贾晓宁

手機查看

  貓眼電影記者 姜枣茶 報道P6F3X2M7T9QJ8L1B4WZR

近年來,多模態指令數據合成方法多依賴人工設計複雜的合成提示詞(prompt),耗費大量人力與時間成本。在文本數據合成領域,MAGPIE [1] 是一個非常成功的合成方法,該方法無需用戶给予任何 prompt,僅以 <|im_start|> 這類特殊 token 作為模型輸入,即可完成數據合成。

受啟發於 MAGPIE,本文中來自同濟大學、字節跳動和愛丁堡大學的研究者提出了一種新型多模態指令數據合成方法,只需用戶给予圖片(即,VLM 中常用的特殊 token ),Oasis 會自動完成指令合成、質量控制和回復生成,產出高質量的數據。

同時,為了支持進一步研究,該研究给予了一個全新的開原始碼庫 MM-INF,該庫涵蓋了 Oasis 和一些常用的多模態數據合成方法,並不斷進行更新維護,歡迎大家試用並给予寶貴的反饋意見。

論文連結:http://arxiv.org/abs/2503.08741代碼連結:http://github.com/Letian2003/MM_INF數據集連結:http://huggingface.co/datasets/WonderThyme/Oasis

研究動機

上圖展示了常用數據合成鏈路與 Oasis 的流程對比,常用的數據鏈路可能會存在以下三類問題:

多樣性缺失:大量方法依賴固定不變的提示詞與合成流程,嚴重限制了數據的覆蓋範圍與難度層次,導致生成數據同質化嚴重;質量不足:現有技術難以穩定產出能顯著提升多模態大語言模型(MLLMs)表徵能力的高質量合成數據,多數研究不得不退而求其次,採用基於圖像描述(caption)的二次生成策略,效果與效率均不理想;依賴人工:流程繁瑣且成本高企。即便看似 「一站式」的合成框架,在關鍵環節(如設計數據模式、編寫提示詞等)仍需大量人工參與,不僅費時費力,還使整個數據合成過程低效且繁瑣。

本文提出的Oasis 僅依靠圖像生成數據,打破了依賴預設文本提示詞( + [text prompt])的傳統多模態輸入模式。 該方法誘導強大的 MLLM 僅基於輸入的圖像(作為 < image> token 輸入),利用其自身的知識和自回歸特性,自主生成多樣化、與圖像內容相關的指令。完全不需要人工给予任何前置的文本提示詞。研究者深入分析了高質量指令應具備的屬性,並據此精心設計了一系列篩選標準,用於自動過濾掉生成指令中的低質量數據。

方法介紹

概述

方法如上圖所示,主要有三個步驟:

構造 「鈎子提示詞(hooking prompt)」以誘導模型進行自回歸採樣;對採樣結果進行分類,只保留指令型採樣結果;進行指令質量控制 & 回復生成。

我們以 Qwen2-VL 為例,詳細介紹這三個步驟。

第一步:構造 「hooking prompt」 誘導模型進行自回歸採樣

以圖像描述為例,一個典型的 MLLM 輸入為 「<|im_start|>User\nDescribe the image.<|im_end|>\n<|im_start|>Assisstant」,MLLM 感知到當前的 role 為 Assistant 後,會生成關於指令的回覆。

我們提取完整輸入中的前綴 「<|im_start|>User\n」,送入到 VLM 中進行採樣,由此生成的回覆是不受任何人為 bias 影響的,唯一的 condition 是圖片自身;

在採樣過程中,生成的數據大致可分為兩類:指令型(instruction-following)和描述型(caption),這一現象可以顺利获得交錯的多模態語言模型(MLLM)圖像 - 文本訓練過程來解釋。

第二步:採樣結果分類

為了僅篩選出指令數據用於後續工作,我們設計了一種分類機制將數據歸入指令型和描述型兩類。

具體而言,我們驅動一個大語言模型(LLM)作為分類器來預測類別。若包含指令,則將其分類為指令遵循型數據,並從中提取一條指令;否則,將其分類為描述型數據並捨棄。我們採用 few-shot 策略以提高分類精度,完整的提示詞模板見附錄。

對於分類為指令型的採樣結果,我們會進行質量控制和回復生成。

第三步:質量控制 & 回復生成

我們從指令的 可解性 / 清晰度 / 幻覺程度 / 無意義性 四個角度,對指令進行篩選,顺利获得篩選的指令會用 Qwen2-VL 進行回復生成,組成一條完整的 「指令 - 回復」 訓練數據;

每個維度均採用 1-5 級評分(1 分表示最差,5 分表示最優):

可解性 (Solvability):評估圖像是否给予足夠的信息來全面回答問題。如果圖像缺失關鍵細節(如對象或上下文),指令可能無法被完全解決。清晰度 (Clarity):評價問題傳達意圖的精確程度。指令應避免模糊性,確保能得出明確答案(例如,避免開放式或含糊的表述)。幻覺程度 (Hallucination):衡量問題內容與圖像實際內容的一致性。指令需避免引入圖像中不存在的信息(如虛構對象或場景)。無意義性 (Nonsense):檢查問題在語法、連貫性和語義上的合理性。指令必須通順、有意義,避免錯誤如語法混亂或邏輯矛盾。

具體的篩選細節見附錄。另外,我們在消融實驗中發現回復的質量控制是無效的,只對指令做質量控制即可。

Oasis-500k

我們基於 Cambrian-10M [2] 的圖片,進行數據生產,最後合成約 500k 的訓練數據,稱之為 Oasis-500k;由於 Oasis 的生產只依賴圖片,所以只要圖片的數量是足夠的,Oasis 可以輕鬆進行 Scaling,數據量級隨着時間是線性增長的。

數據特性分析

我們對 Oasis 合成的數據和開源常用的指令數據 LLaVA-NeXT 進行了一系列屬性的對比,包括指令和回復的長度、語言類型、動名詞組合等。

指令和回復的長度

如上表所示,從指令和回復的平均長度來看,Oasis 數據均長於LLaVA-NeXT,且整體標準差更大。更長的長度表明 Oasis 數據可能包含更豐富的信息,而更大的標準差則說明其數據任務更多元。

語言類型

得益於該方法的自回歸特性,基於圖像的自回歸過程不會引入顯式語言偏差,因此生成的指令覆蓋廣泛語種。藉助 langdetect 庫,對 Oasis-500k 數據的語言類型分佈進行可視化分析發現:除英文(78.52%)和中文(18.66%)外,還包含韓語、挪威語、越南語、法語、德語等小語種,語言多樣性顯著。

動詞名詞組合

基於 spaCy 庫,解析了數據集的根動詞(root verbs)與高頻名詞對象(top noun objects,即出現頻率超過 1% 的根動詞及與其關聯的前 3 位名詞對象)。上圖展示了兩類數據中最常見的根動詞及對應名詞對象分佈,相較 LLaVA-NeXT,Oasis 數據的根動詞具有以下優勢:

表達自然性:覆蓋更自然實用、信息量更豐富的動詞語彙;對象多樣性:高頻名詞對象呈現更豐富的語義分佈。

值得注意的是,LLaVA-NeXT 對 「answer question」 組合的高度依賴,反映出其在任務設計上可能過度偏重問答(QA)場景。

數據示例

Oasis 數據集的示例如圖所示,可見 Oasis 的指令生成能力很強,可基於圖像主題生成細節豐富且信息密度高的指令。另外生成的任務覆蓋廣度好,涵蓋跨領域任務場景,如目標識別(Object Recognition)、場景描述(Scene Description)和代碼理解(Code Comprehension)等。這些可視化同樣佐證了前文關於數據多樣性的觀點。

實驗結果

Oasis 有效性

我們將 LLaVA-NeXT 設置為 baseline,在其 SFT 數據上做增量改進,觀察相對於 baseline 的提升。我們在 14 個 benchmark 上對基於 Oasis 訓練的 MLLM 進行了全面評估。

如上表所示,Oasis 作為基線的增量數據引入,較基線實現全面且顯著的性能提升。

在 Vicuna1.5/Qwen2.5/Llama3 等基座網絡上,平均提升分別 3.1%/1.8%/3.2%;以 Vicuna-7B-v1.5 為例,通用知識 MMBench-EN/CN 準確率提升 + 1.4% / +2.3%;OCR 任務 TextVQA 與 OCRBench 精度分別提高 2.7% 和 2.1%;在文檔分析任務上較基線提升 4.3% 和 6.3%;

上述結果不僅證明了合成數據的多樣性,更揭示了 Oasis 在增強 MLLM 泛化能力上的有效性。

對比其他合成方法

除了 Oasis 數據,我們引入了 4 種增量改進,來進一步說明 Oasis 的有效性。

Oasis 圖片的原始標註數據(指令 + 回復),驗證 SFT 圖片多樣性增加的影響;LLaVA-NeXT 原始 SFT 數據的上採樣,排除數據量級對效果的影響;MMEvol 數據 [3]DenseFusion-1M 數據 [4]

如上表所示,Oasis 作為增量數據引入時,依然表現出了更好的綜合性能,再一次佐證關於數據多樣性的觀點;

數據 Scaling 效果

我們基於 100k 的 LLaVA-NeXT 數據,對 Oasis 的數據量進行了 3 組 Scaling 實驗,即,在 LLaVA-100k 的基礎上分別加入 150k/300k/500k 的 Oasis 合成數據。整體趨勢上來看,Oasis 數據量從 0 增至 500k 的過程中,模型性能穩定提升,添加 500k 條 Oasis 數據後,平均得分提高 5.2%;300k→500k 帶來了 + 4.0% 的顯著增益,也進一步說明該數據的可擴展性;

垂域數據合成能力

受益於 Oasis 只依賴圖片輸入的特性,它非常善於合成垂類的數據。我們以 OCR 為例,驗證 Oasis 在垂域數據合成上的有效性。我們從 Cambrian-10M 中篩選出了 24 個和 OCR 相關的數據集(共 311k 圖片),然後基於這些圖片進行 Oasis 數據合成了 70k 的垂域訓練數據。如上表所示,這份 OCR 垂域數據在 OCR 相關的 benchmark 上帶來了非常明顯的提升。另外如上圖所示,Oasis 合成的數據不僅僅關注文字提取任務,同樣也考察了模型對於上下文的理解、屬性推理等能力。

消融實驗

描述數據的回收利用

在數據合成流程的第二步中,我們使用了 LLM 來對第一步中模型自回歸採樣出的數據進行篩選,去掉 caption 類型的數據。這一步的顺利获得率為 49.9%,佔比約一半的 caption 類型數據被丟棄,這導致合成效率受到較大的影響。

因此,我們採用一些策略來對此類 caption 數據進行回收利用。第一时间,我們使用一些規則來對數據中的特殊字段(如亂碼等)進行去除。然後,我們使用 Qwen2.5-72B-Instruct LLM 來對 caption 數據的質量進行三個維度評估,最終我們得到了約 250k 的高質量 caption,並與 LLaVA 論文中給出的圖像詳細描述指令進行隨機匹配。

我們在原始的 OASIS 數據上額外加入這 250k 數據進行訓練,如上表所示,加入 caption 後多數指標有上升,並帶來了總體 0.3% 的提升。這說明我們可以低成本地回收利用數據合成過程中被丟棄的數據,並帶來額外的實驗收益。

指令質量控制的必要性

在完成數據分類之後,我們對指令質量進行了控制,從四個維度篩除低質量指令:可解性、清晰度、幻覺成都和無意義內容。為了評估這一質量控制機制對數據質量和模型性能的影響,我們進一步進行了消融實驗。

具體來說,我們使用經過質量控制和未經質量控制的 20 萬條數據分別訓練模型,比較所得模型的性能。在質量篩選過程中,高質量指令的接受率為 50.9%,因此,未經質量控制的 20 萬條數據中,會包含約 10 萬條 「低質量」 指令。

根據上表第二部分展示的實驗結果。在應用質量控制機制的情況下,模型整體性能顯著提升了 1%。在 DocVQA 和 InfoVQA 這兩個任務中,模型性能分別提升了超過 7%。這一結果充分證明了在 Oasis 框架中,數據質量控制機制是非常必要的。

回復質量控制的必要性

為探究響應質量控制的必要性,我們嘗試了兩種低質量響應過濾方法:

負對數似然(NLL)拒絕採樣法:對每條指令採樣 5 個回復,計算其負對數似然,保留置信度最高的回覆作為最終輸出(參考 [5]);多模態大語言模型(MLLM)評分法:使用 Qwen2-VL-72B-Instruct 模型從有用性(helpfulness)、真實性(truthfulness)、指令遵循性(instruction-following)三個維度進行 1-5 分評分,過濾未獲滿分(5 分)的回覆。

如上表所示,證明兩種方法均導致模型平均得分下降(-0.7% 與 -1.6%),證明對回復做質量控制無效甚至有害。高質量指令本身即可驅動 MLLM 生成高質量的回覆,引入對回復的質量控制可能會引入額外的人為 bias;

開原始碼庫 MM-INF

代碼連結:http://github.com/Letian2003/MM_INF

該研究還開源了一個數據合成的 codebase MM-INF。該 codebase 依託於開原始碼庫 ms-swift [6] 實現了一個數據合成引擎,可以串聯起若干個基於 LLM/VLM 的數據合成步驟。代碼庫內涵蓋了 Oasis 的實現以及一些常用的多模態數據合成鏈路(如圖片描述、基於描述生成 QA 等),歡迎大家試用並给予寶貴的反饋意見。

參考文獻

[1] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, ICLR 2025.

[2] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs, NeurIPS 2024.

[3] MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct, arxiv 2409.05840.

[4] DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception, NeurIPS 2024.

[5] SimPO: Simple preference optimization with a reference-free reward, NeurIPS 2024.

[6] http://github.com/modelscope/ms-swift

 時事1:芙宁娜撕内衣挠奶头视频

  07月23日,中国第40次南极考察 “雪龙2”号完成大洋综合调查及走航作业,

  三是要切實加強基層管理力量。实行農村低保工作,關鍵在基層。當前我區各鄉鎮只有1到2名民政助理,管理力量十分薄弱,難以適應農村低保工作的需要。各鄉鎮要高度重視基層管理力量建設,整合鄉鎮行政資源,充實管理力量,努力提高管理水平,確保低保工作落到實處。各鄉鎮要落實專職或兼職人員,將工作職責落實到位到人。要合理安排必要的工作經費,給予農村低保工作人員给予必要的工作條件。要配備低保專用設施設備,將農村低保對象的所有信息全部錄入計算機,實行數據庫管理。要加強對農村低保工作人員的培訓教育,增強低保工作人員特別是基層幹部实行民政工作的責任意識和業務素質。廣大低保工作者要加強學習,準確把握農村低保工作的政策要求,熟練掌握工作程序,提高工作能力和水平,扎紮實實為低保對象服務。

,国产男男被猛男躁免费视频。

  07月23日,广西侗乡:民众喜摘“致富果”,

  6月28日,成都市委召開了慶祝建黨90周年大會,被表彰為成都市40名優秀村(社區)優秀黨組織書記之一。6月29日,x市委召開了慶祝建黨90周年大會,街道黨工委被授予基層黨組織建設的最高榮譽――「五好」街道黨工委,黨總支被授予――「五好」社區黨組織,林天富、陳麗英、劉生宇被表彰為全市優秀共產,被表彰為優秀村(社區)黨組織書記,轄區企業黨組織中\也受到了市委的表彰。這是對我們黨的建設工作的最高褒獎,是各級黨組織和全體共產的共同榮譽。我們一定要以此契機作為新的起點,總結經驗,認清形勢,統一思想,切實擔負起我們的責任,齊心協力、團結一致的投入到濱江街道創新轉型开展的工作中來。

,俺たちのゲームセット百度翻译,韩国nmn和美国nmn,鸣潮涩涩同人❤网站。

 時事2:韩漫被狂❌到高潮的漫画

  07月23日,农业农村部:稳妥推进第二轮土地承包到期后再延长30年试点,

  大戰越發的激烈了,四頭可不想像的至強存在,捨生忘死,激烈爭鋒,有一種可怕氣息沖向八荒,驚懾的萬靈都在顫慄。

,成人免费❌❌❌app,欧产➕日产➕国产精品一二,14女中学生㊙️内裤偷拍图片。

  07月23日,中国驻韩国大使馆举行“新春暖心包”发放仪式,

  這得多敗家啊,什麼樣的家族出來的孩子才能做出這等事情來?

,微信卖偷拍片➕v,西施婬荡高潮叫床小说,少萝扒开腿㊙️让人。

 時事3:韩宝贝18➕仙女屋Tv

  07月23日,两会受权发布丨第十四届全国人民代表大会第二次会议关于全国人民代表大会常务委员会工作报告的决议,

  「不怕,我們有柳神,等以後我們長大了,都會很強大。再憑藉小不點的現在可與太古真犼幼崽搏殺的天資,將來難道還打不下一個大大的國度嗎?」一群孩子很不服氣,都握緊了拳頭。

,美女被捆绑㊙️,妮可基德曼XXXX性视频,国产精品传媒㊙️入口麻豆。

  07月23日,汪文斌:中方将为中柬两国青年交流提供更多平台和机会,

  兩人激烈大戰,轉眼過去了數十招,小不點的背後的銀月突然一顫,一聲禽鳴響起,一頭巨大的太古魔禽浮現,沖了出來,迅速放大,剎那鋪天蓋地,籠罩了山地。

,萌萝社app♥老版入口,禁漫岛3D成人漫画,体育生白袜爆🌿小受睾酮。

 時事4:俄把瓷按在床上生孩子

  07月23日,农业农村部:目前饲料配方中豆粕占比下降至13%,

  「太古神禽與凶獸,天生肉身強大,生來近神,未來的大路寬廣。而人族則不同,由弱小起步,慢慢苦修,億萬生靈中才能超脫出一個,進而為神。」

,静香扒开屁股露出奶头图片,国产chinese男男Gay网站黄,绪山真寻涩涩漫画网站。

  07月23日,一些年轻人缴存个人养老金积极性为何不高?,

開學學校領導講話 篇24

,别让妈妈知道,激情抽插,打白嫩㊙️光屁屁自慰。

【河北邯郸老年空竹队花样舞动“龙抬头”】

【中国杯速度滑冰精英联赛第三站在哈尔滨开赛】

責編:王希文

審核:沃尔纳德斯基

責編:丽塔·阿特金森

相關推薦 換一換