凯发k8国际

搜索 貓眼電影 融媒體矩陣
  • 山東手機報

  • 貓眼電影

  • 大眾網官方微信

  • 大眾網官方微博

  • 抖音

  • 人民號

  • 全國黨媒平台

  • 央視頻

  • 百家號

  • 快手

  • 頭條號

  • 嗶哩嗶哩

首頁 >新聞 >社會新聞

任務級獎勵提升AppAgent思考力,淘天提出-R1,3B模型超32B

2025-07-25 12:57:50
來源:

貓眼電影

作者:

徐茂明

手機查看

  貓眼電影記者 涂恬 報道P6F3X2M7T9QJ8L1B4WZR

-R1團隊 投稿量子位 | 公眾號 QbitAI

現有/APP Agent的工作可以適應實時環境,並執行動作,但由於它們大部分都僅依賴於動作級獎勵(SFT或RL)。

而這些獎勵只能引導代理預測每一步中最佳的單一動作,因此難以應對不斷變化的移動環境。

比如一句指令:「打開飛豬,進入酒店套餐,進入熱門直播,找到飛豬超級VIP,並關注主播」。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團算法技術-未來生活實驗室&點淘算法團隊聯合提出,採用多回合、任務導向的學習方式,結合在線學習和軌跡糾錯,也許能提高Agent的適應性和探索能力。

他們提出了個具有任務級獎勵(Task-level Reward)的交互式強化學習框架,即-R1。

為了確保訓練的穩定性,團隊提出了一個三階段訓練過程:格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集,證明了該方法在移動代理領域的有效性。

結果-R1順利地完成了這一任務。

軌跡數據集

團隊使用Qwen2.5-VL-3B執行一系列任務取得初始軌跡,並人工標註這些初始軌跡,得到了高質量的軌跡數據集。

其構造可以分為數據收集和軌跡標註兩部分,最終得到了4,635條高質量的人工標註軌跡,包含24,521個單步數據。

△軌跡數據集構造流程

第一时间,選擇了28個中國移動應用程式,顺利获得人工設計和自動生成相結合的方法創建了多樣化的任務指令,隨後統一經過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執行這些指令後,成功收集了大量動作執行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執行的動作以及對應的工具調用。

得到軌跡後,針對模型的輸出做了以下三個維度的標註:

邏輯思考:將所有思考修正為「當前狀態+下一步的動作+動作目的」的格式,比如「當前在手機主屏(當前狀態),下一步是點擊淘寶圖標(下一步動作)來進入淘寶(動作目的)」。如果原思考內容錯誤也會人工標註者會按照該格式重寫思考。清晰動作:清晰動作是單步可執行操作的一句話描述,動作應符合思考的內容並且可有助于任務的完成。準確調用:人工標註者會修正錯誤的操作調用,包括類型錯誤以及參數錯誤。訓練流程

訓練流程由三個階段構成,基於Qwen2.5-VL-3B。這三個階段分別是初始格式微調、動作級在線訓練和任務級在線訓練。

Stage1:初始格式微調

在第一階段,對模型進行初始格式微調。這一步是顺利获得監督微調(SFT)的方式進行的,使用的是之前人工標註的高質量軌跡數據集。在微調過程中,模型不僅會學習如何將用戶的指令與當前的GUI狀態對應起來,還會調整輸出格式以符合預期的結構,包括邏輯思考、清晰動作和準確調用。

Stage2:動作級在線訓練

在第二階段,模型顺利获得群體相對策略優化(GRPO)進行動作級在線訓練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成,其中可驗證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結構化、可解釋的。

動作級獎勵。1)對於基於坐標的動作(如點擊、滑動),如果預測的坐標落在目標GUI元素的真實邊界框內,則獎勵為1,否則為0。2)對於非坐標的動作(如輸入文本),如果預測的動作或參數與真實值完全匹配,則獎勵為1,否則為0。格式獎勵。格式獎勵促使模型生成符合標籤和結構要求的輸出,確保響應的邏輯思考、動作以及工具調用的格式化。

Stage3:任務級在線訓練

在第三階段,顺利获得多步驟任務級在線訓練來提高模型的泛化能力和探索能力。

在動態的移動環境中,模型需要進行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應格式的遵循,同時評估任務的完成情況。

軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務的完成情況。格式獎勵。格式獎勵在此階段仍然起着重要作用,為整個軌跡計算平均格式獎勵,並顺利获得[-1, 1]的範圍來對錯誤施加更嚴格的懲罰,以增強輸出的精確度。

訓練的部分階段在淘天自研的強化學習框架ROLL上進行實驗。

實驗結果

實驗中,主要評估了模型在自定義benchmark上的性能,並進行了針對模型泛化能力的魯棒性分析,以驗證-R1的表現。

△整體實驗結果,粗體表示最佳結果,下劃線表示次優結果

結果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現類似。

其中,AgentCPM-8B 由於專為中國移動生態系統優化,因此在中文場景中表現優異。更為顯著的是,-R1在所有基準中表現最佳,任務成功率達到49.40,比最優秀的baseline model高出將近20點。

Stage 3的訓練進一步增強了-R1的表現,其成功率比只有階段1和階段2訓練的模型高出1.4點,這得益於任務級GRPO的有效應用。

特別值得注意的是,顺利获得階段1和階段2的訓練,Qwen2.5-VL-3B模型的表現超越了其標準版本,並在多項指標上領先於其他基準模型,突顯了動作級和任務級獎勵機制的重要性。

△Stage 3訓練的獎勵曲線

此過程中,Stage 3的獎勵分數顯示出在前四個訓練步驟中穩步增長,表明學習過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由於策略過於激進或探政策的改變導致的不穩定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優化和改進。

-R1在處理未見應用時表現出良好的泛化性,而其他模型在泛化能力上存在挑戰。-R1的優異表現主要歸功於Stage 3的訓練,這一階段有效增強了模型的魯棒性和適應性。

△魯棒性分析結果,粗體表示最佳結果

最後總結,在本文中,-R1顺利获得在動態環境中整合交互式強化學習與任務級獎勵,顯著提升了基於視覺語言模型(VLM)的移動代理的能力。

顺利获得包括格式微調、動作級GRPO訓練和任務級GRPO訓練在內的三階段訓練過程,克服了以往方法僅依賴單一動作預測的局限性。

實驗結果表明,-R1在所有指標上都超越了所有基準。此外,團隊計劃全面開源相關資源以促進進一步的研究。

論文連結:http://arxiv.org/abs/2506.20332項目主頁:http://-r1.github.io/-R1/訓練框架參考:http://github.com/alibaba/ROLL/開源數據: http://huggingface.co/datasets/PG23/-R1

 時事1:色情网18㊙️免费无码游戏

  07月25日,【我们共芳华——党外人士话复兴】北京大学人民医院院长王俊:一个医生得到的最高褒赏,不是说多么聪明、有什么显赫的地位,而是病人说:“找到你,我就放心了”,

  飛過一片石崖時,它的鐵翅與巨石撞在了一切,劈碎了一大片崖壁,而它自己也差點一頭栽下去。

,我的🍌伸进女同学🍑。

  07月25日,京西电竞节在京开幕 设置《黑神话:悟空》线下体验专区,

  「爺爺,我要變強!」小不點從來沒有像今天這般渴望力量,然而他在石村的修行到了頂點,沒有什麼可學的了。

,一女被多人伦轩的4P文视频,周防有希18❌本子免费,乱肉yin荡系列合集txt。

 時事2:孟子义扒开让我c了一夜

  07月25日,澳门沉浸式儿童剧《捣蛋托管班》西安上演湖南湘江新区大成企业研究院揭牌 研究民企创新发展,

  「請柳神指點,原始真解到底怎麼修行?」族長替小不點詢問,這關乎其未來。

,进入羊的水门视频,灰原哀被狂揉下部❌,精品国产乱码久久久久久动漫。

  07月25日,2019年来新疆兵团药品和医用耗材集采已节约医疗费用逾15亿元,

  縣委、縣政府將全力支持*集團在我縣的投資开展。今天參加儀式的縣直有關委局要從全縣經濟社會开展大局出發,結合各自工作職能,持续主動、盡職盡責地支持和幫助該項目順利實施。也希望*集團立足、紮根,簽約項目早日落地開工,造福人民群眾。

,成人㊙️免费网连接,黑人大鷄巴一級,被学长抱进小树林c个爽动漫。

 時事3:被绑在tk机上憋尿挠乳头文章

  07月25日,今年以来中欧班列(合肥)跑出“加速度” 新增5条新线路,

  為首的白衣女子噗嗤一笑,烏黑長髮隨風而飄動,瑩白的肌膚閃動惑人的光澤,眸波流轉,道:「這個孩子不簡單,就當結了一個善緣吧。」

,他摸着我的两个奶我下面好湿,扒开美女疯狂桶难受,91麻豆精品aV一区二区三区在线。

  07月25日,打造“佛山之心” 迈出城市中心“全域中心化”新步伐,

  「嗷嗚……青鱗鷹大嬸回來啦!」一群孩子大叫。

,玩弄银龙王粉嫩的小奶头小说,巜一边亲一边摸下奶韩国,大胸女被c黄秘应用。

 時事4:奇优❤️影院

  07月25日,成群“大波浪”盘羊现身黄河源头 爬山身姿矫健,

  「毛球,你個敗家子兒!」小不點又氣又遺憾,揪着它的尾巴倒提了起來,即便如此,毛球都沒有松嘴,用力咬着蛋殼,吊在那裏,拚命磨牙。

,操女人骚逼,淫乱网站,阿蕾奇诺裸体被❌涩涩动漫,公开调教露出当众玩弄。

  07月25日,国家统计局:造假是统计领域最大腐败,

  今天,我們在這裏召開全室大會,對室機關黨委進行換屆選舉,這是我們政治生活中的一件大事,也是我們政研室今年的一項重要工作。剛才,志宏同志代表室機關黨委作了重要,回顧總結了第二屆本室機關黨委工作,部署了新一屆機關黨委的工作任務。大會還顺利获得選舉產生了新一屆的機關黨委。在此,我代表室領導班子向大會圓滿召開和新當選的機關黨委委員表示熱烈的祝賀!對上一屆機關黨委委員所付出的辛勤勞動表示衷心的感謝!藉此機會,我想對全室特別是新一屆機關黨委成員提幾點希望和要求,與大家共勉。

,美女裸体❌挤奶视频网站,www.深夜成人直播爱豆,艾莎被扒开双腿疯狂输出小说。

【国家林草局:今年我国将完成国土绿化1亿亩】

【四川甘孜州全力保障滞留车辆顺利过境】

責編:陈川平

審核:张建胜

責編:王安龙

相關推薦 換一換