機器之心報道
編輯:澤南
Apple Intelligence 進入新的一章。
近期,蘋果發佈了 2025 年 Apple Intelligence 基礎語言模型技術報告。
剛剛加入 Meta 的前蘋果 AI 負責人龐若鳴(Ruoming Pang)發出多條推文進行了介紹。
在報告中,蘋果詳細介紹了訓練新一代模型所用的數據、模型架構、訓練方案、優化推理技術手段,以及與同類模型對比的評估結果。文中重點展示了蘋果如何在提升用戶價值的同時實現功能擴展與質量優化,並大幅提高設備端和私有雲計算的運行效率。
報告連結:http://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025
這次蘋果介紹了兩種多語言、多模態基礎語言模型,可為蘋果設備和服務中的 Apple Intelligence 功能给予支持。其中包括:
1)顺利获得 KV 緩存共享和 2 位量化感知訓練等架構創新,針對蘋果自有晶片進行了優化的 3B 參數設備模型;2)一種可擴展的雲端模型,它結合了新型並行軌道混合專家 (PT-MoE) Transformer 和交錯的全局 - 局部注意力,以便在蘋果的私有雲計算平台上進行有效推理。
這兩款模型均顺利获得負責任的網絡爬取、授權語料庫和高質量合成數據集進行大規模多語言、多模態訓練,並在新的異步平台上顺利获得監督微調和強化學習進一步優化。最終模型不僅支持多種新增語言,還能理解圖像並執行工具調用。
PT-MoE 架構示意圖。每個軌跡 track 由多個軌跡塊組成,每個軌跡塊包含固定數量的 Transformer/MoE 層。假設總層數為 L 層且軌跡塊深度為 D,則同步開銷可從 2L(張量並行)降低至 L/D(軌跡並行)。例如當 D = 4 時,PT 架構可將同步開銷減少 87.5%。
PT Transformer是蘋果研究人員提出的一種新型架構。與僅包含單一順序層堆棧的標準解碼器式 Transformer 不同,該架構將模型劃分為多個小型 Transformer 模塊,稱為軌道。每個軌道由多個堆疊的軌道塊組成,每個軌道塊本身都是一個 Transformer 層堆棧。這些軌道塊獨立處理標記數據,僅在軌道塊的輸入輸出邊界進行跨軌道同步。這種隔離設計不僅實現了軌道間的直接並行執行,還有效降低了傳統 Transformer 解碼器(如採用張量並行技術的模型)中常見的同步開銷。這種方法被稱為軌跡並行,改進了訓練和推理的延遲,而不會影響模型的質量。
為實現服務器端模型的進一步擴展,蘋果在每個軌道塊內部引入了專家混合層(MoE),從而構建出 PT-MoE 架構。由於各 MoE 層中的專家模塊僅在對應軌道內運行,通信開銷可與計算過程有效重疊,從而提升訓練效率。結合軌道並行性帶來的軌道級獨立性優勢,這種設計使模型在保持低延遲的同時實現高效擴展 —— 得益於稀疏度的提升,模型運行更加輕量化。
另外為了實現現視覺理解能力,蘋果引入了一個可以從輸入圖像中提取視覺特徵的視覺編碼器,在大量圖像數據上進行了預訓練,以提高其性能。視覺編碼器包含兩個關鍵組件:一個視覺主幹,用於從輸入圖像中提取豐富的視覺表徵;以及一個視覺語言適應模塊,用於壓縮視覺表徵並將這些視覺特徵與模型的標記表徵進行對齊。
在視覺主幹網絡中,蘋果採用了標準的視覺 Transformer(ViT-g),服務器模型為 10 億參數;以及更高效的 ViTDet-L 主幹網絡,設備端模型為 3 億參數。
設備端視覺主幹網絡採用了 ViTDet 架構,該架構在大多數視覺 Transformer 層中使用窗口注意力機制,僅包含三個跨窗口全局注意力層。為更有效地捕捉並整合細粒度局部細節與宏觀全局上下文信息,蘋果在標準 ViTDet 基礎上創新性地引入了註冊窗口(RW)機制。該機制顺利获得讓全局註冊表(或類別)標記在參與整體全局上下文聚合前,先與圖像中的不同局部窗口進行交互,從而實現對全局特徵的編碼。
蘋果認為,端側和雲端模型配合可以滿足廣泛的性能和部署需求。設備端模型經過優化,能夠以最低資源消耗實現低延遲推理;而服務器端模型則專為複雜任務設計,给予了高精度和可擴展性。
在人工評估基準中,蘋果的模型在跨語言、文本和視覺模式上都具有不錯的競爭力,甚至優於同等規模的最佳開源模型。
在技術報告中,蘋果還介紹了全新推出的 Swift 核心的基礎模型框架,其中集成了引導式生成、約束式工具調用和 LoRA 適配器微調三大功能模塊,開發者僅需幾行代碼即可輕鬆實現這些功能的集成。
該框架讓開發者能夠藉助約 30 億參數的設備端語言模型,着手打造可靠且具備量產級品質的生成式 AI 功能。作為 Apple Intelligence 的核心,它在摘要、實體提取、文本理解、優化、簡短對話、創意內容生成等多樣化文本任務中表現卓越。不過蘋果表示,雖然已針對設備端模型進行了專門優化,但它並非為通用知識問答而設計。蘋果鼓勵應用開發者利用該框架為 APP 定製實用功能。
蘋果表示,Apple Intelligence 模型的最新進展始終遵循「負責任的人工智能」的理念,顺利获得內容過濾、地區定製評估等安全防護措施,並依託私有雲計算等創新技術,切實保障用戶私隱安全。
在技術報告發佈之後,龐若鳴不忘感謝了所有貢獻者,其中包括模型、後訓練、多模態、框架 / API、項目管理人員,同時把接力棒交給了蘋果 AI 的下一任負責人 Zhifeng Chen 和 Mengyu Li。
此前據媒體報道,龐若鳴加入 Meta 後,蘋果大模型團隊將由陳智峰(Zhifeng Chen)負責,不過團隊的管理架構將更加分散。
陳智峰 2000 年本科畢業於復旦大學,後於普林斯頓大學、伊利諾伊大學香檳分校取得碩士、博士學位。在加入蘋果之前,陳智峰曾在谷歌長期工作,參與過 TensorFlow、Gemini、神經機器翻譯系統、Palm 2 等重要研究。他和龐若鳴、吳永輝均是Google Brain 早期的重要成員。
參考內容:
http://www.bloomberg.com/news/articles/2025-07-07/apple-loses-its-top-ai-models-executive-to-meta-s-hiring-spree
《龙珠18号被爆❌羞羞视频》,《P6F3X2M7T9QJ8L1B4WZR》日本少妇❌❌❌喂切视频
「赵薇做爰全过程视频」
同性男男gv片免费观看软件
……
07月23日
「国产精品丰满对白在线观看」吴京的腿怎么了
↓↓↓