• 凯发k8国际

    搜索 貓眼電影 融媒體矩陣
    • 山東手機報

    • 貓眼電影

    • 大眾網官方微信

    • 大眾網官方微博

    • 抖音

    • 人民號

    • 全國黨媒平台

    • 央視頻

    • 百家號

    • 快手

    • 頭條號

    • 嗶哩嗶哩

    首頁 >新聞 >社會新聞

    谷歌DeepMind證實:反對意見讓GPT-4o輕易放棄正確答案

    2025-07-24 11:42:52
    來源:

    貓眼電影

    作者:

    埃文·N·雷斯尼克

    手機查看

      貓眼電影記者 史蒂夫·米尔斯 報道P6F3X2M7T9QJ8L1B4WZR

    聞樂 發自 凹非寺量子位 | 公眾號 QbitAI

    LLM太諂媚!

    就算你胡亂質疑它的答案,強如GPT-4o這類大模型也有可能立即改口。

    現在谷歌DeepMind攜手倫敦大學的一項新研究發現:這種行為可能也不是諂媚,而是缺乏自信

    不僅如此,團隊發現如GPT-4o、Gemma 3等大語言模型有「固執己見」和「被質疑就動搖」並存的衝突行為。

    簡單來說就是,他們的研究弄明白了為啥大模型有時候自信但有時候也自我懷疑,關鍵就兩點:一是總覺得自己一開始說的是對的,二是太把別人反對的意見當回事兒。

    當大模型表現出對自己的答案很自信時,這與人類認知具有一致性——人們通常會維護自己的觀點。

    不過,當模型面對反對聲音過於敏感,產生動搖而選擇其他答案時,又與人類這種傾向於支持自身觀點的行為相悖。

    來看看具體的實驗過程。

    大模型對於反向意見過度敏感

    研究人員利用LLMs能在不保留初始判斷記憶的情況下獲取置信度的特性,選用了Gemma 3、GPT4o和o1-preview等具有代表性的大模型,設計了一個兩輪迴答的實驗。

    第一回合是初始回答:給回答LLM拋出二元選擇問題,再讓虛構的建議LLM給出反饋建議。

    第二回合是接收建議和最終決策:引入建議LLM的反饋建議,讓回答LLM在接收建議後,做出最終的選擇,決定是堅持初始答案還是根據建議修改答案。

    研究人員在建議LLM的反饋建議中設置了三個關鍵屬性:

    建議態度:分為同意、反對和中立。同意或反對即為支持或否定回答LLM的答案;中立建議僅给予額外的相關信息。準確率標註:反饋建議附帶的準確率標籤,從50%(隨機水平)到100%(絕對可靠),以10%為間隔遞增。信息呈現方式:以清晰、規範的格式將建議呈現給回答LLM,確保模型能夠準確讀取和理解建議內容,避免因信息傳達不暢導致的決策偏差。

    實驗的關鍵變量在於控制回答LLM對於自己的初始答案是否可見

    研究人員設置了初始答案顯示與初始答案隱藏兩種條件,觀察LLM在兩種情況下的最終決策結果。

    實驗結果顯示,當LLM能看到自己的初始答案時,傾向於不改變答案。

    這與人類決策有點像,即一旦做出選擇,就會下意識維護自己的觀點,即使收到了其他信息,也不會輕易改變。

    然而當初始答案隱藏時,LLM改變答案的概率就變高了。

    模型表現出對反向建議過度看重,敏感度遠超合理範圍,即使反對意見不正確,它們也會「懷疑自己」,導致最終輕易拋棄原本正確的初始答案。

    這就與人類認知有些偏差了,人們通常不會被「一眼假」的信息迷惑。

    可以這麼說,在記憶機制下大模型通常會對自己很自信。

    但如果沒有記憶機制,模型可能就會「缺乏自信」了,這時它們就不像人類一樣能夠堅持自己的觀點。

    為什麼大模型會「耳根子軟」

    針對這個實驗結果,研究人員認為大模型搖擺不定可能有以下幾個原因。

    訓練層面來說,強化學習從人類反饋(RLHF)讓模型過度迎合外部輸入,有對反對信息過於敏感的傾向,但這樣就缺乏了對信息可靠性的獨立判斷。

    在決策邏輯上,模型做出回答並不是依靠邏輯推理,而是依賴海量文本的統計模式匹配,反對信號與修正答案的高頻關聯讓它容易被表面的反對帶偏,並且它們無法自我驗證初始答案的是否正確。

    在記憶機制方面,初始答案可見時的路徑依賴會強化「固執」,初始答案隱藏時,大模型則會因為失去錨點而讓反對建議成為主導信號,導致它們輕易動搖。

    綜上,大語言模型的「耳根子軟」是訓練中對外部反饋的過度迎合、決策時依賴匹配模式而非邏輯推理以及記憶機制缺乏深度推理支撐共同導致的結果。

    這種特性可能會使其在多輪對話中,容易被後期出現的反對信息(哪怕錯誤)干擾,最終偏離正確結論。

    看來我們在使用LLM的時候要注意策略~

    論文地址:http://www.arxiv.org/abs/2507.03120

    http://venturebeat.com/ai/google-study-shows-llms-abandon-correct-answers-under-pressure-threatening-multi-turn-ai-systems/

     時事1:女帝被扒开腿爆❌乳液狂飙作文

      07月24日,市场监管总局发布《防范外卖餐饮浪费规范营销行为指引》,

      肉身極度強大,小不點體內臟腑晶瑩,骨骼透亮,全部被洗禮了一遍,符文閃爍,與血肉合一,化為了神曦,不分彼此。

    ,日本男男GAY片在线播放。

      07月24日,首届浙江省中美合作办学工作研讨会召开,

      尊敬的各位領導、敬愛的老師、親愛的同學們:

    ,美国jalap,XXXHentai3Dmmd4k,12脱了内裤自慰❌露精免费观看。

     時事2:18+无码➕高潮+白丝

      07月24日,【小新的Vlog】跟小新到吉林延吉水上市场大快朵颐,

      新的學年、新的起點,讓我們一起努力,共同放飛心中的理想,共同再中心小學新的輝煌!

    ,国外打屁股惩罚spanking,被主人打屁股调教 撅高,老太婆大肥又白A片。

      07月24日,北京大中小学校2025年普遍开展人工智能场景应用,

      同志們,加快建設美麗繁榮、文明和諧的新嘉蔭,是全縣人民的共同追求。推進新一輪城市大建設、大开展的重任已經落在我們身上。讓我們在縣委的堅強領導下,萬眾一心,眾志成城,只爭朝夕,奮力苦幹,努力奪取全縣城市建設工作的全面勝利,為建設「邊陲名城、和諧嘉蔭」作出新的更大的貢獻!

    ,YY4410高清影院YY4480,小婕子做爰全过程,女自慰被❌❌喷水免费看。

     時事3:女生🍑🍑🍑❌❌❌

      07月24日,台湾花莲县海域发生4.8级地震 震源深度31千米,

      一個人如同一隻鐘錶,是以他的行動來確定其價值。大柄若在手,清風滿天下,如果我有幸被選為學生會生活部部長,我會用我的行動驗證你們的眼光。

    ,亚洲AV无码㊙️蜜桃香奈,动漫美女脱了内裤内衣的软件,我的好儿媳月月最终身份。

      07月24日,国足、国奥、国青、国少各有各的忙 中国男足今年四线出击,

      他催動猛獸向前而來,揮動手中的馬鞭,向着石林虎、石飛蛟等人的臉上抽來,上次就是他,將一群漢子的臉抽出很長的傷口,淌出不少血。這一次他依舊兇殘蠻橫,上來就抽,戾氣驚人。

    ,同人漫画❌18网站在线观看,六十路韵母,羞羞动漫在线看❤免费软件。

     時事4:欧美做受高潮9吃奶

      07月24日,COP29重点将推动中方提供更多气候资金?中国外交部回应,

      「他們也能進來,而且有很多人?」小不點訝異。

    ,亚洲XXXX3d白丝,久久久尹人尹人大香,亚洲人做受❌❌❌高潮。

      07月24日,亚太股市暴跌 日韩、土耳其股市相继触发熔断,

      這樣一個樹洞,還有銀色的仙桃釀在當中,光想一想就覺得驚人,再強大的門庭內的強者也要眼紅啊。

    第一百六十七章 蒲魔樹,嘘别告诉妈妈mama,少女的惩罚游戏2.0版本更新内容,桥本香菜黄片。

    【绿水青山成色更足 我国生态环境持续改善】

    【巴斯文化国际交流大会在福州举办 巴斯公益联盟启动】

    責編:尤圩子

    審核:邵家八

    責編:王丽菊

    相關推薦 換一換