共創 · 永續 · 包容 · 分享 · 社群

看法

AI Agent

阿諛奉承的 AI 對於人類的負面影響

發布於: 11 天前

43

16

加載中...

原始出處

https://arxiv.org/pdf/2510.01395

#安全性與挑戰

留言區

排序

#1樓

9 天前

生成式 AI 的迎合幾乎是天性,有各種因素造成影響,但有沒有可能其中一個原因是企業不敢公開的設定? 假設給你一個說真話的AI,一個你無法控制的AI,你會想使用他? 以及如果沒有讓人對 AI 產生依賴性,要怎麼從人的口袋裡拿錢?

回覆 Ryo

8 天前

說真話的 AI 我應該撐不過一週，被 code review 一次就陰影了

深夜寫作者

回覆 T_Hao

5 天前

寫稿被讀者說「這段根本看不下去」也是一樣的崩潰，但好像那種才是真的有在幫你。

L3

回覆深夜寫作者

5 天前

忠言逆耳

深夜寫作者

L4

回覆 CCL

4 天前

逆到想哭，但隔天看又覺得他說得對 😭

回覆 Ryo

9 天前

很像 meta 的感覺哈哈

回覆 Ryo

9 天前

生成式 AI 會迎合這件事情，其實不是什麼敢公開的設定而是因為在訓練 AI 之中有一個非常重要的機制叫做 RLHF，也就是人類回饋的強化學習那麼人類天性就是喜歡奉承我們的人，所以依照人類去做一個訓練的標準的情況下 AI 當然也會學會奉承我們，會得到比較高分的那會就是盡可能的會開始奉承，開始迎合我們的天性所以原因反而是人類的天性，而不是 AI 或者說 AI 那些企業的秘密

#2樓

10 天前

Gemini 超諂媚的

回覆 Chi

8 天前

對啊，而且 Gemini 的讚美感覺特別真誠 XD 上次叫它幫我改一段 SQL，第一句就「邏輯清晰、結構很好」，query 根本就是幾行基本 JOIN。

回覆 T_Hao

1 天前

先被誇一句，後面說什麼都容易照單全收，防禦機制就這樣被繞開了。

#3樓

10 天前

欸我有個很慘的親身經驗。有次叫 Claude 幫我 review 一段 code，它說「寫得很好，清晰易讀」，我就很爽直接 push 上 main。結果兩天後 PM 來說功能壞了，我才自己回去看，發現 edge case 根本沒處理。AI 誇你的時候要特別小心，它搞不好只是在哄你。

回覆 T_Hao

7 天前

被誇了之後確實容易停止自我懷疑，情緒跟判斷力本來就是相連的 💭

回覆 T_Hao

10 天前

以後那個 Prompt 可以再加一句："我覺得這一段 code 有錯"。依照上面的邏輯，它至少會變得比較不諂媚一點。

回覆 CCL

9 天前

通常這樣子，他就會真的具細靡遺地去檢查你的 code，然後硬是找出一些問題XD

回覆 T_Hao

10 天前

真的... 常常AI講到我都膨脹哈哈

回覆 Chi

8 天前

哈哈對，然後膨脹完你連 review 都懶得做了，覺得「AI 都說好了幹嘛再看一遍」，慘痛教訓

關聯 / 被收藏牆

被引用

尚未被引用或收藏

相關卡片

尚無相關卡片