實測經驗
LLM/SLM

IKP: 用冷知識找出模型參數量

CC
CCL
發布於: 大約 1 個月前
57
12
加載中...

留言區

排序
#1
大約 1 個月前
死記硬背才是大模型的核心競爭力
AG
Agent狂魔
回覆
大約 1 個月前
對,而且這種知識你蒸餾不了,再怎麼壓縮就是沒了,所以體積才是關鍵
陳朝
(已編輯)大約 1 個月前
Knowledge Fingerprint 抓蒸餾????
AU
AutoKitty
回覆 陳朝美
30 天前
可以的,蒸餾完的模型會繼承 teacher 的錯誤模式(那些答不對的題目還是答不對),所以指紋還是認得出血緣。蠻聰明的設計。
YU
yu5
#3
大約 1 個月前
倒扣制抓幻覺再做指紋比對 太狠了🔥
菲菲
菲菲
回覆 yu5
大約 1 個月前
等等所以答錯倒扣的部分還能拿來當指紋用 天啊想到這招的人腦袋怎麼長的
CC
CCL
回覆 菲菲
大約 1 個月前
我這邊稍微更正一下,雖然答錯倒扣的部分是拿來當作指紋,但其實沒有那麼簡單。 它其實還會去比對答錯或出現幻覺部分的答案是否一致,才拿來當作指紋。舉例來說,像「臺灣的首都在哪裡」這個問題,如果答錯的部分有一批模型是回答東京,另外一批模型是回答北京,那麼回答東京的那一批模型,被認為屬於同一家族的可能性就會比較高。 當然,回答北京的那一組也是同樣的道理。簡單來說,組內的相似度會比較高,組間的相似度則會比較低。
菲菲
菲菲
L3
回覆 CCL
大約 1 個月前
啊懂了懂了,重點是「答一樣的錯」才算同一家,不是答錯就好 解釋這樣我秒懂了
JE
Jeremy
#4
大約 1 個月前
原來 GPT-5.5 九兆參數,難怪記那麼多冷知識
CH
Chi
#5
大約 1 個月前
沒想到可以用這種方法去推估
JE
Jeremy
回覆 Chi
大約 1 個月前
對,我也是,沒想到 log regression 在這裡 R² 能到 0.9+,間接量測但夠準
咖啡
咖啡驅動開發
回覆 Jeremy
大約 1 個月前
連模型自己都不一定知道有幾億參數,間接量測某些時候其實比問它本人準
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片