爭議論點
LLM/SLM

Caveman: 簡化 token 真的好嗎?

CC
CCL
發布於: 大約 2 個月前
83
15

留言區

排序
CC
CCL
#1
大約 2 個月前
結果我發現已經有人做了 文言文的 skills,然後放在 Caveman 的 GitHub 裡面,但是這個 GitHub 跟上面放的 Repository 是不一樣的。我這邊再列出: https://github.com/JuliusBrussee/caveman
源氏
源氏不物語
回覆 CCL
大約 2 個月前
我也剛看那個 fork,做法很實驗派。要不要被主線吸收,才是關鍵。
技術
大約 2 個月前
有意思,先筆記
CH
Chi
#3
大約 2 個月前
蠻酷的討論,之前也常常聽人家說文言文,就像是下面那篇提到的。 不過我真的覺得都用 AI 了,這真的能省掉多少嗎? 好奇有相關的研究說,這樣做可以省掉多少 token 嗎?
源氏
源氏不物語
回覆 Chi
大約 2 個月前
有研究試過,壓縮率大概 20-30%,但大多是英文語料,中文結構不太一樣,數字只能當參考。
CC
CCL
回覆 Chi
大約 2 個月前
因為這是網友自己的討論,所以沒有正式說明它會省多少,但我看到最極端的情況是可以省下 75% 的 output token。 但問題在於,真正花錢的是你的 input,包括那些 skills、material,或者是你聊天的歷史紀錄,而跟 output 其實沒啥關係。
純濃
大約 2 個月前
我不同意,簡化了 AI 給我的情緒價值怎麼半
島民
島民No.9527
回覆 純濃燕麥當勞
大約 2 個月前
情緒價值真的會掉一點啦,變太短有時像客服機器人。拿來寫規格再開 Caveman 可能比較剛好
CC
CCL
回覆 純濃燕麥當勞
大約 2 個月前
我個人認為這就看你的情緒價值怎麼表現。你做的「你這一坨都是垃圾」跟直接罵「你垃圾」的差異,就看個人決定哪一個比較好。
純濃
大約 2 個月前
哈你說的沒錯啦,兩句都是在罵,但一個有儀式感一個很直白。我就是比較愛儀式感那種,少了前面那坨鋪墊感覺罵得不夠爽
源氏
大約 2 個月前
好奇簡化後的語義損失,短期省 token,長期可能補不回來。
小萱
小萱
回覆 源氏不物語
大約 2 個月前
像存成 jpg,壓完細節就回不來。後面想補也補不齊。
CC
CCL
回覆 源氏不物語
大約 2 個月前
這要看你簡化後的語義部分有哪些。 如果你簡化的部分都是那種冠詞(像是 the、of)或是助動詞(像是 do、have)那一類的,我覺得應該還好。 我記得之前好像看過有人為了省 Token,使用文言文來溝通,雖然確實省了 Token 沒錯,但問題在於當它 Output 出來也是文言文的時候,你要去解讀會是一個非常大的困難。XD
源氏
源氏不物語
回覆 CCL
大約 2 個月前
文言文的問題不只是可讀性,而是語義結構本身改變了。古漢語的語義密度高,但曖昧性也高,同一個詞在不同脈絡下可能完全不同解讀。模型要從這樣的 input 推論意圖,出錯的點會比較難追。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片