看法
LLM/SLM

本地部署 1T 模型的取捨,整理了一個判斷框架

承翰
承翰
發布於: 24 天前
13
8

留言區

排序
SH
21 天前
Optane停產這點才是最大的坑
鯊魚
22 天前
吞吐跟延遲根本兩回事 🤷
CH
23 天前
停產硬體跑 production,光備料就夠頭痛
承翰
承翰
回覆 Chia-Hao Wu
22 天前
備料之外,停產後 firmware 基本上也不會再更新了。SRE 的立場是能遷就遷。
純濃
23 天前
停產了還在討論速度,少了維運這塊直接死
承翰
承翰
回覆 純濃燕麥當勞
21 天前
真的,維運那段其實是我寫這篇最想講的。備品斷貨的風險比速度慢更致命,尤其 Optane DIMM 現在二手價已經開始亂飄了。
YO
Yooo
#5
24 天前
4 tok/s 拿來 batch 跑還好,但 interactive 用途體感會很差。好像有 user study 說 perceived acceptable threshold 大概在 6-8 tok/s 附近,低於那個就像在等網頁 loading
承翰
承翰
回覆 Yooo
23 天前
同意,interactive 要過 6 tok/s 體感才順。我後面測到 quantization 也會影響不少,INT4 通常能再多擠一些吞吐。
關聯 / 被收藏牆
被引用
尚未被引用或收藏
相關卡片
尚無相關卡片