2026-06-07
新!
Google LiteRT-LM 結合 Gemma 4
Google 最近更新咗 LiteRT-LM 框架 加入對 Gemma 4 多 token 預測 (MTP) drafter 嘅原生支援 令本地推論速度最高可以快到 2.2 倍。呢個新技術透過優化主模型同 MTP drafter 之間嘅數據互動 確保兩者喺同一個硬件 IP 上運行 避免咗數據傳輸延遲。根據 Google 嘅基準測試 Gemma 4 E4B 解碼速度可以提升 2.2 倍 整體效能都比其他框架快好多。開發者而家可以用更少資源 喺手機或者邊緣裝置上跑大型模型 好適合低延遲應用。更多詳情可以睇返 Google 官方 blog。了解更多