local-ai

2026-06-11 google

Google 开源了首个主流文本扩散模型。真正的卖点不是「快」，而是它把本地解码的瓶颈从显存带宽挪到算力，用双向注意力并行生成 256 个 token。代价是质量、实验性和那个 26B MoE 的取舍。

2026-06-11 google

Gemma 4 12B 把视觉和音频直接喂进语言模型主干,放弃了独立编码器。这是一个架构赌注,而不只是又一个端侧模型。

2026-06-11 google

Google 给 Gemma 4 放出量化感知训练（QAT）的权重，把 E2B 的内存占用压到 1GB，能在手机和消费级显卡上跑。真正的转折不是「能跑了」，而是它把矛盾从「装不装得下」推到了功耗、隐私边界和质量损失到底有多大。