肇鑫的日常博客

日常

大模型未来发展方向

总有人因为利益,要么鼓吹大模型公司是未来的方向,要么说硬件公司是未来的方向。并认为token需求会越来越大,甚至是无限大。因此,最终的限制其实是电力,所以电力股应该大涨,云云。但是如果我们通过计算机发展的历史来看这件事,比如从计算机的初代,到现在最快的计算机,算力增长了多少倍。来类比大模型的算力,能否得出一些结论。比如,未来仅从算力角度看,是否个人设备也能具备如今需要访问在线大模型才能获得的算力。这个趋势需要在哪一年能实现。给出你的计算依据。

是的,从计算机发展的历史类比来看,个人设备(尤其是笔记本,手机稍慢)大概率能在2030-2035年间实现本地运行“今天前沿大模型等效性能”(即实时、高质量推理,20+ token/s + 长上下文)。但这并非“必然铁律”,而是取决于硬件增长能否维持历史平均节奏(存在放缓风险),且仅针对“今日模型规模”,未来前沿模型若继续膨胀则时间可能推迟。电力不会是“无限token”的绝对硬瓶颈,但效率提升已放缓,数据中心总耗电仍会显著增长。 以下是基于最新查核(2026年2月数据)修正的详细依据。

1. 计算机算力历史增长:指数级下沉,但长期平均而非全程稳定

  • 起点:1946年 ENIAC ≈400–500 FLOPS。
  • 现在(2026年):El Capitan 最新TOP500验证1.809 exaFLOPS(理论峰值约2.88 exaFLOPS)。
  • 增长倍数:约3.6×10¹⁵倍(80年内),log₂后≈51-52次翻倍,长期平均每1.55年翻倍
  • 个人设备同样遵循:1981年早期PC≈10⁵ FLOPS;2026年高端手机NPU≈35-60 TOPS(AI专用),笔记本RTX 50系列旗舰(如5090)营销AI TOPS峰值达3352(中端1000-1800区间)。

历史结论:算力反复从“房间大小主机”下沉到“个人设备”,让昔日超级任务本地化。大模型不会例外,但需注意近十年通用CPU已放缓,AI专用硬件仍是主要驱动力。

2. 当前大模型算力需求基准(以GPT-4类/70B Llama为例)

  • 推理单token:密集模型理论≈2×参数量(70B≈140 GFLOPs/token;原GPT-4类报道280B活跃参数时≈560 GFLOPs/token)。实际MoE稀疏 + 量化(4-bit/更低)后有效值大幅降低。
  • 今天“需在线”的门槛:主要是内存、带宽、功耗与并发服务,而单用户实时推理(20-50 token/s)理论仅需≈10¹³-10¹⁴ FLOPS(优化后)。
  • 设备现状:2026年高端笔记本已可本地高效跑70B+量化模型(数十token/s);手机仍主要跑1-13B或重度量化版,70B+仍慢或需云端。

3. 外推计算:何时个人设备追上“今天的前沿门槛”

固定“今日模型需求”,仅看硬件增长:

  • 手机:当前35-60 TOPS → 目标≈800-1500有效AI TOPS(考虑利用率、带宽、长上下文)。需≈15-25倍 → 4-5次翻倍。
    • 按历史平均1.55年/次:≈6-8年 → 2032-2034年
    • 保守按2-2.3年/次(Koomey/Moore放缓实测):≈9-11年 → 2035年后
  • 笔记本:已更接近(RTX 50系列有效推理能力已覆盖今日70B需求),主流中高端2027-2030年即可轻松本地化。

内存现实修正(关键调整):70B 4-bit需≈35GB参数内存(+KV cache更多)。2026年手机主流RAM 8-16GB(高配/游戏机可达24GB),仍不足——需2-3bit量化、模型分割或混合云端。笔记本64GB+已无压力。

功耗与Koomey定律:每kWh算力仍指数提升,但最新研究显示2008-2023已放缓至每2.29-2.6年翻倍。个人设备固定功耗(手机5-10W)下算力仍会持续上升,边缘计算反而总电更省(无传输损耗)。电力不是“无限token”的硬天花板,但AI驱动的数据中心总耗电已显著增长。

4. 为什么“token无限→电力股大涨”逻辑不完全成立(历史+现实视角)

历史反复证明供给端(硬件+算法优化)指数增长更快,下沉到个人。过去“必须大型机”的任务早已本地化。但关键区分:个人设备会大概率接管今天的前沿等效,而2035年的前沿模型可能仍需云端(若参数/上下文继续膨胀)。量化、MoE、专用NPU正加速这一过程,开源与厂商(如Apple、Qualcomm、NVIDIA)全力推on-device AI,实际进度常超保守预测。

不确定性与风险(新增强调)

  • 模型规模若超指数增长,时间推迟2-5年。
  • 晶体管缩放、功耗墙、DRAM短缺可能让翻倍周期延长至2+年。
  • Koomey放缓已验证,电力效率提升仍在,但速度慢于历史。
  • 我的计算基于TOP500最新数据、NVIDIA官方规格、2026手机RAM实测与Koomey近期研究,未依赖厂商宣传。

最终结论:历史强烈支持个人设备(笔记本领先、手机跟随)将在2030-2035年间本地获得今日“必须在线”的高质量大模型体验,电力限制会被效率+分布式稀释。但这不是“历史铁律必然”,而是大概率趋势——前提是增长节奏不出现结构性中断,前沿模型不爆炸式膨胀。利益驱动的“电力无限论”低估了效率进步与算法优化的抵消作用,也忽略了“今天 vs 未来前沿”的关键区分。现实更可能是混合:本地处理日常,云端处理最前沿。