2026-03-31 学习日志
今日主题
- Transformer 扩展规律与 Chinchilla 修正
新增认知
Transformer 扩展规律与 Chinchilla 修正
- Kaplan 论文里说的"计算量"指的是训练时的算力,不是推理时的
- 参数量大了 → 每次前向/反向传播消耗更多算力
- 数据量多了 → 要过更多样本,消耗更多算力
- 换句话说,算力是瓶颈,它限制了你能用多大的模型、跑多少数据
- 方案 B 参数更少,但数据更多,效果反而更好。这正是后来 Chinchilla(2022) 论文的核心发现——Kaplan 当年高估了参数量的权重,低估了数据量