跳转至

学习日志

2026-03-31

2026-03-31 学习日志

今日主题

Transformer 扩展规律与 Chinchilla 修正

新增认知

Transformer 扩展规律与 Chinchilla 修正

Kaplan 论文里说的"计算量"指的是训练时的算力，不是推理时的
参数量大了 → 每次前向/反向传播消耗更多算力
数据量多了 → 要过更多样本，消耗更多算力
换句话说，算力是瓶颈，它限制了你能用多大的模型、跑多少数据
方案 B 参数更少，但数据更多，效果反而更好。这正是后来 Chinchilla（2022）论文的核心发现——Kaplan 当年高估了参数量的权重，低估了数据量