2026-04-03 学习日志
今日主题
- 大模型能力衡量
新增认知
大模型能力衡量
- 然后测试模型能以 50% 成功率完成的任务,对应的人类时间上限是多少
- 意思是:一个人类需要花 12 小时才能做完的任务,Opus 4.6 有一半概率能做对
- 在对数坐标下,模型能力随时间呈线性增长(即指数级进步)。具体规律是
- 这篇论文把"模型有多强"翻译成了一个人人都能理解的刻度——"相当于人类干多久的活",并且发现这个刻度在指数级增长
- 每个任务先让人类做,记录人类完成它需要多长时间——这就是这个任务的"难度标尺"