跳转至

2026-04-03 学习日志

今日主题

  • 大模型能力衡量

新增认知

大模型能力衡量

  • 然后测试模型能以 50% 成功率完成的任务,对应的人类时间上限是多少
  • 意思是:一个人类需要花 12 小时才能做完的任务,Opus 4.6 有一半概率能做对
  • 在对数坐标下,模型能力随时间呈线性增长(即指数级进步)。具体规律是
  • 这篇论文把"模型有多强"翻译成了一个人人都能理解的刻度——"相当于人类干多久的活",并且发现这个刻度在指数级增长
  • 每个任务先让人类做,记录人类完成它需要多长时间——这就是这个任务的"难度标尺"