linkPublish DateNumberreflectionabstract用一个可控的数据集LEGO来探究transformer在模型训练是如何工作的,说明pre-training即便不相关的任务也很重要,以及chain of reasoning 可能会学习到某些shortcutStatusTypeevaluationAuthor