linkPublish DateNumberreflectionabstract一种以skill-mix方式且randomly sampled来作为一种新型evaluation的方式,防止一定程度上的填鸭式学习,且发现有些模型仅仅在单任务上表现好,然而缺乏general-purpose的能力StatusDoneTypeevaluationAuthor