linkPublish DateNumberreflectionabstractRL的可解释性问题:为啥采取这样的action。 基于此,将策略pi改写成了基于logic rule的differentiable形式。本来是黑箱决策,现在添加中间logic rules的显式调用。学习rule的方式和RNNLogic很像,都是现根据initial rules propose再学习weight,选择top-k rulesStatusDoneTypeinductionAuthor