2020/04/23 15:24

ICLR 2020 | MIT、DeepMind等联合发布CLEVRER数据集，推动视频理解的因果逻辑推理

大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别，而不是基于因果结构。在这篇 ICLR 2020 论文中，麻省理工、DeepMind 的研究者提出了一种针对时间和因果推理问题的数据集，包含 20,000 个关于碰撞物体的合成视频以及 300,000 多个问题和答案，从互补的角度研究了视频中的时间和因果推理问题。

论文链接：https://arxiv.org/abs/1910.01442
项目链接：http://clevrer.csail.mit.edu/

从视频的物理事件中识别物体并推断其运动轨迹的能力是人类认知发展的核心。人类，即使是幼儿，也能够通过运动将图片区域划分为多个物体，并使用物体的永久性、实体性和连贯性的概念来解释发生了什么，推断将发生什么以及想象在反事实情况下会发生什么。

在静态图像和视频上提出的各种数据集的推动下，复杂视觉推理问题已经在人工智能和计算机视觉领域得到了广泛研究。然而，大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别，而不是基于因果结构。尽管这些数据集涵盖了视觉的复杂性和多样性，但推理过程背后的基本逻辑、时间和因果结构却很少被探索。

在这篇论文中，麻省理工和 DeepMind 的研究者从互补的角度研究了视频中的时间和因果推理问题。受视觉推理数据集 CLEVR 的启发，他们简化了视觉识别问题，但增强了交互对象背后的时间和因果结构的复杂度。结合从发展心理学中汲取的灵感，他们提出了一种针对时间和因果推理问题的数据集。

CLEVRER

研究者将这个数据集称为基于碰撞事件的视频推理（CLEVRER）。CLEVRER 的设计遵循两个准则：首先，发布的任务应侧重于在时间和因果上的逻辑推理，同时，保持简单以及在视觉场景和语言上出现的偏差最小；其次，数据集应完全可控并正确标注，以承载复杂的视觉推理任务并为模型提供有效的评估。

CLEVRER 包含 20,000 个关于碰撞物体的合成视频以及 300,000 多个问题和答案。问题的类型包括以下四种，如下图所示：

描述性（「什么颜色」）
解释性（「什么原因」）
预测性（「将发生什么」）
反事实（「如果…会发生什么」）

CLEVRER 附带有视频中每个对象的真实运动轨迹和事件历史记录。每个问题都与代表其基本逻辑的程序匹配。如下表所示，CLEVRER 在多个方面补充了现有的视觉推理数据集，并引入了一些新颖的任务。

研究者对各种最新的视觉推理模型在 CLEVRER 上进行了评估，结果如下表所示。尽管这些模型在描述性问题上表现良好，但它们缺乏因果推理的能力，在解释性，预测性和反事实问题上表现不佳。

他们认为视觉推理任务包含三个关键要素：视频中的物体和事件的识别；物体与事件之间动力学和因果关系的建模；理解问题背后的符号逻辑。作为对此原理的初步探索，他们提出了一种新的预测模型——结合神经网络和符号表征的动态推理（NS-DR），通过视频符号表征将这些要素明确地联结在一起。

NS-DR 模型

NS-DR 模型结合了用于模式识别和动力学预测的神经网络，以及用于因果推理的符号逻辑。如下图所示，NS-DR 模型由视频解析器（Ⅰ）、动态预测器（Ⅱ）、问题解析器（Ⅲ）和程序执行器组成（Ⅳ）。

视频解析器

研究者使用 ResNet-50 FPN 作为主干网络，通过 Mask R-CNN 在每帧视频上执行物体检测和场景去渲染。对于输入的每帧视频，网络输出物体的固有属性（颜色、材料、形状）标签、物体的 mask proposals 以及 proposal 的置信度，由此获得以物体为中心的视频表征。

动态预测器

他们将 PropNet 应用到动态建模中，将物体的 proposals 作为输入，预测其运动轨迹和碰撞事件。

PropNet 将动态系统表示为有向图 G=〈O,R〉，其中顶点 O={o_i } 表示物体，边 R={r_k } 表示关系。每个物体 o_i 和关系 r_k 可以进一步写成

，

，其中 s_i 表示物体的状态；

表示物体的固有属性；u_k 和 v_k 表示由边 r_k 连接的接收方和发送方顶点的索引；

表示边的状态，即两个物体之间是否存在碰撞。PropNet 通过多步信息传递来处理物体之间的状态转移。

问题解析器

使用基于注意力机制的 Seq2Seq 模型将输入的问题解析为相应的程序，模型由双向 LSTM 编码器和注意力 LSTM 解码器组成。给定输入单词序列，编码器首先在每个步骤生成双向潜在编码

然后，解码器使用注意力机制从潜在编码中生成一系列程序 token：

其中，编码器和解码器均使用两层隐藏层和 300 维度单词嵌入向量。

程序执行器

程序执行器在动态预测器提取的运动轨迹和碰撞事件上执行程序，并输出问题的答案。它包含多个通过 Python 实现的程序模块，其中共有三种类型：输入模块，过滤器模块和输出模块。输入模块是程序树的入口点；过滤器模块基于固有属性、运动状态、时间顺序或因果关系对输入物体/事件执行逻辑运算；输出模块返回答案标签。

NS-DR 性能评估

研究者在 CLEVRER 上评估了 NS-DR 的性能，结果如下表所示。对于描述性问题，他们的模型可达到 88.1％的准确率，显著优于其他基准方法。在解释性、预测性和反事实问题上，他们的模型获得了更大的提升。

NS-DR 将动态规划纳入视觉推理任务中，能够直接对未观察到的运动和事件进行预测，并能够对预测性和反事实性任务进行建模。这表明动态规划对基于语言的视觉推理任务具有很大的潜力，NS-DR 朝着这个方向迈出了初步探索。此外，符号表征为视觉、语言、动力学和因果关系提供了强大的共同基础。通过设计，它使模型能够明确地捕获视频因果结构和问题逻辑。

总结

视频中时间和因果推理，这个深刻且具有挑战性的问题已深深植根于人工智能的基础之上，最近才开始使用「现代」人工智能方法进行研究。他们引入了一系列基准任务，以更好地促进这一领域的研究，新提出的 CLEVRER 数据集和 NS-DR 模型是朝着这个方向迈出的初步尝试。

研究者希望随着图网络、视觉预测模型和结合神经网络和符号表征算法的最新发展，深度学习领域可以在将来更加现实的设置中重新审视这一经典问题，从而获得超越模式识别的真正智能。

理论ICLR 2020因果推理数据集DeepMindMIT逻辑推理

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

动态规划技术

动态规划（也称为动态优化），是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的，通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题，只解决一次子问题并存储它的解决方案（solution），下一次遇到同样的子问题时无需重新计算它的解决方案，而是简单地查找先前计算的解决方案，从而节省计算时间。动态规划适用于有最优子结构（Optimal Substructure）和重叠子问题（Overlapping Subproblems）性质的问题。

来源：Wikipedia

因果推理技术

基于因果关系的一类推理方法，是一种常见推理模式，涉及观察到的共同效应的原因的概率依赖性。

来源：Intercausal reasoning with uninstantiated ancestor nodes

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

逻辑推理技术

逻辑推理中有三种方式：演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

来源：Wikipedia

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

图网技术

ImageNet 是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。

来源：ImageNet 官网

图网络技术

2018年6月，由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》，该研究提出了一个基于关系归纳偏置的 AI 概念：图网络（Graph Networks）。研究人员称，该方法推广并扩展了各种神经网络方法，并为操作结构化知识和生成结构化行为提供了新的思路。

来源：机器之心