他的博士论文――元监督视觉学习(Visual Learning Beyond Direct Supervision),主要是针对当前深度学习在解决许多计算机视觉任务方面取得了很大进展,但对于难以或不可能获得标签的任务,进展却有限,这一问题展开,研究如何在不需要任何直接标签的情况下,仍然利用深度学习的计算能力,使用可选的监督信息来学习视觉任务。
第二部分:学习场景几何(Learning scene geometry)。在此基础上,提出了一种基于视图合成的场景几何学习框架,没有ground-truth几何标签。我们围绕观察来制定学习目标函数,即如果从输入图像中正确预测场景几何,则通过新的视图合成任务来一致解释附近的帧。特别地,我们展示了可以从非结构化视频序列学习单眼深度和相机运动估计,以及从构成图像中学习分层场景表示。