雷锋网 AI 科技评论按:本文作者为阿德莱德大学助理教授吴琦,去年,他在为 AI
科技评论投递的独家稿件中回顾了他从跨领域图像识别到 vision-to-language 相关的研究思路,今年,他又一次介绍了
vision-and-language 任务的最新进展。正文如下。
前言:
去年写过一篇《万字漫谈 vision-language-action》,主要介绍总结了我们组围绕 vision-language 的一些思路和工作。这次去 VALSE 参会,很多同学和老师都提起那篇文章,说受到很多启发。同时这次刚好有幸在 VALSE 上做关于 vision-and-language 2.0 的年度进展报告,于是就有了把报告变成文字的想法,供各位阅读参考。这篇文章主要介绍了一些 2018 年的这个领域比较受关注的文章,之所以叫 vision-and-language 2.0, 是因为这些文章都是在围绕一些新的 vision-and-language 的任务展开的。
正文:
首先先做一些背景介绍,什么是 vision-and-language?我们知道 Computer Vision(计算机视觉)和 Natural Language Processing (自然语言处理)一直是两个独立的研究方向。计算机视觉是一门研究如何使机器 “看”的科学,而自然语言处理是人工智能和语言学领域的分支学科,主要探索的是如何使机器”读”和“写”的科学。他们相通的地方是,都需要用到很多机器学习,模式识别等技术,同时,他们也都受益于近几年的深度神经网络的进步,可以说这两个领域目前的 state-of-art,都是基于神经网络的,而且很多任务,比如 CV 里的物体识别检测,NLP 里的机器翻译,都已经达到了可以实用的程度。于是从 2015 年开始,有一个趋势就是将视觉与语言进行一定程度的结合,从而产生出一些新的应用与挑战。比如 image captioning,visual question answering 等比较经典的 vision-and-language 任务。
随着这些工作的提出,vision-
前言:
去年写过一篇《万字漫谈 vision-language-action》,主要介绍总结了我们组围绕 vision-language 的一些思路和工作。这次去 VALSE 参会,很多同学和老师都提起那篇文章,说受到很多启发。同时这次刚好有幸在 VALSE 上做关于 vision-and-language 2.0 的年度进展报告,于是就有了把报告变成文字的想法,供各位阅读参考。这篇文章主要介绍了一些 2018 年的这个领域比较受关注的文章,之所以叫 vision-and-language 2.0, 是因为这些文章都是在围绕一些新的 vision-and-language 的任务展开的。
正文:
首先先做一些背景介绍,什么是 vision-and-language?我们知道 Computer Vision(计算机视觉)和 Natural Language Processing (自然语言处理)一直是两个独立的研究方向。计算机视觉是一门研究如何使机器 “看”的科学,而自然语言处理是人工智能和语言学领域的分支学科,主要探索的是如何使机器”读”和“写”的科学。他们相通的地方是,都需要用到很多机器学习,模式识别等技术,同时,他们也都受益于近几年的深度神经网络的进步,可以说这两个领域目前的 state-of-art,都是基于神经网络的,而且很多任务,比如 CV 里的物体识别检测,NLP 里的机器翻译,都已经达到了可以实用的程度。于是从 2015 年开始,有一个趋势就是将视觉与语言进行一定程度的结合,从而产生出一些新的应用与挑战。比如 image captioning,visual question answering 等比较经典的 vision-and-language 任务。
随着这些工作的提出,vision-