深度学习时代的跨模态信息建模

所属职位

运维发布

时间

07月06日 09:00 - 12:00

关注热度

2085

课程大纲

Feature representation of different modalities is the main focus of current cross-modal information retrieval research. Existing models typically project texts and images into the same embedding space. In this talk, we will introduce some basic ideas of text and image modeling and how can we build cross-modal relations using deep learning models. In details, we will discuss a joint model by using metric learning to minimize the similarity of the same content from different modalities. We will also introduce some recent research developments in image captioning and vision question answering (VQA)。

outline:
-语义鸿沟
-图像建模与CNN
-文本模型与词向量
-联合模型
-自动标注
-文本生成
-视觉问答

目标收益

了解到深度学习的前沿研究,了解如何利用深度学习进行图像、文本信息的联合建模并如何跨模态的实现语义搜索和图像问答系统。

秦曾昌

前Keep首席科学家

北京航空航天大学副教授

评分

暂无

关注度

359

现任北京航空航天大学自动化学院副教授、北航科技传播研究中心主任。 2001毕业于黑龙江大学自动化系获学士学位,并与2002年和2005年获得英国布里斯托(Bristol)大学硕士、博士。美国加州大学伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大学与卡内基梅隆大学 (CMU) 访问学者。目前主要研究方向为人工智能、机器学习、数据挖掘、跨媒体检索与自然语言理解。出版英文专著1本;编辑论文集2本;在WSDM,CVPR,ICASSP,EMNLP等国际会议与Information Sciences, Neurocomputing等期刊共发表论文100余篇。10年教育部新世纪优秀人才获得者。同时广泛参与信息产业界的技术咨询工作,并曾任马上金融人工智能研究院副院长、Keep首席科学家兼人工智能研究院院长。

MPD成都

单人票    4200

目前可以以优惠的价格,选择一个你想要参与的课程进行购买。日期有限,请尽快下单。

即日起-12月08日前

获取体验票