题目:多模态开放域检测大模型及应用
主讲人:梁小丹 副教授,中山大学
主持人:陈小军 副教授
时间:2023年6月1日 10:00-11:30
地址:致腾楼938会议室
报告人简介:
梁小丹,中山大学副教授,逸仙学者,青年拔尖人才,IEEE Senior Member。研究领域为多模态视觉语言理解,数字人生成和驱动,可解释AI和因果推断机器学习模型。Google学术引用超18000次。现担任Image and Vision Computing 和Neural Networks期刊的Associate Editor,曾担任CVPR/ ICML/ICCV/Neurips等会议领域主席和Ombud chair等,荣获ACM中国新星提名奖,阿里巴巴达摩院青橙奖 ,CSIG石青云青年女科学家奖,吴文俊人工智能优秀青年奖,中国科协青年人才托举计划获得者,中国图像图形学会科技技术一等奖,CCF 优秀博士论文奖和ACM China 优秀博士论文奖等。
报告摘要:
近期多模态预训练基础大模型如GPT4等在多个视觉语言跨模态任务下得到突出的性能,但是其无法做到细粒度的语义对齐和定位,如利用大量图文对进行开放域物体检测学习。本次报告介绍研究组利用大规模图文数据图进行细粒度物体和文本对齐模型,利用千万数据来训练大模型的模型设计。首先讲介绍一种新的针对开放域检测的端到端预训练模型DetCLIPv2, 其次介绍如何利用caption数据来增强开放域检测预训练模型。最后依托于开放域物体检测能力,设计了针对多模态机器人视觉语言导航的多模态决策模型,结合多模态预训练大模型和大规模语言模型如Chatgpt,在多个VLN任务得到明显的性能提升,并支持Zero-shot场景的泛化性。