林洲汉 副教授
讲者简介:林洲汉,理学博士、上海交通大学John Hopcroft计算机科学中心副教授、副主任,国家海外高层次青年人才、上海市浦江学者。博士师从于深度学习领域图灵奖得主Yoshua Bengio,目前主要从事机器学习与自然语言处理等方向的研究,已发表学术论文60余篇,谷歌学术总引用量9000余次。他曾于Facebook AI Research(FAIR)、Google AI、Microsoft Research、IBM Watson等核心AI研究部门实习或工作。担任Journal of Machine Learning Research(JMLR)、IEEE Transactions on Audio, Speech and Language Processing(TASLP)、 IEEE Transactions on Neural Networks and Learning Systems(TNNLS)等国际权威期刊的审稿人,ICLR、NeurIPS、ICML、AAAI、ACL、EMNLP、NAACL、AACL等国际顶级会议的审稿人,以及EMNLP、AAAI、AACL、COLING会议的领域主席。
报告题目:从多模态联合预训练到多模态大语言模型:架构、训练、评测
报告摘要:类GPT-4的“大视觉语言模型”是最近多模态领域的热潮。目前的大模型,包括BLIP-2,MiniGPT4,LLaVA,Lynx等等,已经展现了令人惊喜的能力。这些模型可以回答图片相关的问题,做OCR,理解网上的梗图,但也会产生幻觉(object hallucination)而胡言乱语。本次报告介绍大视觉语言模型发展的三个阶段,即多模态联合预训练、以语言模型为中心的大视觉语言模型和原生大视觉语言模型,并介绍课题组推出的多模态大模型评测基准(Reform-Eval)。