魏忠钰 副教授
讲者简介:魏忠钰,复旦大学大数据学院副教授、智能复杂体系实验室双聘研究员、博士生导师、数据智能与社会计算实验室(Fudan DISC)负责人,香港中文大学博士,美国德州大学达拉斯分校博士后。曾获得2019年度CIPS社会媒体处理专委会新锐奖,2021年上海市启明星计划,2022年CCF自然语言处理专委会新锐学者奖。主要研究领域包括多模态大模型和社会计算,发表论文100余篇,担任ACL 2023多模态高级领域主席(SAC),EMNLP 2024论辩挖掘高级领域主席。代表成果包括模态对齐的大视频语言模型Valley和 DISC-X系列垂域大模型(覆盖医疗、司法、金融、网络治理四个领域)。
报告题目:从多模态联合预训练到多模态大语言模型:架构、训练、评测
报告摘要:类GPT-4的“大视觉语言模型”是最近多模态领域的热潮。目前的大模型,包括BLIP-2,MiniGPT4,LLaVA,Lynx等等,已经展现了令人惊喜的能力。这些模型可以回答图片相关的问题,做OCR,理解网上的梗图,但也会产生幻觉(object hallucination)而胡言乱语。本次报告介绍大视觉语言模型发展的三个阶段,即多模态联合预训练、以语言模型为中心的大视觉语言模型和原生大视觉语言模型,并介绍课题组推出的多模态大模型评测基准(Reform-Eval)。