张铂 研究员
讲者简介:张铂,上海人工智能实验室青年研究员,上海市科委科技创新启明星人才(A类)。他目前的研究兴趣主要包含:1)高质量、结构化、多模态数据的预训练和高效率微调方向;2)多模态大模型应用。他曾在CVPR, NeurIPS, ICLR, ICML, T-PAMI, TIP, T-MM, IJCV等国际顶级会议和期刊发表二十多篇论文,其中第一作者/通讯作者论文12篇。他曾多次担任CVPR/ECCV/ICCV/ICLR/ICML/TIP/TNNLS/TMM/TGRS等多个国际学术会议和期刊的审稿人。在校期间曾获博士生国家奖学金(国家级),“互联网+”大学生创新创业大赛国赛金奖(国家级)等多项荣誉。工作期间,主导研发3DTrans通用场景表征开源项目并获得Waymo Challenge国际挑战赛冠军,多模态-科学文档大模型等开源项目,累计Star量1.5k,致力于推动多模态大模型技术在科学文档理解、科学研究survey、自动驾驶等场景的快速应用。
报告题目:多模态结构化文档理解与多模态大模型合成文档检测
报告摘要:多模态大语言模型已经在解决视觉文本、视觉语音、视觉推理等任务上方面表现出强大的能力。然而在实际应用中,数据通常呈现出多样化和多模态的特点,如文本、图像、视频、声音等。如何有效地利用这些多模态数据,进行通用的结构化表征学习,以此来消除不同模态之间的数据差异成为当前大模型方向所面临的重要挑战之一。本次报告首先回顾目前已有的多模态大模型在统一表征内容理解、识别任务上的研究进展,针对目前多模态大模型难以理解复杂模态如图表、表格、几何图像等模态的问题,以及多模态大模型难以理解科学文献内在逻辑关系的问题,提出了统一的结构化表征形式,弥补模型在执行推理任务时所产生的幻觉问题,进而提升大模型在图表、几何、科学文献理解等复杂推理任务中的能力。与此同时,随着多模态大模型生成能力日益提升,其合成图像、文本、视频等多媒体内容十分逼真,甚至真假难辨,可能滥用于学术文档撰写、虚假新闻制作等场景,从而引发学术不端、社会舆论担忧等不良影响。因此,本报告回顾涵盖人工智能视觉合成内容、文本合成内容等不同模态的检测方法,特别是具有强泛化能力的零样本检测方法,最后介绍最新研究成果以及未来探索方向。