王永威 研究员

1721024411969551.png

讲者简介:王永威,浙江大学平台百人计划研究员、浙江大学上海高等研究院计算+AI创新实验室常务副主任,博士毕业于加拿大英属哥伦比亚大学(UBC),师从加拿大工程院院士王真(Z. Jane Wang)教授和加拿大两院院士、美国国家工程院院士Rabab Ward教授,随后于新加坡南洋理工大学担任Research Fellow。从事生成式AI、多媒体安全、大小模型协同等研究方向,发表人工智能顶会/顶刊等国际权威论文30余篇,包括IEEE TPAMIICLRAAAIACM MMWWWKDD等论文,曾获上海市浦江人才(A类)、上海市领军人才(海外)等称号,担任中国图象图形学会数字媒体取证与安全专业委员会委员、国际图像处理会议分会场主席,《航空兵器》青年编委,以及多个国际顶级期刊审稿人。

报告题目:多模态结构化文档理解与多模态大模型合成文档检测

报告摘要:多模态大语言模型已经在解决视觉文本、视觉语音、视觉推理等任务上方面表现出强大的能力。然而在实际应用中,数据通常呈现出多样化和多模态的特点,如文本、图像、视频、声音等。如何有效地利用这些多模态数据,进行通用的结构化表征学习,以此来消除不同模态之间的数据差异成为当前大模型方向所面临的重要挑战之一。本次报告首先回顾目前已有的多模态大模型在统一表征内容理解、识别任务上的研究进展,针对目前多模态大模型难以理解复杂模态如图表、表格、几何图像等模态的问题,以及多模态大模型难以理解科学文献内在逻辑关系的问题,提出了统一的结构化表征形式,弥补模型在执行推理任务时所产生的幻觉问题,进而提升大模型在图表、几何、科学文献理解等复杂推理任务中的能力。与此同时,随着多模态大模型生成能力日益提升,其合成图像、文本、视频等多媒体内容十分逼真,甚至真假难辨,可能滥用于学术文档撰写、虚假新闻制作等场景,从而引发学术不端、社会舆论担忧等不良影响。因此,本报告回顾涵盖人工智能视觉合成内容、文本合成内容等不同模态的检测方法,特别是具有强泛化能力的零样本检测方法,最后介绍最新研究成果以及未来探索方向。


你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.