金连文 教授
讲者简介:金连文,华南理工大学二级教授,兼任中国图象图形学学会(CSIG)常务理事、CSIG文档图像分析与识别专委会主任、广东省图象图形学会理事长、CAAI模式识别专委会、CAA模式识别与机器智能专委会常委、广东省高校音视频图文智能信息处理工程研究中心主任等职。主要研究领域为文字识别、文档图像理解、计算机视觉、人工智能及应用等,在重要学术期刊及国际会议上发表论文200余篇(其中SCI一区+CCF A类论文100余篇),Google Scholar论文被引用数15000余次,H-Index 64。获省部级科技奖5项(其中一等奖2项,二等奖3项);荣获CAAI、CIE、CSIG等全国性学会科技进步二等奖3项;指导学生参加CVPR、ICDAR、ICPR、PRCV等国际国内知名会议上的学术竞赛并荣获冠军20余次。
报告题目:多模态大模型技术及其在OCR的应用
报告摘要:随着大语言模型(LLMs)的兴起,面向自然语言处理领域的通用人工智能(AGI)取得了重大突破,近两年来多模态大语言模型、视觉基础模型等视觉AGI技术也引起了广泛的研究关注并取得了快速发展。本报告将简要回顾近年来多模态大模型和光学文字识别(OCR)垂直领域大模型的代表性研究进展,介绍面向OCR领域的一些最新的垂直大模型和AGI模型的构建方法和技术路线,展示我们团队近期研发的多模态古籍智能对话“通古大模型”应用演示系统,并对OCR及CV领域多模态大模型发展趋势与未来研究方向进行讨论。