弋力_第五届全国SLAM技术论坛

弋力

报告题目：多模态大模型驱动的开放世界具身感知与交互

报告摘要：

当前的具身智能研究大多聚焦于在特定环境下针对特定技能的学习,距离实现在开放环境中解决各种任务的通用智能目标还有较大差距。近年来,多模态大模型的快速发展使得在开放环境中的感知理解任务表现出色。因此,如何利用和发展多模态大模型以驱动具身通用智能的发展,成为了一个值得探索的自然想法。本次报告将从两个角度展开讨论:一是如何从现有的多模态大模型中继承知识,以驱动通用泛化的感知与交互;二是如何发展更加适配于具身智能体的多模态大模型。一方面,我们可以利用现有多模态大模型关于海量知识的表征,以规划智能体更加多样化的交互行为,大幅拓展其交互技能。另一方面,我们从想象力和交互力的角度出发,打造面向具身规划的多模态大模型。我们相信具身大模型会为通用具身智能的发展提供强有力的范式。

报告人简介：

弋力博士，现任清华大学交叉信息研究院助理教授，国家优青（海外）。他在斯坦福大学取得博士学位，导师为Leonidas J. Guibas教授，毕业后在谷歌研究院任研究科学家。在此之前，他在清华大学电子工程系取得了学士学位。他近期的研究兴趣涵盖三维视觉和具身人工智能，他的研究目标是使智能机器人具备理解三维世界并与之互动的能力。他在计算机视觉、计算机图形学以及机器学习领域的顶级会议发表论文六十余篇，并担任CVPR 2022-2024、IJCAI 2023、NeurIPS 2023领域主席。他的工作在领域内得到广泛关注，引用数20000+，代表作品包括ShapeNet Part，光谱图CNN，PointNet++等。

弋力

你知道你的Internet Explorer是过时了吗?