[凝聚态物质科学数据中心报告（第17期）] 基于多模态大模型的跨媒体推理研究

学术报告

题目: [凝聚态物质科学数据中心报告（第17期）] 基于多模态大模型的跨媒体推理研究

时间: 2026年06月09日 14:00

地点: 物理所怀柔园区MA楼505会议室

报告人: 钱胜胜（中国科学院自动化研究所研究员）

腾讯会议：553-378-837 会议密码：0609

报告摘要
随着人工智能技术的发展，大模型在多模态数据处理和推理方面展现出强大能力，结合具身智能后，更能通过与环境交互，融合感知、推理和行动能力，适应复杂场景。在无需大量标注数据的情况下，大模型利用预训练知识自然融合文本、图像、视频和音频等多媒体形式，并通过动态感知优化推理过程，提升少样本或零样本推理的准确性和适应性。本报告将介绍大模型驱动的跨媒体推理研究最新进展，包括基于发散式大模型推理的零样本组合图像检索、基于多模态大模型的流式视频理解和多模态智能体相关研究等。

报告人简介
钱胜胜，中国科学院自动化研究所研究员、博士生导师，国家基金委青年科学基金项目B类（原优青）获得者、北京市杰青。研究方向为多媒体内容理解，多模态大模型，在IEEE/ACM Trans.期刊和CCF-A类会议上发表论文80余篇，相关成果获中科院优博、ACM MM 2016年最佳论文、2019年最佳论文提名、SIGIR 2024年最佳论文提名、ICIG 2025年最佳论文等。担任CCF多媒体专委会副秘书长，主持国家自然科学基金联合基金重点项目、国家重点研发计划青年科学家项目、腾讯犀牛鸟专项、百度科研专项、小米科研专项和快手科研专项等，相关成果获中国电子学会技术发明一等奖（序2）。

邀请人：凝聚态物质科学数据中心

联系人：何露 helu@iphy.ac.cn