校内各单位:
为促进我校人工智能相关专业教师与研究生的学术交流,开拓学术视野,助力交叉学科发展,教师发展中心联合未来技术学院/人工智能学院面向全校师生开展AI赋能高等教育论坛。具体安排如下:
一、主题:大模型与生成式人工智能
二、时间地点:
时间:2025年1月11日(星期六)08:30-17:00
地点:主楼第一报告厅
三、参训对象
从事人工智能或基于人工智能交叉学科研究的老师、研究生
四、日程安排
| 时间 | 专家、主题与摘要 |
1 | 08:30-08:40 | 开场致辞 |
2 |
08:40-10:00 | 专题报告一 |
主题 | 自回归视觉生成现状与展望 |
讲者 | 邓皓戈 北京邮电大学 |
摘要 | 视觉生成领域,包括图像、视频和3D生成,经历了从GAN到扩散模型(Diffusion)等技术的不断变革。近年来,自回归模型凭借其假设当前输出依赖于过去一系列输出的特性,在自然语言处理(NLP)领域取得了显著成效。随着ChatGPT等大型语言模型的成功应用,研究人员开始探索自回归模型在计算机视觉生成领域的潜力。本报告将从任务分解的角度出发,介绍自回归生成模型的基本组件和架构原理,并对比分析不同类型自回归生成模型及其各自特点。同时,报告将探讨自回归模型与其他生成模型(如扩散模型和变分自编码器(VAE))之间的关系,并评估自回归生成模型在各类视觉应用中的价值,最后讨论其对未来研究和技术发展的潜在影响。
|
3 |
10:10-11:30 | 专题报告二 |
主题 | 多模态理解生成统一大模型的发展与应用 |
讲者 | 吴成岳 香港大学 |
摘要 | 多模态理解生成统一大模型是指能够处理和生成多种模态数据(如文本、图像、音频等)的人工智能模型。这类模型融合了计算机视觉、自然语言处理等多个领域的技术,能够实现对复杂任务的理解和生成。随着深度学习和神经网络的进步,多模态大模型取得了显著的发展,成为当前人工智能研究和应用的热点之一。从最初的纯理解模型出发,到逐步发展为理解与生成统一的大模型,期间涉及了架构设计和技术创新的诸多变革。例如,最初的视觉语言模型依赖于单一的视觉或语言输入进行理解,而现代的大型多模态模型则通过更复杂的架构,结合了文本、图像和其他模态的信息进行综合推理和生成。本次将讨论这些创新背后的技术突破,以及它们如何推动了多模态模型在各种实际应用领域中的广泛应用与成功实现。 |
4 |
14:00-15:00 | 专题报告三 |
主题 | 由分割一切迈向感知一切 |
讲者 | 潘汀 中科院计算所 |
摘要 | 如何高效地定位与识别任意感兴趣区域,是实现视觉感知的核心设计目标。这一目标要求视觉基础模型能够在一次编码中,对任意区域执行如分割、识别、描述等基本感知任务。在这一背景下,近年来的视觉预训练方法取得了显著进展,主要涵盖了掩码图像建模(MIM)、对比图像学习(MoCo)、对比图文建模(CLIP)以及分割一切建模(SAM)等研究路径。本次分享将系统回顾并深入探讨这些方法的发展历程,重点介绍“标记一切”(TAP,Tokenize Anything)模型,该模型通过单一视觉架构实现了对任意区域的空间与语义理解。特别地,将详细阐述TAP模型的研究背景与技术实现,深入分析其训练细节、国产显卡支持、Infra设计等关键因素,并与同类方法进行对比,探讨其在实际应用中的独特优势。 |
5 |
15:10-16:10 | 专题报告四 |
主题 | 开放场景中的通用自动驾驶世界模型 |
讲者 | 高深远 香港科技大学 |
摘要 | 世界模型是对物理世界的精确模拟,它能够预测智能体在不同动作下可能达到的未来状态,并将这些预测结果反馈到智能体的训练和决策过程中,从而提升智能体在复杂环境中的适应性和决策能力。在自动驾驶领域,世界模型具有解决多个核心问题的潜力,包括高效的错误重放、合成数据生成、以及增强决策过程的鲁棒性等。由于其在提升自动驾驶系统智能化、可靠性和安全性方面的巨大优势,世界模型正受到学术界和工业界的广泛关注与研究。本次分享将重点介绍 GenAD 和 Vista 系列工作的最新进展,这些工作为构建能够在开放场景中有效泛化的通用自动驾驶世界模型提供了创新的技术路线。GenAD 主要关注于通过高效的动态建模来增强智能体对环境的预测能力,解决传统自动驾驶系统中无法应对复杂场景变化的问题。而 Vista 系列则从多模态融合与自监督学习的角度出发,探索如何通过虚拟数据增强系统的训练效果,同时提高模型对未知场景的适应性。 |
6 |
16:20-17:00 | 交流讨论 |
摘要 | 议题1:Vision-Language模型中视觉理解更重要还是语言理解更重要? 议题2:Vision-Language未来主流架构会是什么?统一的架构还是分而治之? 议题3:自回归和Diffusion生成式大模型的快速兴起将会给视觉生成领域带来哪些新的机遇和挑战?在未来一段时间哪些任务有望实现大的突破? 议题4:畅想生成领域与3D视觉、具身智能体的结合,会诞生哪些有意思的研究课题和应用场景? 议题5:如何挖掘大模型在开放环境中的能力以及面对Corner Case问题的创新性解决方案,以应对大模型在极端情境下的挑战? 议题6:在有特定安全需求的场景下 (如自动驾驶,智慧医疗、内容审核等),如何更好的设计防御机制对抗大模型的“越狱”攻击? 议题7:目前工业界在视觉生成领域面临哪些关键技术需求?在大模型的背景下,学术界应如何实现突破?除了依赖大厂的算力和数据,学术界还能从哪些研究方向着手,进一步拓展视觉生成领域的深度与广度? 议题8:学术界有必要在理解和生成领域提出新的benchmark吗?目前缺少能反应模型真实能力的评测数据集,有必要进行不同粒度的标注吗? |
五、报名
请各学院于1月10日12:00前统一填写《大连理工大学AI赋能高等教育论坛(第一期)报名表》(附件)发送至wangn@dlut.edu.cn。本次培训不接受个人报名。
六、报告人简介
1. 邓皓戈 —— 北京邮电大学青年学者,专注于生成大模型的研究,包括2D图像、视频和和3D场景建模等,发表包括ICLR,CVPR,ICASSP等发表了多篇顶级国际学术论文,GitHub社区累计获得超过1.3k个星标,ICCV,ECCV,ICLR,CVPR等多个国际顶级会议审稿人。
2. 吴成岳 —— 香港大学MMLab青年学者,研究方向为多模态大模型,包括多模态生成、理解和统一大模型等领域,在ICML、ACL、NeurIPS等顶级会议上发表了八篇高水平的学术论文,开源项目GitHub获赞1k+,TPAMI,CVPR等多个顶刊顶会审稿人。
3. 潘汀 —— 中科院计算所青年学者。主要研究方向为视觉预训练与视觉基础模型,致力于推动计算机视觉领域的基础模型构建与优化。智源TAP 和 NOVA 模型主要作者及技术负责人,国内算力独角兽企业 AutoDL 首席技术官(CTO)。
4. 高深远 —— 香港科技大学青年学者、上海AI Lab研究员。研究领域为具身智能中世界模型的构建和应用,多次在 CVPR、NeurIPS、ECCV 等国际顶级会议上发表论文,TPAMI、ICLR、ICML、NeurIPS、CVPR 等多个国际顶级期刊和会议审稿人。
七、联系方式
联系人: 王楠 电话:84709857
江贺 电话:39076878
附件:大连理工大学AI赋能高等教育论坛(第一期)报名表
教师发展中心
2025年1月8日