【人工智能】大语言模型需要更好的视觉基础来理解含义 | 谢赛宁 | DiT作者 | 多模态语言模型的视觉缺陷 | 基于视觉搜索引导的多模态大模型 | GPT-4V | CLIP | SEAL

Описание к видео 【人工智能】大语言模型需要更好的视觉基础来理解含义 | 谢赛宁 | DiT作者 | 多模态语言模型的视觉缺陷 | 基于视觉搜索引导的多模态大模型 | GPT-4V | CLIP | SEAL

6 月 15 日,在智源大会的「多模态大模型」论坛上,纽约大学助理教授谢赛宁,从哲学的角度出发,分享了针对大语言时代的视觉表征研究。他和他的团队为我们带来了两篇最新的研究论文,分别从探索多模态大型语言模型的视觉缺陷、基于视觉搜索引导的多模态大模型,以及真实世界中的虚拟智能落地等方面,介绍了团队的最新工作。今天大飞想通过谢赛宁的分享,让我们一睹计算机视觉研究领域的最前沿研究成果。

原视频地址:https://event.baai.ac.cn/live/799 ,01:47:26开始

#人工智能 #computervision #multimodal #sainingxie

Комментарии

Информация по комментариям в разработке