使用下面的搜索规则,更精确:
例如: site:news.163.com author:老司机 saved:搜索自己收藏的内容
site:news.163.com author:老司机 saved:搜索自己收藏的内容
默认搜索标题...
#AI开源项目推荐#:Video-LLaVA 北京大学的多模态图像视频识别 论文摘要: 大型视觉-语言模型(LVLM)在视觉与语言理解的各种任务中表现出色。传统方法通常将图像和视频分别编码到不同的特征空间,再作为输入提供给大语言模型(LLM)。但由于图像和视频在投影前未能实现统一的词元化,导致大语言模型难以从多个较差的投影层中学习多模态交互。在本研究中,我们尝试将视觉信息融入语言特征空间,以推动基础大语言模型向更统一的大型视觉-语言模型发展。因此,我们创建了一个简单而强大的大型视觉-语言模型基线,名为 Video-LLaVA,它通过学习混合的图像和视频数据集来实现相互增强。Video-LLaVA 在包含 5 个图像问答数据集和 4 个图像基准工具包的 9 个主要图像基准测试中取得显著成效。另外,我们的 Video-LLaVA 在 MSRVTT、MSVD、TGIF 和 ActivityNet 四个基准测试中,分别比 Video-ChatGPT 高出 5.8%、9.9%、18.6% 和 10.1%。更重要的是,广泛的实验表明 Video-LLaVA 通过统一的视觉表示,促进了图像和视频的相互提升,其性能超越了专门针对图像或视频设计的模型。 在线测试地址:https://t.co/eqf4l9XOjX 项目地址:https://t.co/J4bthrYcwx 论文:https://t.co/YQwUh9ByUj
只需要几秒!
创建帐户
已拥有账号并想要登录?
登陆 忘记密码?