#AI开源项目推荐#：Video-LLaVA北京大学的多模态图像视频识别论文摘要：…

发布时间: 2023-11-21 15:30:25

1分

数据加载中

#AI开源项目推荐#：Video-LLaVA
北京大学的多模态图像视频识别
论文摘要：…
IT技术
( twitter.com )

#AI开源项目推荐#：Video-LLaVA

北京大学的多模态图像视频识别

论文摘要：
大型视觉-语言模型（LVLM）在视觉与语言理解的各种任务中表现出色。传统方法通常将图像和视频分别编码到不同的特征空间，再作为输入提供给大语言模型（LLM）。但由于图像和视频在投影前未能实现统一的词元化，导致大语言模型难以从多个较差的投影层中学习多模态交互。在本研究中，我们尝试将视觉信息融入语言特征空间，以推动基础大语言模型向更统一的大型视觉-语言模型发展。因此，我们创建了一个简单而强大的大型视觉-语言模型基线，名为 Video-LLaVA，它通过学习混合的图像和视频数据集来实现相互增强。Video-LLaVA 在包含 5 个图像问答数据集和 4 个图像基准工具包的 9 个主要图像基准测试中取得显著成效。另外，我们的 Video-LLaVA 在 MSRVTT、MSVD、TGIF 和 ActivityNet 四个基准测试中，分别比 Video-ChatGPT 高出 5.8%、9.9%、18.6% 和 10.1%。更重要的是，广泛的实验表明 Video-LLaVA 通过统一的视觉表示，促进了图像和视频的相互提升，其性能超越了专门针对图像或视频设计的模型。

在线测试地址：https://t.co/eqf4l9XOjX
项目地址：https://t.co/J4bthrYcwx
论文：https://t.co/YQwUh9ByUj

Markdown支持

评论加载中...

您可能感兴趣的：更多

#AI开源项目推荐#：Video-LLaVA
北京大学的多模态图像视频识别
论文摘要：…
IT技术
( twitter.com )

IT技术

AI开源项目推荐：Tune-A-Video
通过文本直接生成视频。

BTW：蔡徐坤都火到AI圈了😄
漫画
( github.com)

漫画

#AI开源项目推荐：GFPGAN
腾讯开源的AI模型GFPGAN，能帮助恢复老照片

项目地址：
在线测试地址：
IT技术
( twitter.com)

IT技术

#AI开源项目推荐：Real-ESRGAN
实用的图像/视频修复算法

🔗
IT技术

开源推荐
( github.com)

IT技术

开源推荐

#AI开源项目推荐：wav2lip

可以音频输入生成口型同步视频。

项目首页：
代码仓库：
论文：

视频来源：

IT技术
( twitter.com)

IT技术

开源项目推荐：video-subtitle-extractor
反向将已经烧制到视频中的字幕提取成srt文件

…
漫画
( twitter.com)

漫画

#AI开源项目推荐：screenshot-to-code
借助GPT-4V，直接把屏幕截图生成HTML网页
IT技术
( twitter.com)

IT技术

#AI开源项目推荐：qingwu-zimu
青梧字幕是一款基于whisper的AI字幕提取工具，有完整的字幕提取、翻译和导出功能。
项目地址：
IT技术
( github.com)

IT技术

#开源项目推荐：minosoft
用 Kotlin 从头写的一个开源 Minecraft
IT技术
( github.com)

IT技术

开源项目推荐：ChatGPT资料汇总学习


漫画
( github.com)

漫画

#AI开源项目推荐#：Video-LLaVA 北京大学的多模态图像视频识别 论文摘要：… IT技术 ( twitter.com )

IT技术

AI开源项目推荐：Tune-A-Video 通过文本直接生成视频。 BTW：蔡徐坤都火到AI圈了😄 漫画 ( github.com)

漫画

#AI开源项目推荐：GFPGAN 腾讯开源的AI模型GFPGAN，能帮助恢复老照片 项目地址： 在线测试地址： IT技术 ( twitter.com)

IT技术

#AI开源项目推荐：Real-ESRGAN 实用的图像/视频修复算法 🔗 IT技术 开源推荐 ( github.com)

IT技术

开源推荐

#AI开源项目推荐：wav2lip 可以音频输入生成口型同步视频。 项目首页： 代码仓库： 论文： 视频来源： IT技术 ( twitter.com)

IT技术

开源项目推荐：video-subtitle-extractor 反向将已经烧制到视频中的字幕提取成srt文件 … 漫画 ( twitter.com)

漫画

#AI开源项目推荐：screenshot-to-code 借助GPT-4V，直接把屏幕截图生成HTML网页 IT技术 ( twitter.com)

IT技术

#AI开源项目推荐：qingwu-zimu 青梧字幕是一款基于whisper的AI字幕提取工具，有完整的字幕提取、翻译和导出功能。 项目地址： IT技术 ( github.com)

IT技术

#开源项目推荐：minosoft 用 Kotlin 从头写的一个开源 Minecraft IT技术 ( github.com)

IT技术

开源项目推荐：ChatGPT资料汇总学习 漫画 ( github.com)

漫画

创建一个新帐户

登录

#AI开源项目推荐#：Video-LLaVA
北京大学的多模态图像视频识别
论文摘要：…
IT技术
( twitter.com )

AI开源项目推荐：Tune-A-Video
通过文本直接生成视频。

BTW：蔡徐坤都火到AI圈了😄
漫画
( github.com)

#AI开源项目推荐：GFPGAN
腾讯开源的AI模型GFPGAN，能帮助恢复老照片

项目地址：
在线测试地址：
IT技术
( twitter.com)

#AI开源项目推荐：Real-ESRGAN
实用的图像/视频修复算法

🔗
IT技术

开源推荐
( github.com)

#AI开源项目推荐：wav2lip

可以音频输入生成口型同步视频。

项目首页：
代码仓库：
论文：

视频来源：

IT技术
( twitter.com)

开源项目推荐：video-subtitle-extractor
反向将已经烧制到视频中的字幕提取成srt文件

…
漫画
( twitter.com)

#AI开源项目推荐：screenshot-to-code
借助GPT-4V，直接把屏幕截图生成HTML网页
IT技术
( twitter.com)

#AI开源项目推荐：qingwu-zimu
青梧字幕是一款基于whisper的AI字幕提取工具，有完整的字幕提取、翻译和导出功能。
项目地址：
IT技术
( github.com)

#开源项目推荐：minosoft
用 Kotlin 从头写的一个开源 Minecraft
IT技术
( github.com)

开源项目推荐：ChatGPT资料汇总学习

漫画
( github.com)