技术标签: llama 语言模型 音视频 大语言模型文献调研
本文是关于论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》的简要介绍。Video-LLaMA是阿里达摩院的一个多模态大语言模型产品,可以理解视频中视觉和听觉内容。和很多多模态大语言模型类似,模型结构和训练方式中规中矩,但是针对视频这种信息量丰富的数据类型,作者提出了一些创意。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
模型结构:与以往仅补充LLMs处理视觉或音频信号的作品不同,Video-LLaMA通过应对两个挑战实现视频理解:
(1)捕捉视觉场景中的时序变化:作者提出了Video Q-former,将一个预训练的图像编码器组装到视频编码器中,并引入视频到文本生成任务来学习视频-语言对应关系。
(2)整合音频-视觉信号。利用通用嵌入模型ImageBind作为预训练音频编码器,并在ImageBind之上引入一个Audio Q-former,为LLM模块学习合理的听觉查询嵌入。
训练方式:和很多多模态大语言模型一样,Video-LLaMA冻结预训练视觉和音频编码器,冻结的LLMs,进行跨模态训练。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐,作者首先在海量视频/图像标题对上训练Video-LLaMA,然后使用质量更高但数量适中的视觉指导数据集模型。
论文链接:https://arxiv.org/pdf/2306.02858.pdf
代码链接:https://github.com/DAMO-NLP-SG/Video-LLaMA
展示样例:https://www.youtube.com/watch?v=RDNYs3Rswhc&feature=youtu.be
论文引用:
@article{zhang2023video,
title={Video-llama: An instruction-tuned audio-visual language model for video understanding},
author={Zhang, Hang and Li, Xin and Bing, Lidong},
journal={arXiv preprint arXiv:2306.02858},
year={2023}
}
大型语言模型(LLMs)已经表现出了出色的理解和遵循用户意图和指令的能力。研究人员通常将用户请求和LLMs的响应都以文本形式表达,但是,在许多应用场景下,仅限于文本的人机交互并不足够,真实世界的信息通常是多模态的。
现有工作的不足。为了进一步探索LLMs的潜力,许多研究人员尝试赋予LLMs理解多模态内容的能力。包括使用大量交织的图像-文本数据或语音-文本数据对多模态LLMs进行大规模预训练,以适应多模态输入。或者采用更高效的参数方式,通过补充LLMs与现成的视觉或语音基础模型来实现多模态理解。尽管这些方法有效,但它们致力于将来自一个额外模态(即图像或音频)的输入与文本对齐,这对于视频理解来说远远不够。要使LLMs理解视频,需要全面处理包括视觉输入、听觉输入和文本输出在内的不同模态,这比仅理解图像或仅理解音频任务更具挑战性。近期有一些研究尝试释放LLMs的视频理解能力,但它们主要目的是仅理解视频的视觉内容,而忽略了听觉内容。因此,作者的研究旨在填补加入音频的-视觉LLMs的空白,探讨构建支持视频输入的多模态LLMs的可能性,使用户能够围绕用户上传的视频与计算机进行交流。
构建端到端模型处理多模态结构。视频通常由多个视频帧和音频组成。与使用外部感知模型将视觉/听觉信号转换为文本信号不同,作者构建了一个端到端模型,可以在单个框架内处理来自多种模态的数据。采用BLIP-2的思想来保证跨模态预训练的效率。为了明确捕获视频中视觉场景的变化,使用预训练的视觉编码器分别计算帧表示。然后,我们引入了帧嵌入层来注入时间信息,以及一个视频Q-Former来生成视觉查询标记。对于视频中的音频信号,我们另外利用预训练的音频编码器以及音频Q-Former来学习合理的听觉查询嵌入。
多支路跨模态预训练实现视频与文本的对齐。为了使文本输出与视频对齐,作者设计了多支路交叉模态预训练,以学习视觉-语言对应关系和音频-语言对应关系。首先在大规模视频文本数据集上对与视觉相关的组件进行预训练,然后在视频会话数据集上进行微调,以执行视觉指令调整。对于音频编码器和语言解码器之间的对齐,作者进一步在音频文本数据集上对音频相关组件进行预训练。作者利用Imagebind作为编码器,将不同模态对齐到公共嵌入空间。
**大型语言模型(LLMs)**已成为跨领域的自然语言理解和生成的强大工具,涵盖了文章、对话、故事和诗歌等多种领域。诸如LLaMA、BLOOM和OPT等开源LLMs大大推动了技术的进步,并为自然语言处理社区做出了巨大贡献。借助这些LLMs奠定的基础,研究人员进一步扩展了它们的能力,开发了针对特定自然语言处理任务的专门模型,如Vicuna和Baize。作者在这些进展的基础上,通过增强LLMs的能力,使其能够理解视频中的视觉和听觉内容,从而扩展了它们在多媒体应用中的实用性和影响力。
研究人员一直积极探索利用LLMs处理多模态输入的方法。现有方法可分为两大类。第一类是将LLMs作为控制器,利用现有的多模态模型作为工具。在这种方法中,当接收到用户的文本指令时,LLM识别用户意图并决定调用哪些工具,然后通过整合这些现成的多模态模型得到综合性回应。例如包括ChatGPT、HuggingGPT和AudioGPT等。第二类侧重于训练基础的大规模多模态模型。这一系列工作的关键思想是将其他模态的预训练基础模型与文本LLMs进行对齐。例如,Flamingo利用感知器重采样器和门控交叉注意力层连接冻结的图像编码器和LLMs。BLIP2引入Q-Former将学习的图像查询映射到LLMs的文本嵌入空间。mPLUG-owl和MiniGPT4使用图像-指令数据集开发了遵循指令的图像-LLMs。Video-Chat和Video-ChatGPT将图像编码器扩展到视频编码器,并与LLMs连接以理解视频中的视觉内容。PandaGPT利用ImageBind的多模态编码器,专门训练在图像-指令对上,使大型模型能够理解六种模态。作者的工作属于第二类别,训练基础模型来理解视频中的视觉和听觉内容。
视觉-语言分支。视觉-语言分支旨在使大型语言模型(LLMs)能够理解视觉输入,有以下要点:
组成部分:
过程:
实现:
音频-语言分支。引入音频-语言分支来处理所提供视频的音频内容。旨在使LLMs能够理解并基于音频输入生成文本,要点如下:
组成部分:
过程:
实现:
作者分别训练视觉-语言和音频-语言分支。在第一阶段,使用大规模的视觉-文本数据集进行训练;在第二阶段,使用高质量的指示遵循数据集进行微调。将图像视为单帧视频处理。
视觉-文本分支,有以下要点:
数据集利用:利用Webvid-2M和CC595k数据集进行预训练。Webvid-2M包含库存视频网站的短视频及文本描述。CC595k数据集源自CC3M。
预训练阶段:采用视频到文本生成任务。促使冻结的LLM生成相应的文本描述。部分文本描述无法充分反映视频内容,导致视觉语义与文本描述不完全一致。预训练阶段旨在利用大量数据,使视频特征尽可能包含更多视觉知识。
微调阶段:视觉-文本对齐和指示遵循能力留待下一个阶段。模型在信息生成方面表现良好,但遵循指令的能力有所下降。
使用高质量的指示数据对模型进行微调。整合了来自MiniGPT4、LLaVA和Video-Chat的图像和视频指令数据集。Video-LLaMA在遵循指示和理解图像和视频方面展现出显著能力。
音频-文本分支:
作者提出了多模态框架Video-LLaMA,为大型语言模型赋予了音频和视频理解能力。实验展示了Video-LLaMA在音频和视频驱动对话中的能力,突显其作为音视频人工智能助手有着巨大潜力的原型。作者开源了整个训练代码和各种模型,并提供了详细指导,以帮助开发人员利用我们的代码进行进一步开发。另外,作者提供了在线演示网站和离线演示部署指南,让用户直接体验Video-LLaMA的功能。致力于不断维护和改进Video-LLaMA,并将继续为开源社区做出贡献。
现有工作也有一些可以提高的地方:
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态
文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境
文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn
文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker
文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机
文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk
文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入
文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。 Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。
文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动
文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计
文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图
文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法