当前位置: 首页 > news >正文

网站建设管理制度落实php做手机网站

网站建设管理制度落实,php做手机网站,家装室内设计案例分析图文,网站开发怎么连接sqlserver#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。 基本信息 标题: LLaMA-VID: An Image is W… 个人主页小嗷犬的个人主页 个人网站小嗷犬的技术小站 个人信条为天地立心为生民立命为往圣继绝学为万世开太平。 基本信息 标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models 作者: Yanwei Li, Chengyao Wang, Jiaya Jia 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2311.17043 摘要 在这项工作中我们提出了一种新颖的方法来解决视觉语言模型VLMs在视频和图像理解中的token生成挑战称为LLaMA-VID。 当前的VLMs虽然在图像描述和视觉问答等任务上表现出色但在处理长视频时由于视觉token过多而面临计算负担。 LLaMA-VID通过用两个不同的token来表示每一帧即上下文token和内容token来解决这个问题。 上下文token根据用户输入编码整体图像上下文而内容token封装了每一帧中的视觉线索。 这种双token策略显著减少了长视频的负载同时保留了关键信息。 通常LLaMA-VID使现有框架能够支持长达一小时的视频并通过额外的上下文token提高了其上限。 它已被证明在大多数基于视频或图像的基准测试中优于先前的方法。 代码可在https://github.com/dvlab-research/LLaMA-VID上找到。 LLaMA-VID 在用户指令下LLaMA-VID通过接收单张图像或视频帧作为输入并从语言模型LLM生成响应。 该过程从视觉编码器开始将输入帧转换为视觉嵌入。 然后文本解码器根据用户输入生成文本查询。在上下文注意力中文本查询从视觉嵌入中聚合与文本相关的视觉线索。 为了提高效率提供了将视觉嵌入下采样到各种token大小或单个token的选项。 接着使用线性投影仪将文本引导的上下文token和视觉丰富的内容token构建出来以表示时间 t t t 的每一帧。 最后LLM 接收用户指令和所有视觉token作为输入并给出响应。 Encoder and Decoder 提出的LLaMA-VID可以用于与单张图片或长视频进行交互。 为了清晰起见我们假设输入图像是从视频序列中捕获的如在时间 t t t首先使用基于Transformer的视觉编码器来生成视觉嵌入 X t ∈ R N × C X_t \in \mathbb{R}^{N \times C} Xt​∈RN×C。 这里 N H / p × W / p N H/p \times W/p NH/p×W/p C C C 分别表示图像块的数量和嵌入通道。 对于基于ViT的骨干网络图像块大小 p p p 通常设置为14。 同时我们以用户指令为输入并生成文本引导的查询 Q t ∈ R M × C Q_t \in \mathbb{R}^{M \times C} Qt​∈RM×C其中 M M M 表示查询的数量。 如图2所示这种跨模态交互主要发生在文本解码器中可以轻松地使用BERT或QFormer实例化。 通过这种方式文本查询 Q t Q_t Qt​ 包含与用户指令最相关的突出视觉线索。 Token Generation 通过文本查询 Q t Q_{t} Qt​ 和视觉嵌入 X t X_{t} Xt​我们可以轻松地为大型语言模型LLMs生成代表性token。 具体来说上下文注意力被设计为聚合与文本相关的视觉特征并将它们压缩成一个单一的上下文token。 如图2所示它以 Q t Q_{t} Qt​ 和 X t X_{t} Xt​ 作为输入并制定上下文相关的嵌入 E t ∈ R 1 × C E_{t} \in \mathbb{R}^{1 \times C} Et​∈R1×C 为 E t Mean ( Softmax ( Q t × X t T ) × X t ) E_{t} \text{Mean}\left(\text{Softmax}\left(Q_{t} \times X_{t}^{T}\right) \times X_{t}\right) Et​Mean(Softmax(Qt​×XtT​)×Xt​) 其中Softmax 函数和 Mean 操作分别沿着 N N N 和 M M M 维度进行。 与采用32个视觉查询作为 LLMs token的 QFormer 不同我们仅使用文本查询 Q t Q_{t} Qt​ 来聚合具有高响应分数的视觉特征以输入指令。因此与用户相关的最关键视觉线索被有效地保留在压缩嵌入中。 随后使用线性投影器将嵌入 E t E_{t} Et​ 转换为上下文token E t T ∈ R 1 × C E_{t}^{T} \in \mathbb{R}^{1 \times C} EtT​∈R1×C这与 LLMs 的语言空间对齐。 同时我们根据计算限制采用自适应池化策略对视觉嵌入进行处理以产生内容token E t V ∈ R n × C E_{t}^{V} \in \mathbb{R}^{n \times C} EtV​∈Rn×C其中 n ∈ [ 1 , N ] n \in [1, N] n∈[1,N]。 例如当输入单张图像时我们保持视觉嵌入 X t X_{t} Xt​ 的原始分辨率而对长视频进行下采样将 X t X_{t} Xt​ 下采样为1个token。这种方法显著减少了每帧 LLMs 的开销从而有效支持长达数小时的视频。 最后生成的上下文token E t T E_{t}^{T} EtT​ 和内容token E t V E_{t}^{V} EtV​ 被连接起来表示时间 t t t 的帧。连同其他时间戳的帧整个视频序列被转换为token格式的语言空间然后用于生成来自大型语言模型LLMs的响应。 Training Strategy 三阶段训练 Modality Alignment: Context Attention、Projector ❄️ Visual Encoder、Text Decoder、LLMInstruction Tuning: Other ❄️ Visual EncoderLong Video Tuning: Other ❄️ Visual Encoder 实验 主实验 消融实验 总结 我们引入了LLaMA-VID这是一种简单而有效的VLMs视频语言模型token生成方法。 LLaMA-VID背后的核心概念是用上下文token和内容token来表示图像。具体来说上下文token是根据输入指令生成的而内容token则是基于图像内容产生的。 根据预算内容token可以被压缩为一个token或以未压缩的形式表达。这使我们能够以保留细节的方式表示单个图像并且只需两个token就能高效地编码每个视频帧。 此外我们还构建了一个用于理解时长为一小时的视频的指令数据集。 我们在多个基于视频和图像的基准测试上的实验证明了我们方法的优势。 我们希望LLaMA-VID能作为一个强大的高效视觉表示基准。
http://www.laogonggong.com/news/129277.html

相关文章:

  • 做网站公司苏州i深圳谁开发的
  • 网站开发有哪些框架国外vps
  • 网站开发系统简介wordpress主题模板
  • linux服务器wordpress建站教程视频海南网站建设案例
  • 数据库网站有哪些wordpress怎么使用主题
  • 网站后台安全性凯里网络公司
  • 做网站赚钱还是做应用赚钱批量做网站引流
  • 深圳营销型网站建设+宝安西乡查询百度关键词排名
  • 专业网站开发制作公司局域网多网站建设
  • 能领免做卡的网站网站开发前端规范
  • 深圳网站建设qwyx100seo外链查询工具
  • 网站建设哪家好推荐万维科技服务器网站部署端口配置
  • dedecms 网站地图成都公众号小程序开发
  • 公司网站放哪些内容织梦cms源码
  • 怎么样制作网站邮政企业微信app下载
  • 自己如何做简单网站WordPress 提交搜索引擎
  • 长春做网站公司长春网站排名wordpress后台密码忘记
  • 思科中国网站开发案例广东的一起(17)做网站
  • 安康免费做网站设计 网站 源码
  • 知乎,闲鱼网站建设和网站运营网站权重排行榜
  • 合肥网站建设培训机构重庆网润集团有限公司
  • 网站制作技术方案网站更新 缓存
  • 四川省建设厅官网站网站建设佛山拓客科技公司
  • 广东官网网站建设公司专业网站建设公司需要做好哪些方面的工作
  • 网站免费推广100种方法滨州网站建设phpi
  • 谁给个网站啊急急急2021国产crm系统91
  • 海南网站建设监理不用付费全部免费的追剧软件
  • 九龙坡区建设二校有网站吗滨海企业做网站多少钱
  • 官网网站模板网页端二维码在哪里
  • 东莞网站建设营销服务平台网络公司建网站