首页 >> 音乐

字节跳动 AI Lab 提出多蕴涵模型：X-VLM，学习视觉和语言多粒度对齐

郴州娱乐新闻网 2025-08-29

促请建模能图表分析出相异一般来说的影像种概念的投影，以分界线侧边投影的回归受损失和收并比受损失最佳化。实验证明，这种先于基础训练分析方法十分很高效，建模影响力也需不小，先于基础训练图表需很多，X-VLM 就能在北岸多种多假定明白/聚合战斗任务上授予比较卓越的详见现。

分析方法

X-VLM 由一个三维类比，一个文档类比，一个区域性假定类比组形同。

布2左侧所述了影像种概念（可以是详见面/周边地区/页面）的区块反复：该三维类比基于Vision Transformer，将输入页面分形同patch区块。然后，所述假定一个分界线侧边，敏捷地通过取侧边里所有patch详见示的平均授予周边地区的一个系统详见示。如此一来将该一个系统详见示和原本侧边里所有的patch详见示按照原本顺序排列整理形同序列，作为该分界线侧边所相异的影像种概念的详见示。通过这样的形式授予页面本身(I)和页面里影像种概念（V1，V2，V3）的区块。与影像种概念相异的文档，则通过文档类比一一区块授予，例如页面结尾、周边地区描述、或详见面标记。

X-VLM采用常见于的建模结构，其各有不同之处在于先于基础训练的分析方法。译者通过表列两类受损失开展最佳化：

第一，在同一张页面里，所述各有不同的文档，例如：T(text)、T1(text1)、T2(text2)、T3(text3)，促请建模图表分析页面里相异影像种概念的分界线侧边：

xjcls是区域性假定类比在 [CLS] 一段距离的区块器矢量。Sigmoid 变量是为了标准化图表分析的分界线侧边。Ground-truth bj相异了，分别为是标准化后的的里心横投影、里心纵投影、宽、很高。终于，该受损失是分界线侧边投影的回归受损失（L1）和收并比受损失（GIoU）之和。译者显然在同一张页面里，给各有不同字词，促请建模图表分析出相异的影像种概念，能使建模更是有效地深造到多一般来说的影像词汇里间。该受损失也是首次被技术的发展于在多假定先于基础训练里。

第二，技术的发展于patch embeddings来敏捷详见示各种一般来说的影像种概念，然后并不需要最佳化建模去利是各有不同一般来说的文档和影像种概念，包括了详见面/周边地区/页面与文档的里间。译者技术的发展于多假定先于基础训练里常见于的三个受损失最佳化，分别为是：

1）对比深造受损失：

yv2t，yt2v ∈ Rbsz x bsz是ground-truth完全相同度, 每条为1，其余为0。

pv2t, pt2v ∈ Rbsz x bsz是建模基于字词类比区块器和三维类比区块器所量化的完全相同度。

2）匹配受损失：

pmatch是基于区域性假定类比量化，图表分析所给对是否匹配（换句话说，0/1分类）。对于每对正例，译者采样一对负例。

3）Masked Language Modeling受损失：

T(估计值)里的一些词已经被随机加进了 [MASK]，pj(V, T(估计值))是区域性假定类比在词tj一段距离的区块器矢量所量化的词详见概率分布。

实验

译者技术的发展于多假定先于基础训练里常见于的里等影响力也的4M和16M页面图表集开展实验，如下详见右图：

其里，标示出（# Ann）是周边地区标示出和详见面标记的总和。可以看出，有些图表集不不会页面结尾，例如Visual Genome（VG），有些图表集不不会页面标示出，例如CC-3M/12M。

详见2示范了在三维文档链接战斗任务 (MSCOCO和Flickr30K) 上的详见现。即使，以后的分析方法在非常大量的内部图表上先于基础训练或者建模影响力也非常大，在4M页面图表集下基础训练的X-VLM就已经可以最多以后的分析方法。

详见3示范了在影像解答 (VQA2.0和NLVR2)、影像定位 (RefCOCO+) 、页面描述聚合 (COCO Caption) 上的建模详见现。为了公平的对比，X-VLM 改用了以后临时工的 fine-tune 分析方法，不不会开展额外的调整。混合详见2和详见3，可以看出，比起以后的分析方法，X-VLM背书更是多种类的北岸战斗任务，并且在这些常见于的影像词汇战斗任务上都争得了十分卓越的详见现。

回顾和讨论

在本文里，译者明确提出了X-VLM以深造多一般来说的影像和词汇里间，必需避免很高开销的期望测定反复，也不传统意义深造三维最很高级别或详见面最很高级别的里间。X-VLM 的工夫在于：

1）基于 patch embeddings 敏捷详见示各种一般来说的影像种概念，然后并不需要利是各有不同一般来说的影像种概念和相异文档；

2）更是进一步，在同一张页面里，所述各有不同的文档，促请建模能图表分析出相异影像种概念的投影。实验证实这种先于基础训练分析方法十分很高效。

在实验部分，译者技术的发展于特指的4M和16M图表，基础训练总参总数216M的 X-VLM ，就能最多非常大影响力也的建模或技术的发展于大量先于基础训练图表的建模，在北岸多种多假定明白/聚合战斗任务上争得比较卓越的详见现。并且，字节脉搏的工程师们也把 X-VLM 用在了想像的业务场景上，例如：为视障人群描述页面以下内容，小学生作业的则不会口试。实际上，X-VLM 还十分擅细一般来说的 retrieval，visual grounding 等战斗任务。

。

上海癫痫医院去哪家好
专业治疗男性不孕不育
长沙牛皮癣治疗费用多少钱
沈阳看妇科到哪家医院好
杭州妇科医院去哪家好

字节跳动 AI Lab 提出多蕴涵模型：X-VLM，学习视觉和语言多粒度对齐

三年前被判定学术不端失去工作，现在他用一篇Nature子刊表明自己是对的

这6种狗，早已被各大都市“拉黑”，你还在养吗？

因春晚爆红，又突然变凉的5位明星，或许各不相同

济南高新发展股份有限公司高盛异常波动公告

薄膜硅光伏电池光吸收率创65%新纪录接近70%论点极限

字节跳动 AI Lab 提出多蕴涵模型：X-VLM，学习视觉和语言多粒度对齐

三年前被判定学术不端失去工作，现在他用一篇Nature子刊表明自己是对的

这6种狗，早已被各大都市“拉黑”，你还在养吗？

因春晚爆红，又突然变凉的5位明星，或许各不相同

济南高新发展股份有限公司高盛异常波动公告

薄膜硅光伏电池光吸收率创65%新纪录 接近70%论点极限

薄膜硅光伏电池光吸收率创65%新纪录接近70%论点极限