字节跳动 AI Lab 提出多蕴涵模型:X-VLM,学习视觉和语言多粒度对齐

郴州娱乐新闻网 2025-08-29

促请建模能图表分析出相异一般来说的影像种概念的投影,以分界线侧边投影的回归受损失和收并比受损失最佳化。实验证明,这种先于基础训练分析方法十分很高效,建模影响力也需不小,先于基础训练图表需很多,X-VLM 就能在北岸多种多假定明白/聚合战斗任务上授予比较卓越的详见现。

分析方法

X-VLM 由一个三维类比,一个文档类比,一个区域性假定类比组形同。

布2左侧所述了影像种概念 (可以是详见面/周边地区/页面)的区块反复:该三维类比基于Vision Transformer,将输入页面分形同patch区块。然后,所述假定一个分界线侧边,敏捷地通过取侧边里所有patch详见示的平均授予周边地区的一个系统详见示。如此一来将该一个系统详见示和原本侧边里所有的patch详见示按照原本顺序排列整理形同序列,作为该分界线侧边所相异的影像种概念的详见示。通过这样的形式授予页面本身(I)和页面里影像种概念(V1,V2,V3)的区块。与影像种概念相异的文档,则通过文档类比一一区块授予,例如页面结尾、周边地区描述、或详见面标记。

X-VLM采用常见于的建模结构,其各有不同之处在于先于基础训练的分析方法。译者通过表列两类受损失开展最佳化:

第一,在同一张页面里,所述各有不同的文档,例如:T(text)、T1(text1)、T2(text2)、T3(text3),促请建模图表分析页面里相异影像种概念的分界线侧边:

xjcls是区域性假定类比在 [CLS] 一段距离的区块器矢量。Sigmoid 变量是为了标准化图表分析的分界线侧边。Ground-truth bj相异了 ,分别为是标准化后的的里心横投影、里心纵投影、宽、很高。终于,该受损失是分界线侧边投影的回归受损失(L1)和收并比受损失(GIoU)之和。译者显然在同一张页面里,给各有不同字词,促请建模图表分析出相异的影像种概念,能使建模更是有效地深造到多一般来说的影像词汇里间。该受损失也是首次被技术的发展于在多假定先于基础训练里。

第二,技术的发展于patch embeddings来敏捷详见示各种一般来说的影像种概念,然后并不需要最佳化建模去利是各有不同一般来说的文档和影像种概念,包括了详见面/周边地区/页面与文档的里间。译者技术的发展于多假定先于基础训练里常见于的三个受损失最佳化,分别为是:

1)对比深造受损失:

yv2t,yt2v ∈ Rbsz x bsz是ground-truth完全相同度, 每条为1,其余为0。

pv2t, pt2v ∈ Rbsz x bsz是建模基于字词类比区块器和三维类比区块器所量化的完全相同度。

2)匹配受损失:

pmatch是基于区域性假定类比量化,图表分析所给 对是否匹配(换句话说,0/1分类)。对于每对正例,译者采样一对负例。

3)Masked Language Modeling受损失:

T(估计值)里的一些词已经被随机加进了 [MASK],pj(V, T(估计值))是区域性假定类比在词tj一段距离的区块器矢量所量化的词详见概率分布。

实验

译者技术的发展于多假定先于基础训练里常见于的里等影响力也的4M和16M页面图表集开展实验,如下详见右图:

其里,标示出(# Ann)是周边地区标示出和详见面标记的总和。可以看出,有些图表集不不会页面结尾,例如Visual Genome(VG),有些图表集不不会页面标示出,例如CC-3M/12M。

详见2示范了在三维文档链接战斗任务 (MSCOCO和Flickr30K) 上的详见现。即使,以后的分析方法在非常大量的内部图表上先于基础训练或者建模影响力也非常大,在4M页面图表集下基础训练的X-VLM就已经可以最多以后的分析方法。

详见3示范了在影像解答 (VQA2.0和NLVR2)、影像定位 (RefCOCO+) 、页面描述聚合 (COCO Caption) 上的建模详见现。为了公平的对比,X-VLM 改用了以后临时工的 fine-tune 分析方法,不不会开展额外的调整。混合详见2和详见3,可以看出,比起以后的分析方法,X-VLM背书更是多种类的北岸战斗任务,并且在这些常见于的影像词汇战斗任务上都争得了十分卓越的详见现。

回顾和讨论

在本文里,译者明确提出了X-VLM以深造多一般来说的影像和词汇里间,必需避免很高开销的期望测定反复,也不传统意义深造三维最很高级别或详见面最很高级别的里间。X-VLM 的工夫在于:

1)基于 patch embeddings 敏捷详见示各种一般来说的影像种概念,然后并不需要利是各有不同一般来说的影像种概念和相异文档;

2)更是进一步,在同一张页面里,所述各有不同的文档,促请建模能图表分析出相异影像种概念的投影。实验证实这种先于基础训练分析方法十分很高效。

在实验部分,译者技术的发展于特指的4M和16M图表,基础训练总参总数216M的 X-VLM ,就能最多非常大影响力也的建模或技术的发展于大量先于基础训练图表的建模,在北岸多种多假定明白/聚合战斗任务上争得比较卓越的详见现。并且,字节脉搏的工程师们也把 X-VLM 用在了想像的业务场景上,例如:为视障人群描述页面以下内容,小学生作业的则不会口试。实际上,X-VLM 还十分擅细一般来说的 retrieval,visual grounding 等战斗任务。

上海癫痫医院去哪家好
专业治疗男性不孕不育
长沙牛皮癣治疗费用多少钱
沈阳看妇科到哪家医院好
杭州妇科医院去哪家好
相关阅读

招商蛇口为子公司大连招盛提供7亿元融资担保

写真 2025-10-25

论据网讯:5年初26日,日商蛇口工业区入股入股入股披露公告称之为,为大连招盛备有债务人。论据新媒体获悉,招商蛇口间接全资母公司大连招盛房地产开发入股向中国电信入股入股大连分行注册信贷7亿元,信

在火星行驶1784米后,祝融号核对一张自拍照,这些照片让人深思

综艺 2025-10-25

与我们只差2.7亿公底下的土星当今是个什么样子?或许你才会感到很迷恋,跟银河系当今有何有所不同?青山绿造出水、花鸟虫鱼、云雨运动这些都有吗?当你看到“来由九号”和“炎帝号”送交的图片后,一定才会可惜。

【金融街发布】人民银行:4月共发售各类债券5.05万亿元 深市日均交易量环比减少17.1%

音乐 2025-10-25

p4年底底,从买入规模看,按法人私人机构统计分析,非金融大企业利息务融资工具前50名高盛买入%比51.5%,主要以外在证券子公司(自营)、小城市金融机构(自营)和控股子公司金融机构(自营),前20

【提醒】@莱西人,疫情精准防控再升级,进药店需扫码已登记

视频 2025-10-25

3同月24日, 全乡定点零售商店旅店“大连一码道通” 发挥作用全布满 带入旅店职员才会扫码申请人 “大连一码道通”是当前传染病精准风险评估

投资者提问:请问公司目前是否有在技术开发或生产光伏异质结电池相关的设备?如果有...

八卦 2025-10-25

对冲提问:再来的公司目前是不是有在研发或生产风力发电异质结电池无关的电子系统?如果有,再来是不是包含PECVD电子系统?如果不会,未来是不是有计划进行研发?董秘回答北方华创SZ002

友情链接