字节跳动 AI Lab 提出多蕴涵模型:X-VLM,学习视觉和语言多粒度对齐
郴州娱乐新闻网 2025-08-29
X-VLM 由一个三维类比,一个文档类比,一个区域性假定类比组形同。
布2左侧所述了影像种概念 (可以是详见面/周边地区/页面)的区块反复:该三维类比基于Vision Transformer,将输入页面分形同patch区块。然后,所述假定一个分界线侧边,敏捷地通过取侧边里所有patch详见示的平均授予周边地区的一个系统详见示。如此一来将该一个系统详见示和原本侧边里所有的patch详见示按照原本顺序排列整理形同序列,作为该分界线侧边所相异的影像种概念的详见示。通过这样的形式授予页面本身(I)和页面里影像种概念(V1,V2,V3)的区块。与影像种概念相异的文档,则通过文档类比一一区块授予,例如页面结尾、周边地区描述、或详见面标记。
X-VLM采用常见于的建模结构,其各有不同之处在于先于基础训练的分析方法。译者通过表列两类受损失开展最佳化:
第一,在同一张页面里,所述各有不同的文档,例如:T(text)、T1(text1)、T2(text2)、T3(text3),促请建模图表分析页面里相异影像种概念的分界线侧边:
xjcls是区域性假定类比在 [CLS] 一段距离的区块器矢量。Sigmoid 变量是为了标准化图表分析的分界线侧边。Ground-truth bj相异了 ,分别为是标准化后的的里心横投影、里心纵投影、宽、很高。终于,该受损失是分界线侧边投影的回归受损失(L1)和收并比受损失(GIoU)之和。译者显然在同一张页面里,给各有不同字词,促请建模图表分析出相异的影像种概念,能使建模更是有效地深造到多一般来说的影像词汇里间。该受损失也是首次被技术的发展于在多假定先于基础训练里。
第二,技术的发展于patch embeddings来敏捷详见示各种一般来说的影像种概念,然后并不需要最佳化建模去利是各有不同一般来说的文档和影像种概念,包括了详见面/周边地区/页面与文档的里间。译者技术的发展于多假定先于基础训练里常见于的三个受损失最佳化,分别为是:
1)对比深造受损失:
yv2t,yt2v ∈ Rbsz x bsz是ground-truth完全相同度, 每条为1,其余为0。
pv2t, pt2v ∈ Rbsz x bsz是建模基于字词类比区块器和三维类比区块器所量化的完全相同度。
2)匹配受损失:
pmatch是基于区域性假定类比量化,图表分析所给 对是否匹配(换句话说,0/1分类)。对于每对正例,译者采样一对负例。
3)Masked Language Modeling受损失:
T(估计值)里的一些词已经被随机加进了 [MASK],pj(V, T(估计值))是区域性假定类比在词tj一段距离的区块器矢量所量化的词详见概率分布。
实验译者技术的发展于多假定先于基础训练里常见于的里等影响力也的4M和16M页面图表集开展实验,如下详见右图:
其里,标示出(# Ann)是周边地区标示出和详见面标记的总和。可以看出,有些图表集不不会页面结尾,例如Visual Genome(VG),有些图表集不不会页面标示出,例如CC-3M/12M。
详见2示范了在三维文档链接战斗任务 (MSCOCO和Flickr30K) 上的详见现。即使,以后的分析方法在非常大量的内部图表上先于基础训练或者建模影响力也非常大,在4M页面图表集下基础训练的X-VLM就已经可以最多以后的分析方法。
详见3示范了在影像解答 (VQA2.0和NLVR2)、影像定位 (RefCOCO+) 、页面描述聚合 (COCO Caption) 上的建模详见现。为了公平的对比,X-VLM 改用了以后临时工的 fine-tune 分析方法,不不会开展额外的调整。混合详见2和详见3,可以看出,比起以后的分析方法,X-VLM背书更是多种类的北岸战斗任务,并且在这些常见于的影像词汇战斗任务上都争得了十分卓越的详见现。
回顾和讨论在本文里,译者明确提出了X-VLM以深造多一般来说的影像和词汇里间,必需避免很高开销的期望测定反复,也不传统意义深造三维最很高级别或详见面最很高级别的里间。X-VLM 的工夫在于:
1)基于 patch embeddings 敏捷详见示各种一般来说的影像种概念,然后并不需要利是各有不同一般来说的影像种概念和相异文档;
2)更是进一步,在同一张页面里,所述各有不同的文档,促请建模能图表分析出相异影像种概念的投影。实验证实这种先于基础训练分析方法十分很高效。
在实验部分,译者技术的发展于特指的4M和16M图表,基础训练总参总数216M的 X-VLM ,就能最多非常大影响力也的建模或技术的发展于大量先于基础训练图表的建模,在北岸多种多假定明白/聚合战斗任务上争得比较卓越的详见现。并且,字节脉搏的工程师们也把 X-VLM 用在了想像的业务场景上,例如:为视障人群描述页面以下内容,小学生作业的则不会口试。实际上,X-VLM 还十分擅细一般来说的 retrieval,visual grounding 等战斗任务。
。上海癫痫医院去哪家好专业治疗男性不孕不育
长沙牛皮癣治疗费用多少钱
沈阳看妇科到哪家医院好
杭州妇科医院去哪家好
-
恭喜!7月28.29日,上天不退,财富倍增,福近身的3生肖
音乐 2025-08-29今晚!7同月28.29日,补势不撤,财富大大减少,福近缠太阳历。 神兽羊 羊属熟人待人谦虚,智商和情商高,熬到7同月下旬,吉人正正,喜变网路游戏,如果真是认清住了这个
-
下半年,财运一路通,三大生肖贵人来访,日富钱多
时尚 2025-08-29月底,财运一路行,三大阴历贵人登门,日富钱财多 虎年龙科 虎年龙科的好友做事随便投机取巧,做事谨慎周到,熬到8年末,保寿官刚刚“霞禧”“天解”吉星降临,机遇一到,放十
-
7月26日起,运势旺盛,鸿运当头,岁天和三大生肖
写真 2025-08-297月初26日起,上天蓬勃,鸿运当头,岁福气三大节气 人生中有什么认真不到或欠缺的坏事吗?也许每个人的答案都不一样,陈先生说是,不曾了钱又可以借钱,不曾了老朋友又可以交往,不曾了女人
-
未来八天这三生肖运气太强,进屋见太岁,出门可以发财,一定大赚一笔!
资讯 2025-08-29愿景八天这三天冬至运气太强,进去只见财神,外出可以替人,一定大赚一笔! 吉日犬 同属狗的人做事本分,对人还很忠诚,但上周深受太岁直接影响,时运不济,极不稳定,最近运气
-
7年底下旬,横财赚个不停,三大生肖贵人聚在家里,喜讯连连。
八卦 2025-08-297同月中旬,横财赚个整天,三大生肖贵人聚在邻居,喜讯连连。 生肖猪 生肖猪人熬到7同月中旬船帆出航,只要接受这次从中,不知不觉就富人了,爱一个人,孩子就人生了。以前贵