清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
时间:2023-06-23 01:33:56来源:机器之心


【资料图】

机器之心专栏

机器之心编辑部
本篇文章为大家介绍清华大学在 CVPR 2023 的论文,Learning Imbalanced Data with Vision Transformers(用视觉 Transformer 学习长尾数据),代码已开源。
背景
在机器学习领域中,学习不平衡的标注数据一直是一个常见而具有挑战性的任务。近年来,视觉 Transformer 作为一种强大的模型,在多个视觉任务上展现出令人满意的效果。然而,视觉 Transformer 处理长尾分布数据的能力和特性,还有待进一步挖掘。
目前,已有的长尾识别模型很少直接利用长尾数据对视觉 Transformer(ViT)进行训练。基于现成的预训练权重进行研究可能会导致不公平的比较结果,因此有必要对视觉 Transformer 在长尾数据下的表现进行系统性的分析和总结。
论文链接:/abs/
代码链接:/XuZhengzhuo/LiVT
本文旨在填补这一研究空白,详细探讨了视觉 Transformer 在处理长尾数据时的优势和不足之处。本文将重点关注如何有效利用长尾数据来提升视觉 Transformer 的性能,并探索解决数据不平衡问题的新方法。通过本文的研究和总结,研究团队有望为进一步改进视觉 Transformer 模型在长尾数据任务中的表现提供有益的指导和启示。这将为解决现实世界中存在的数据不平衡问题提供新的思路和解决方案。
文章通过一系列实验发现,在有监督范式下,视觉 Transformer 在处理不平衡数据时会出现严重的性能衰退,而使用平衡分布的标注数据训练出的视觉 Transformer 呈现出明显的性能优势。相比于卷积网络,这一特点在视觉 Transformer 上体现的更为明显。另一方面,无监督的预训练方法无需标签分布,因此在相同的训练数据量下,视觉 Transformer 可以展现出类似的特征提取和重建能力。
基于以上观察和发现,研究提出了一种新的学习不平衡数据的范式,旨在让视觉 Transformer 模型更好地适应长尾数据。通过这种范式的引入,研究团队希望能够充分利用长尾数据的信息,提高视觉 Transformer 模型在处理不平衡标注数据时的性能和泛化能力。
文章贡献
本文是第一个系统性的研究用长尾数据训练视觉 Transformer 的工作,在此过程中,做出了以下主要贡献:
首先,本文深入分析了传统有监督训练方式对视觉 Transformer 学习不均衡数据的限制因素,并基于此提出了双阶段训练流程,将视觉 Transformer 模型内在的归纳偏置和标签分布的统计偏置分阶段学习,以降低学习长尾数据的难度。其中第一阶段采用了流行的掩码重建预训练,第二阶段采用了平衡的损失进行微调监督。
其次,本文提出了平衡的二进制交叉熵损失函数,并给出了严格的理论推导。平衡的二进制交叉熵损失的形式如下:
与之前的平衡交叉熵损失相比,本文的损失函数在视觉 Transformer 模型上展现出更好的性能,并且具有更快的收敛速度。研究中的理论推导为损失函数的合理性提供了严密的解释,进一步加强了我们方法的可靠性和有效性。
不同损失函数的收敛速度的比较
基于以上贡献,文章提出了一个全新的学习范式 LiVT,充分发挥视觉 Transformer 模型在长尾数据上的学习能力,显著提升模型在多个数据集上的性能。该方案在多个数据集上取得了远好于视觉 Transformer 基线的性能表现。
不同参数量下在 ImageNet-LT 上的准确性。
在 ImagNet-LT(左)和 iNaturalist18(右)数据集上的性能表现
同时,本文还验证了在相同的训练数据规模的情况下,使用ImageNet的长尾分布子集(LT)和平衡分布子集(BAL)训练的 ViT-B 模型展现出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 数据集中,可以通过更大的模型和 MGP epoch 获得更好的重建结果。
总结
本文提供了一种新的基于视觉 Transformer 处理不平衡数据的方法 LiVT。LiVT 利用掩码建模和平衡微调两个阶段的训练策略,使得视觉 Transformer 能够更好地适应长尾数据分布并学习到更通用的特征表示。该方法不仅在实验中取得了显著的性能提升,而且无需额外的数据,具有实际应用的可行性。
论文的更多细节请参考论文原文和补充材料。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@

标签:

生活指南
  • 北京挂牌顺义及大兴2宗预申请宅地,总起始价55.9亿元

    6月21日,据北京市规划和自然资源委员会官网,北京市规划和自然资源委

  • 新能源汽车购置税设减免税额上限:30万及以下车辆不受影响|天天最资讯

    新能源汽车购置税设减免税额上限:30万及以下车辆不受影响

  • 端午假期“清凉一夏”!解锁申城水上游玩“宝藏地”→ 信息

    端午小长假临近,随着气温走高,玩水或许是最佳的夏日打开方式。约上三

  • 郭明錤:预期2024年用于AI服务器的光模块自2H23开始显著成长_世界聚看点

    天风国际分析师郭明錤今日指出,近期因AI服务器需求显著提升,带动光模

  • 柏林市西莱昂纳多酒店_关于柏林市西莱昂纳多酒店概略_全球观速讯

    1、柏林市西莱昂纳多酒店位于柏林,是家4星级酒店。文章到此就分享结束

  • 油价下行周期开启信号或已出现!对冲基金重新看跌原油

    油价下行周期开启信号或已出现!对冲基金重新看跌原油,钻井,下行,石油,

  • AI模型应用服务商【Normal Computing】完成850万美元种子轮融资, Celesta Capital等领投

    近日,AI模型应用服务商NormalComputing宣布完成850万美元种子轮融资。

  • 当阳市气象台发布暴雨黄色预警【III级/较重】【2023-06-17】

    当阳市气象台发布暴雨黄色预警【III级 较重】【2023-06-17】当阳市气象

  • 科力特任命李金芝为公司财务负责人 2022年公司净利1830.72万

    挖贝网6月16日,科力特(835792)发公告称,根据《公司法》及公司章程

  • 美食美酒媒体|三得利山崎梅酒尽享“梅”味佳肴|广州美食美酒媒体

    导语:很多人对于梅酒不是很熟悉,今天,我们将带大家一起走进三得利山

  • 青春,飞扬在两岸

    ——第二十一届海峡青年论坛开幕(副题)跨海相会,共叙情谊。6月16日

  • 别眨眼!一分钟快闪带你看世界互联网大会数字文明尼山对话 讯息

    世界互联网大会数字文明尼山对话将于6月25日至27日在山东济宁尼山举办

  • 中证指数公司:发布中证农银乡村振兴指数 热议

    中证指数有限公司公告,将于2023年6月19日正式发布中证农银乡村振兴指

  • 很酷的qq名_最酷的qq名

    1、小而帅2、家住莫仙堡。3、作业=作恶。4、别碰我媳妇。5、拿我代替枪

  • 环球讯息:亚太股市收盘全线上涨

    南方财经6月16日电,。韩国综指涨0 66%;日经225指数涨0 66%报33706 08

  • 7月1日起 山西实现中部城市群医保服务一体化 环球速看

    (吴琼 杨静)“自7月1日起,在实现太原市、忻州市两市参保人员

  • 民生
    • 天天报道:3927万,再见76人!无奈沦为溢价合同,费城的困境不能怪在你身上

    • 加拿大银行监管机构上调资本金要求以应对风险上升

    • 厦门两处民宅突发火灾!他们做了同一个动作,逃过一劫……-天天新视野

    • 全球热讯:目击者称宁夏银川爆炸烧烤店邻近居民区!店员曾闻到燃气泄漏