bob客户端bob-其基本头绪中包含着掩码展望任务
你的位置:bob客户端bob > bob客户端bob > 其基本头绪中包含着掩码展望任务
其基本头绪中包含着掩码展望任务
发布日期:2022-02-17 13:57    点击次数:197

其基本头绪中包含着掩码展望任务

 bob客户端bob,bob软件下载

mask-and-predict 的顺次可能会成为计较机视觉畛域的新家数。

自监督预锤炼在当然话语处罚方面取得了惊人的得胜,其基本头绪中包含着掩码展望任务。前段时间,何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》建议了一种浅薄实用的自监督学习决策 MAE,将 NLP 畛域的掩码展望(mask-and-predict)顺次用在了视觉问题上。当今来自 Facebook AI 盘考院(FAIR)的盘考团队又建议了一种自监督视觉预锤炼新顺次 MaskFeat。

比MAE更强,FAIR新顺次MaskFeat用HOG刷新多个SOTA

论文地址:https://arxiv.org/pdf/2112.09133.pdf

MaskFeat 开端立地掩码一部分输入序列,然后展望被掩码区域的特征。通过盘考 5 种不同类型的特征,盘考者发现标的梯度直方图 (HOG) 是一种很好的特征刻画顺次,在性能和恶果方面都推崇优异。何况盘考者还细察到 HOG 中的局部对比归一化关于获取讲究戒指至关抨击,这与之前使用 HOG 进行视觉识别的使命一致。

该顺次不错学习丰富的视觉常识并启动基于 Transformer 的大范围模子。在不使用迥殊的模子权重和监督的情况下,MaskFeat 在未标志的视频上进行预锤炼,使用 MViT-L 在 Kinetics-400 上兑现了前所未有的 86.7% top-1 准确率。此外,MaskFeat 还能进一步引申到图像输入,并在 ImageNet 上获取了有竞争力的戒指。

顺次

掩码视觉展望任务旨在缔造被掩码的视觉实质。通过建模掩码样本,该模子从识别物体的部位和畅通的意思意思上兑现了视频相接。举例,要补全下图中的图像,模子必须开端字据可见区域识别对象,还要浮现对象时时的形态和出动步地,以缔造缺失区域。

全国公安机关聚焦网上贩卖公民个人信息犯罪新动向,紧盯“暗网”等隐秘空间全力开展侦查攻坚,2021年共侦办侵犯公民个人信息案件9800余起,抓获犯罪嫌疑人1.7万余名。针对App超范围采集公民个人信息乱象,公安部推进网络安全监督检查和隐患整改,建立了“打击危害公民个人信息和数据安全违法犯罪”长效机制。

比MAE更强,FAIR新顺次MaskFeat用HOG刷新多个SOTA

该任务的一个要津组成部分是展望运筹帷幄。在当然话语处罚任务中,掩码话语建模使用词表 tokenize 语料库行为运筹帷幄。而在视觉畛域,原始视觉信号是连气儿的、高维的,何况莫得可用的当然「词表」。

bob客户端bob,bob软件下载平台客服QQ:865083652

因此,MaskFeat 建议将展望被掩码区域的特征。借助从原始完好样本中索取的特征进行监督。运筹帷幄特征的选定在很猛进度上影响了预锤炼模子的属性,该盘考对特征进行了宽泛的诠释,并主要探究了 5 种不同类型的运筹帷幄特征。

比MAE更强,FAIR新顺次MaskFeat用HOG刷新多个SOTA

开端盘考者将运筹帷幄特征分为两组:1) 不错径直获取的单阶段运筹帷幄,包括像素颜料和 HOG;2) 由经过锤炼的深度收罗索取的两阶段运筹帷幄。由于展望两阶段运筹帷幄是借助锤炼有素的深度收罗有用学得的(访佛于模子蒸馏),因此教师模子的预锤炼和推理的迥殊计较资本是不行幸免的。该盘考主要探究的 5 种特征类型是:

像素颜料; 标的梯度直方图(HOG); 翻脸变分自编码器(dVAE); 深度特征; 伪标签。

该盘考通过了一系列的分析探究了这 5 种特征的强横。尽管掩码话语建模领先是在预界说词表上展望分类分散,但 BEiT 中的翻脸化不需要视觉信息。分析戒指标明,连气儿的无监督特征和图像刻画符是性能较好的展望运筹帷幄,其中前者需要模子蒸馏,后者则不需要迥殊的计较支出。

比MAE更强,FAIR新顺次MaskFeat用HOG刷新多个SOTA

此外,盘考者还发现监督锤炼的运筹帷幄特征会产生较差的戒指,这可能与存在于特征中的类级特定信息相关,即这种顺次关于局部掩码建模来说过于全局化。总的来说,探究性能和计较资本之间的量度,该盘考最终选定了 HOG 行为 MaskFeat 的默许特征。

标的梯度直方图(HOG)特征是一种在计较机视觉和图像处罚顶用来进行物体检测的特征刻画顺次,最早是在 CVPR 2005 的一篇论文《Histograms of Oriented Gradients for Human Detection》中建议的。

比MAE更强,FAIR新顺次MaskFeat用HOG刷新多个SOTA

HOG 特征索取的经由如下:开端把样本图像分割为多少个像素单位,把梯度标的平均区别为多个区间,在每个单位内部对通盘像素的梯度标的在各个标的区间进行直方图统计,得到一个多维的特征向量,每相邻的单位组成一个区间,把一个区间内的特征向量联起来得到多维的特征向量,用区间对样本图像进行扫描,扫描步长为一个单位。临了将通盘块的特征串联起来,就得到了完好的特征。

基于视频识别的践诺

该盘考在 K400 数据集上将 MaskFeat 和之前的使命进行了比较,戒指如下表 3 所示,使用 MaskFeat 的 MViT-L 在 Kinetics-400 上兑现了新的 SOTA——86.7% top-1 准确率。

比MAE更强,FAIR新顺次MaskFeat用HOG刷新多个SOTA

移动学习

为了评估该顺次鄙人游任务上的移动学习性能,该盘考在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模子,践诺戒指如上表 3 和下表 4 所示,在 K600 上兑现了 88.3% top-1 准确率,K700 上为 80.4%,均兑现了新的 SOTA。

比MAE更强,FAIR新顺次MaskFeat用HOG刷新多个SOTA

该盘考在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模子,下表 5 给出了 MaskFeat 模子与现存顺次比拟的平均精度 (mAP)。MaskFeat 在全分辨率测试中达到了前所未有的 38.8 mAP,大大逾越了已往通盘顺次。

比MAE更强,FAIR新顺次MaskFeat用HOG刷新多个SOTA

感意思意思的读者不错阅读论文原文了解更多盘考细节。