当前位置：首页 > 网络安全 > 正文内容

10个人的创业团队策划书,如何做好创业团队建设论文案例

访客3年前 (2022-01-13)网络安全523

　　艺术经纬：LRS好困，小咸鱼　　

　　#【新智元介绍】何明凯团队又发新文了！这一次，他们研究了如何将预先训练好的ViT转移到检测模型中，这样标准的ViT模型就可以作为Mask了。　　

　　使用了美国有线电视新闻网的主干。结果表明，与有监督和以前的自我监督的预训练方法相比，AP框的绝对值增加了4%。　　

　　模型参数的初始化一直是一个重要的研究问题。适当的初始化可以提高模型的性能，加速收敛，找到最优解。　　

　　由于不需要训练数据，在对下游任务(如图像分类、目标检测)的模型进行微调之前，无监督或自监督的训练模型自然可以作为初始化参数。　　

　　无监督算法的性能是通过微调后的模型在下游任务中的性能，如准确性和收敛速度，是否比基线模型有所提高来判断的。　　

　　在计算机视觉领域，由于过去CNN的主导地位，无监督深度学习通常基于标准的卷积网络模型。例如，将ResNet预先训练好的模型移植到其他基于CNN的模型中是非常容易和直接的。　　

　　但现在时代变了，Vision Transformer(ViT)成为了新的主流模式。　　

　　虽然其他无监督ViT模型的参数和CNN在很大程度上没有区别，但是对于迁移的细节却没有相关的研究。　　

　　近十年来，目标检测一直是视觉领域的核心任务，但在ViT时代却没有太多的研究成果。　　

　　结合这两个出发点，何在FAIR的最新研究中，研究了基于目标检测任务的标准ViT模型的迁移方法。　　

　　https://arxiv.org/abs/2111.11429 　　

　　本文第一作者是李，现任AI。　　

　　研究部(FAIR)研究工程师分别于2015年和2018年在北京大学获得学士学位和硕士学位。他的主要研究领域是计算机视觉和深度学习。　　

　　第二个作者是赛宁。　　

　　谢，现任FAIR研究科学家。毕业于美国加州大学圣地亚哥分校，2013年获得上海交通大学ACM荣誉班学士学位。研究兴趣包括机器学习(主要是深度学习)及其在计算机视觉中的应用。　　

　　#研究方法　　

　　以何2017年发布的目标检测模型Mask R-CNN为基础模型，也就是Cascade R-CNN。　　

　　而HTC/HTC，是一个非常适合研究目标检测和迁移学习的模型。　　

　　但是，使用ViT作为Mask R-CNN的骨干网有两个问题：　　

　　一、将ViT与特征金字塔网络（feature pyramid network, FPN）相匹配 　　

　　掩码R-CNN骨干网可以单规模(单- 　　

　　Scale)也可以是输入到FPN的多尺度特征，FPN可以用更少的运行时间和内存开销提供更好的目标检测结果。　　

　　但是FPN有一个问题，因为ViT只能输出单尺度特征，不能输出CNN的多尺度特征。为了解决这个问题，研究人员使用XCiT中的技术对ViT中间特征进行上采样和下采样，以提供四种不同分辨率的特征。　　

　　第一个模块使用步长为2的两个转置卷积(转置　　

　　扩散)进行4次上采样；然后，使用步长为2*2的转置卷积进行双上采样。最后一个模块采用2*2 max，步长为2。　　

　　池化执行下采样。　　

　　每个模块不改变ViT的通道尺寸。　　

　　假设补丁大小为16，这些模块可以输出步长为4、8、16和32的图像特征，然后将它们发送到FPN。　　

　　虽然相关研究　　

究

Swin与MViT通过修改VIT架构解决了ViT无法输出多尺度特征的问题。这种处理方式也是一个重要的研究方向，但它与ViT的简单设计相悖，会阻碍新的无监督学习方法的探索研究。

二、降低内存消耗和时间复杂度

Transformer 的众所周知的问题就是自注意机制的时间复杂度太高，把ViT放到Mask R-CNN 中也会导致这个问题。

假设每个patch的尺寸为h×w，且无重合。

在预训练过程中，该复杂度是可控的，在224×224图像中， h=w=14是一个常用的设置。但在目标检测中，标准图像尺寸为1024 ×

1024，将近21倍多的像素和图像patch。由于自注意力的二次复杂度，哪怕基线ViT-B也需要占用20-30G GPU显存。

研究采用受限的（Windowed）self-attention，通过将全局计算都替换为局部计算来降低空间与时间复杂度。

将h×w的patch图像分割成r×r非重叠patch窗口，并在每个窗口内独立计算自注意力，这种处理方式可以大幅降低空间复杂度与时间复杂度。

但windowed self-attention的一个缺陷在于：骨干网络不能跨窗口聚合信息，所以需要每隔d/4个块添加一个全局自注意力模块。

相比于原始Mask R-CNN，研究人员对其中几个模块进行了修改。

1. FPN中的卷积后加入Batch Normalization；

2. 在RPN（region proposal network）中使用两个卷积；

3. 采用四个带BN的卷积后接一个全连接用来RoI (reigon-of-interest) 分类与box回归头，而非原始的两层无normalization的MLP；

4. 标准mask头中的卷积后加入BN

相比原始训练机制，研究人员采用了从头开始训练更长训练周期的训练机制。

尽管研究人员在实验过程中让超参数尽可能少，并且不使用额外的数据增强和正则化技术，但drop path

regularization对于ViT骨干网络是非常有效的，所以，真香。

总之在训练过程中的使用LSJ数据增广(分辨率，尺度范围[0.1, 2.0])，AdamW Cosine学习率衰减 linear warmup，drop

path正则；

训练过程使用了64个Nvidia V100-32GB的GPU，batch size为64。当采用预训练初始模型参数时，微调100

个epoch；当从头开始训练时，训练400个epoch。

为使上述训练机制适用于同模型，研究人员对学习率lr、权重衰减（weight decay, wd）以及drop path

rate（dp）三个超参进行微调，同时保持其他不变。采用ViT-B MoCoV3进行了大量实验以估计合理的超参范围：

1. 对每个初始化，固定dp=0.0，对lr与wd采用grid搜索，固定搜索中心为，以此为中心搜索；

2. 对于ViT-B，从中选择dp(预训练参数时，训练50epoch；从头开始时，则训练100epoch，dp=0.1为最优选择；

3. 对于ViT-L，采用了ViT-B的最优lr与wd，发现dp=0.3是最佳选择。

# 实验部分

研究人员对比了五种网络初始化的方法：

1. Random：即所有参数均随机初始化，无预训练；

2. Supervised：即ViT骨干在ImageNet上通过监督方式预训练，分别为300和200epoch；

3. MoCoV3：即在ImageNet上采用无监督方式预训练ViT-B与ViT-L，300epoch；

4. BEiT：即采用BEiT方式对ViT-B与ViT-L预训练，800epoch；

5. MAE：使用MAE 无监督方法在ImageNet-1K上训练后得到ViT-B和ViT-L的权重。

虽然实验尽可能对所有方法都公平，但还是有一些因素导致了不公平：

1. 不同的预训练方法采用了不同的epoch；

2. BEiT采用可学习相对位置bias，而非其他方法中的绝对位置embedding；

3. BEiT在预训练过程中采用了layer scale，而其他方法没采用；

4. 研究人员尝试对预训练数据标准化，而BEiT额外采用了DALL-E中的discrete VAE，在约2.5亿专有和未公开图像上训练作为图像tokenizer。

在COCO目标检测和实例分割上进行实验的结果可以看到：

1. 无论初始化过程如何，文中提出的Mask R-CNN训练过程都更加平滑，甚至它都不需要stabilizing的技术手段，如gradient clipping。

2. 相比有监督训练，从头开始训练具有1.4倍的性能提升。实验结果也证明了有监督预训练并不一定比随机初始化更强；

3. 基于对比学习的MoCoV3具有与监督预训练相当的性能；

4. 对于ViT-B来说，BEiT与MAE均优于随机初始化与有监督预训练；

5. 对于ViT-L，BEiT与MAE带来的性能提升进一步扩大。

从收敛性上看，相比随机初始化，预训练初始化可以显著加速收敛过程，大约加速4倍。

还有两个需要注意的地方是：

1. 理想情况下，每个训练过程的drop path rate都应进行调整，因为可以观察到，当模型接受更长时间的训练时，最佳dp值可能需要增加。

2. 在所有情况下都可以通过训练来获得更好的结果，例如加长训练时间，使用更复杂的训练流程，使用更好的正则化和更大的数据增强。

当然，由于COCO数据集的训练集非常大，即便随机初始化也能获得比较好，甚至更好的结果，这就导致迁移学习比较尴尬了。

研究人员还发现，现有的方法如有监督IN1k、MoCoV3无监督预训练的性能反而会弱于随机初始化基线方案。并且已有的无监督迁移学习改进对比的均为监督预训练，并不包含随机初始化方案。

此外，其他研究人员都是采用了较弱的模型，因而具有更低的结果，这就导致不确定如何将已有方法迁移到sota 模型中。

由于预训练，MAE与BEiT提供了首个令人信服的COCO数据集上的性能提升，并且这些基于masking的方案会随模型大小提升进一步改善检测迁移学习能力的潜力

，而有监督预训练与MoCoV3等初始化方式上并没有观察到这种结论。

结论

论文提出的方法使标准的ViT模型能够作为骨干在Mask R-CNN中得到实际的应用。

这些方法产生了可接受的训练内存和时间，同时也在COCO上取得了优异的结果，而且还不会涉及到复杂的扩展。

通过对五种不同的ViT初始化方法进行比较可以发现，虽然随机初始化要比预训练的初始化长大约4倍，但相比于比ImageNet-1k的监督预训练，可以取得更高的AP。

此外，MoCoV3作为对比性无监督学习的代表，其表现几乎与监督性预训练相同，因此也比随机初始化差。

更重要的是，论文发现了一个令人兴奋的新结果：基于masking的方法（BEiT和MAE）比有监督和随机初始化都有更大的收益，而且这些收益会随着模型大小的增大而增加。

参考资料：

https://arxiv.org/abs/2111.11429

扫描二维码推送至手机访问。

本文链接：https://therlest.com/23435.html

分享给朋友：

返回列表

上一篇：创业加盟合作,15万怎么创业好

下一篇：保姆月薪6千被雇主偷10万（雇保姆多少钱一个月）

“10个人的创业团队策划书,如何做好创业团队建设论文案例” 的相关文章

黑客追款出款成功再收费「24小时在线的黑客追款」

据公务员期刊网2021年10月14日18:37:49的最新发布，微博网友@ 爆料。平安夜来临之际，事件，在网上炒得沸沸扬扬，引发全网热议！据悉，黑客追款出款成功再收费。可能没有机会接触到钱。那时候我就有想过退步。一、黑客追回网赌40万首先确保整个无前期费用黑客追款方案是最有效的，在做一件黑客...

干洗对衣物有害吗

干洗对衣物有害吗干洗剂实际上就是有机溶剂，所以对衣服多少都有点危害，只不过高级的干洗剂对衣服损伤小一些而已。随着人们工作的繁忙和生活节奏的加快，现代人更多地把换下的衣物送到洗衣店干洗，以保证衣服不变形和有更多的时间休闲娱乐，这本是一件提高生活品质的好事，但据最新的研究显示，干洗衣物对身...

兼职收入贷款好贷吗「打零工收入证明范本」

银行申请信用卡的话，兼职。已连续在我公司。一些银行是可以的，有还款能力就可以申请贷款。承担清偿责任。比如军人、为人民币。只是打一个电话而已「直接按照给你的收入证明里面需要填写的，可以好贷申请办理贷款。有的规定兼职收入不得超过主收入的50。如名下房产范本、对于兼职收入的金额以及流水账单，某公司借...

Webshell安全检测篇（1）-根据流量的检测方法

一、概述笔者一直在重视webshell的安全剖析，最近就这段时刻的心得体会和咱们做个共享。 webshell一般有三种检测办法：依据流量方法依据agent方法（本质是直接剖析webshell文件）依据日志剖析方法 Webshell的分类笔者总结如下：前段时...

53度最便宜酱香郎酒_郎酒经典酱香53度

我一朋友，500多到600多，10年红花郎288,现在估价至少在2000元以上，郎酒老郎酒淡雅2002年出厂，三星，关键是看款型，1992年53-1度酱香型。郎酒还是1898起步比较好。对了，或者以前的，未来两年必定疯长！不知道怎么上图，现在的价格是158元每瓶便宜，你好。看目前郎酒的上涨势头，...

黄埔燃料油现货价格_今日燃料油市场价格

这句话是指期货比现货价格高100元吗，柴油，1%的权重都没有，通过技术指标和消息面影响来分析的。有的有点差，点88 国际燃料油收盘价涨跌新加坡。244点5 国内燃料油，燃料油，作为成品油的一种，屈居第二位，有的高点有的低一点，2。97#汽油5点38元/价格升，在原油的加工过程中，常关注的消息为OPE...