MoCo V3

发表于 2022-01-07 更新于 2023-05-14 分类于 Contrastive learning 阅读次数： Valine：

moco v3主要是在self-supervised中引入了vit，意图打通transformer在cv中的pretraining + finetune的范式，这篇文章应该算是一篇抛砖引玉的文章，文章框架依然采用的是instance-discrimination的范式，只不过对moco进行了进一步的修改，比如：增加了prediction head , 去掉了queue等。同时，作者团队发现了在训练vit的时候，会出现不稳定的现象，这个现象在训练BiT-ResNet的时候也会被观察到，就是会出现小波动，很不容易察觉的小波动，作者采用固定patch projection层来进行解决，虽然一定程度上解决了，但是依然没有完全解决。最后作者对比了moco v3 以及其他的一些self-supervise算法的效果，moco v3还是不错的，同时作者表明 moco v3相比于imagenet预训练的模型，更不容易过拟合，同时会有更好的效果，但是当预训练的数据很大的时候，比如 3b,那么moco v3也不一定有优势了。

阅读全文 »

Swin

发表于 2022-01-06 更新于 2022-05-28 分类于 Vision Transformer 阅读次数： Valine：

swin transformer是对vision transformer的改进版，主要思想在于在vision transformer的基础上，引入了卷积的归纳偏置，设计了分层的结构，针对特征图，只在windows窗口内进行self-attention的计算，取得了速度与效果的平衡，vision transformer需要比较大的数据来进行模型的训练才能取得比较好的效果，swin transformer在imagenet-1k上面，也能取得很好的效果。

阅读全文 »

ViT

发表于 2022-01-06 更新于 2022-05-28 分类于 Vision Transformer 阅读次数： Valine：

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

这是一个比较有代表性的，将transformer引入cv的一个例子，其也没有特别的想法，主要创新点就是通过对图像进行patch的提取，进而构建了类似NLP的任务，然后将bert代码搬过来，进行图像的分类。

阅读全文 »

MoCo v1 v2

发表于 2022-01-06 更新于 2023-05-14 分类于 Contrastive learning 阅读次数： Valine：

在进行对比学习的时候，查询字典可以越大越好，可是在增大查询字典的同时，如何保证字典内的key的连续性就比较关键，如果不连续的话，很可能会偏向于相对连续的向量，这对对比学习是不利的，比如query encoder，key encoder 同时反向传播，由于key encoder更新较快，就只能利用mini-batch的字典，而另一种方法将key全部存起来，每次sample一定的量进行学习，虽然字典的量上来了，但是由于每次只能更新sample出来的key，明显不具备连续性，基于此，本文提出的momentum更新方式，由于momentum很大基本上是0.999，这就导致key encoder其实更新的很慢，这个时候维护一个队列比如65536，bs=128的时候，512个batch就完成了一次队列的更新，这就保证了队列里面的数据不会太older，具备一定的连续性。还有一个小点是，contrastive loss的时候，其实是点积计算相似性，然后算cross_entropy(),做了一个k+1维的softmax

阅读全文 »

MAE

发表于 2021-11-15 更新于 2023-05-14 分类于 Self Supervise 阅读次数： Valine：

又是一篇自监督领域的作品，这篇论文采用了mask的方式，跟bert很类似，设计了encoder,decoder,decoder的作用是重建mask的图像，本文mask的比例很高，在75%，最后重建的效果竟然还可以，很是厉害。这篇文章的模型采用的是vit,finetune后的模型精度非常高，另外作者设计了将mask的patches放到decoder(轻量)中，这样可以有效的减少计算量，提升训练速度。

阅读全文 »

SimClr v1 v2

发表于 2021-11-10 更新于 2023-05-14 分类于 Contrastive learning 阅读次数： Valine：

contrastive learning，简单来说就是通过unlabel data,构建相似图像与非相似图像集，然后判断模型的输出向量，相似图像比较接近，非相似图像比较远。本文的主要方法也比较简单，相比较于moco采用的query encoder 和key encoder的动量方法,本文采用相同的encoder，通过大的batch（8192）来构建相似与非相似样本集，通过不同的augment来产生positive pair以及negative pair, 通过positive pair和nagative pair 的相似度来计算contrastive loss，得到一个比较好的特征表达的模型。

阅读全文 »

CoAtNet

发表于 2021-11-06 更新于 2022-05-28 分类于 Vision Transformer 阅读次数： Valine：

这篇文章更偏向于网络设计，主要在于将conv与atten相结合，各取其有点，conv更擅长进行归纳总结，atten具有更大的容量，所以将二者进行结合，可以去得进一步提点的效果，然后为了减少计算量，采用了前面是conv，后面是atten的结构，同时，实验了结构里面每个stage有多少的block效果最好等等，代码没有开源，具体的实现细节还需要等开源再看。

阅读全文 »