0%

moco v3主要是在self-supervised中引入了vit,意图打通transformer在cv中的pretraining + finetune的范式,这篇文章应该算是一篇抛砖引玉的文章,文章框架依然采用的是instance-discrimination的范式,只不过对moco进行了进一步的修改,比如:增加了prediction head , 去掉了queue等。同时,作者团队发现了在训练vit的时候,会出现不稳定的现象,这个现象在训练BiT-ResNet的时候也会被观察到,就是会出现小波动,很不容易察觉的小波动,作者采用固定patch projection层来进行解决,虽然一定程度上解决了,但是依然没有完全解决。最后作者对比了moco v3 以及其他的一些self-supervise算法的效果,moco v3还是不错的,同时作者表明 moco v3相比于imagenet预训练的模型,更不容易过拟合,同时会有更好的效果,但是当预训练的数据很大的时候,比如 3b,那么moco v3也不一定有优势了。


阅读全文 »

swin transformer是对vision transformer的改进版,主要思想在于在vision transformer的基础上,引入了卷积的归纳偏置,设计了分层的结构,针对特征图,只在windows窗口内进行self-attention的计算,取得了速度与效果的平衡,vision transformer需要比较大的数据来进行模型的训练才能取得比较好的效果,swin transformer在imagenet-1k上面,也能取得很好的效果。

阅读全文 »

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

这是一个比较有代表性的,将transformer引入cv的一个例子,其也没有特别的想法,主要创新点就是通过对图像进行patch的提取,进而构建了类似NLP的任务,然后将bert代码搬过来,进行图像的分类。

阅读全文 »

在进行对比学习的时候,查询字典可以越大越好,可是在增大查询字典的同时,如何保证字典内的key的连续性就比较关键,如果不连续的话,很可能会偏向于相对连续的向量,这对对比学习是不利的,比如query encoder,key encoder 同时反向传播,由于key encoder更新较快,就只能利用mini-batch的字典,而另一种方法将key全部存起来,每次sample一定的量进行学习,虽然字典的量上来了,但是由于每次只能更新sample出来的key,明显不具备连续性,基于此,本文提出的momentum更新方式,由于momentum很大基本上是0.999,这就导致key encoder其实更新的很慢,这个时候维护一个队列比如65536,bs=128的时候,512个batch就完成了一次队列的更新,这就保证了队列里面的数据不会太older,具备一定的连续性。还有一个小点是,contrastive loss的时候,其实是点积计算相似性,然后算cross_entropy(),做了一个k+1维的softmax


阅读全文 »

又是一篇自监督领域的作品,这篇论文采用了mask的方式,跟bert很类似,设计了encoder,decoder,decoder的作用是重建mask的图像,本文mask的比例很高,在75%,最后重建的效果竟然还可以,很是厉害。这篇文章的模型采用的是vit,finetune后的模型精度非常高,另外作者设计了将mask的patches放到decoder(轻量)中,这样可以有效的减少计算量,提升训练速度。


阅读全文 »

contrastive learning,简单来说就是通过unlabel data,构建相似图像与非相似图像集,然后判断模型的输出向量,相似图像比较接近,非相似图像比较远。本文的主要方法也比较简单,相比较于moco采用的query encoder 和key encoder的动量方法,本文采用相同的encoder,通过大的batch(8192)来构建相似与非相似样本集,通过不同的augment来产生positive pair以及negative pair, 通过positive pair和nagative pair 的相似度来计算contrastive loss,得到一个比较好的特征表达的模型。


阅读全文 »

这篇文章更偏向于网络设计,主要在于将conv与atten相结合,各取其有点,conv更擅长进行归纳总结,atten具有更大的容量,所以将二者进行结合,可以去得进一步提点的效果,然后为了减少计算量,采用了前面是conv,后面是atten的结构,同时,实验了结构里面每个stage有多少的block效果最好等等,代码没有开源,具体的实现细节还需要等开源再看。

阅读全文 »

Cait: Going deeper with Image Transformers

本文是对vision transformer的改进,主要贡献在于layerScale以及class-attention这两点,最近facebook研究transformer的那伙人发了好几篇针对transformer的修改篇,我觉的这篇有点不太实用,没有进行具体的尝试。

阅读全文 »