https://arxiv.org/abs/2301.08243

 

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-sup

arxiv.org

 

 

 

요약

- Latent space 수준의 학습을 통해 특정 downstream taskd에 편향되지 않는 image augmentation을 생략 가능하게 하고, 기존 방법 대비 빠른 학습을 가능하게 함.

 

Introduction

이미지 self-supervised learning 방식은 invariance-based, generative-based로 구분됨

 

1) invariance-based

 

같은 대상에 대하여 여러 자세와 각도를 취하더라도 결국 동일한 대상임을 학습하는 방법

색상을 바꾸거나 일부분을 자르거나 종횡비를 변화시키는 augmentation을 통해 학습 (ex. CutMix, SimCLR)

학습 데이터에 많이 편향되어서 기대했던 만큼 좋은 성능 x

 

2) generative pretraing method

이미지 곳곳을 마스크로 가려놓고 복원하는 방법

object detection이나 semantic segmentation과 같은 작업에서 성능 향상

그러나 고화질 관련 이미지에서 아쉬운 성능을 보임

 

I-JEPA

 

위에서의 두 가지 방법의 장점을 결합하여, Joint-Embedding Predictive Architecture(JEPA)라는 방법론을 제시함

이미지 그 자체가 아니라 Latent Space 자체를 복원하는 학습을 진행함

이를 통해 특정 task에 편향되지 않는 일반적인 representation을 얻을 수 있었으며, 굉장히 빠른 학습 속도를 보인다고 함

 

Method

Target - Context - Prediction의 순서로 이루어짐

 

1. Target

 

1) 이미지를 N등분하여 N개의 patch로 구분

2) Target Encoder(ViT)에 입력으로 추가, patch-level representation을 얻음

3) M개의 target block을 임의로 생성

 

2. Context

 

Target을 복원하기에 앞서, 어떤 사진 정보를 모델에게 줄 것인가를 결정

 

 

3. Prediction

 

어디를 복원할지(Target), 어떤 사전 정보를 줄지(Context)를 모두 얻었으므로, Predictior를 통해 학습을 수행함

 

Result

 

 

적은 epoch으로도 높은 Top-1 성능 얻음

 

 

큰 맥락에서의 이미지 마스킹 채우기가 가능하지만, 배경이나 색상 같은 디테일이 떨어짐

BELATED ARTICLES

more