ReMixMatch : Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring 논문요약
이미지 출처:
- unlabeled data에 대해 각각 K 번의 standard augmentation을진행
- K개의 prediction distribution 평균내기 & sharpening → pseudo label
- 모든 데이터(labeled & unlabeled)를 섞은 후 labeled group과 unlabeled group을 나눔
- 각 그룹의 데이터와 레이블에 대해 MixUp을 진행
- MixUp 데이터에 대한 prediction output과 MixUp 레이블간의 loss를 계산
- 모든 로스를 더해줌.
- MixMatch에 두 가지 요소를 추가함
1) Distribution alignment
2) Augmentation anchoring
Distribution alignment
- unlabeled data의 prediction distribution을 labeled data의 distribution에 맞춰서 조정하는 것.
- Bridle (1992) : unlabeled data에 대해서 모델의 input과 output은 상호의존적이여야함.
- 상호의존도 I(y;x)를 최대화 시키는 방향으로 모델을 학습시켜야함.
- Minimize E_x(H(~~)):
- Entropy Minimization → Sharpening in MixMatch
- Maximize H(E_x(~~)) :
- Entropy ↑ : 분포가 평평해야함
- 즉, 모든 training data에 대해, 모델이 각 class에 대해 Equal frequency를 가질 때 Entropy가 최대가 된다.
※ 그러나, 실제 클래스에 대한 분포가 동일한 경우가 아니라면 학습에 안 좋은 영향을 끼침 ☞ 개선책 : Distribution Alignment
- q : unlabeled data의 prediction distribution
- p(y) : labeled data의 class 분포의 average
- tilde_p(y) : q의 moving average unlabeled data가 labeled data의 분포를 따라가도록 조정시킴.
Augmentation Anchoring
AutoAugment : best accuracy를 가지는 최적의 (strong) augmentation을 찾는 강화학습 기반의 파이썬 라이브러리
문제점1 : 성능은 올라갔지만 training 수렴X → sol) weakly aug. image의 prediction을 strongly aug. images의 guessed label로 사용하자
문제점2 : 강화학습은 시간과 자원이 많이듬. labeled data가 어느정도 필요함. → sol) CTAugment(Control Theory Augment)
- magnitude val를 bin으로 나누어주고, 각 bin에게 가중치 부여.
- two transformations를 랜덤하게 선택 후, 각 transformation에 대해 가중치가 부여된 magnitude bin을 랜덤하게 선택.
- 가중치를 갱신하기 위해, labeled data를 두 transformation에 통과시킴.
- label의 정보를 훼손하지 않는 augmentation을 생성하는 가능성을 학습.
- 예측결과와 실제 label(One-hot vector)을 비교하여, bin weight를 갱신시킴.
Augmentation Anchoring :
- unlabeled data에 대해 strong/weak augmentation을 적용
- weakly augmented image의 predictions가 여러개의 strong augmented images의 guessed label이 됨.
Loss Function
MixMatch Loss
ReMixMatch Loss
- labeled group과 unlabeled group 모두 Cross Entropy loss 사용
- Pre-mixup unlabeled loss : MixUp 이전의 데이터 u1에 대해서 cross entropy loss 계산
- Rotation Loss: {0,90,180,270} 중 하나의 각도로 회전시킨 뒤 회전된 각도를 예측한 결과에 대한 loss