본문 바로가기
프로그램 개발해서 돈벌기/AI

zero-shot 개념

by ubmuhan 2023. 1. 17.
반응형

zero-shot은 모델이 학습 과정에서 배우지 않은 작업을 수행하는 것 입니다.

위 작업을 수행 할 수 있도록 하는 것을 zero-shot learning 라고 합니다.

 

학습하지 않은 작업이 가능할까?

모델 학습을 단순화해서 보면 한가지 작업을 위해 한가지를 학습 시킨다고 가정해 보겠습니다.

실제 모델 학습 작업은 내부적으로 매우 다양한 작업 수행과 일반화 작업을 수행합니다. 

이렇게 학습을 시키는 이유는 학습 과정에서 모델이 의미 정보(semantic information)를 적절히 배우도록 하기 위해서 입니다.

음성 모델이 음성을 구성하는 성분들을 이해하도록 하고, 자연어 모델이 언어 자체를 이해하고, 이미지 모델이 이미지 자체를 이해하도록 하는 것 입니다.

각 도메인의 일반화된 지식을 이해하도록 모델이 학습하면, 각 도메인에 속하는 다양한 작업에 적응할 수 있습니다..

입력 데이터에 자체에 대한 이해와 표현력을 높이기 위한 비지도학습(unsupervised learning)과 자기지도학습(self-supervised learning) 같은 기술을 사용하고 있습니다.

 

학습을 시킬때 위 방법에 추가적인 학습을 통한 성능 개선하는 기술을 이용합니다. 이를 Transfer learning 이라고 합니다.

 

Transfer learning

  1. pre-training
  2. Fine-Tuning

그림 1.

큰 규모 데이터셋에 대해 큰 모델을 비지도학습 등 방식으로 사전학습하고, 적은 데이터셋을 가진 특정 작업에 파인 튜닝을 하여 성능을 최적화합니다. 예를 들면, 모든 동물이 포함된 수억개의 데이터에 대해 사전 학습하고, 수백 장 수준의 개 분류 (앞의 동물 데이터셋에 없는 종류의 개도 있다고 가정) 모델로 파인 튜닝 하는 것 입니다. 이렇게 하면, 수백 장의 개 데이터만으로 학습하는 것보다 상당히 높은 성능을 얻을 수 있습니다. (그림 1)

 

 

 

 

 
 
 
반응형

댓글