* 아래 참조 원본 글을 볼 것을 추천 합니다. 번역기를 돌려서 요점만 추린 형태 입니다.
CLIP( Contrastive Language–Image Pre-training )은 제로 샷 전송, 자연 언어 감독 및 다중 모드 학습에 대한 대규모 작업을 기반으로 합니다.
CLIP은 시각 및 언어 모델을 위한 사전 학습 방법으로, 텍스트 데이터와 시각적 데이터 간의 관계를 예측하도록 모델을 학습합니다. 이 모델은 텍스트 및 이미지 데이터의 대규모 코퍼스에 대해 교육을 받고 주어진 쌍에 대한 텍스트와 이미지 데이터의 임베딩 간의 유사성을 최대화하는 동시에 다른 쌍에 대한 유사성을 최소화하도록 교육됩니다. 최종 결과는 언어와 이미지 데이터가 서로 어떻게 관련되어 있는지에 대한 일반적인 이해가 있고 이미지 캡션 또는 시각적 질문 답변과 같은 특정 비전 언어 작업에 대해 미세 조정할 수 있는 모델입니다.
간단한 사전 훈련 작업을 확장하는 것으로 다양한 이미지 분류 데이터 세트에서 제로 샷 성능을 보여 줍니다. 사용 가능한 인터넷에서 찾은 이미지와 쌍을 이루는 텍스트를 사용합니다. 이 데이터는 CLIP에 대한 다음 프록시 훈련 작업을 생성하는 데 사용됩니다. 이미지가 주어지면 무작위로 샘플링된 32,768개의 텍스트 스니펫 세트 중 어떤 것이 데이터 세트에서 실제로 쌍을 이루는지 예측합니다.
CLIP 모델이 이미지에서 다양한 시각적 개념을 인식하고 이를 해당 이름과 연결하는 방법을 학습해야 한다는 것입니다. 결과적으로 CLIP 모델은 거의 임의의 시각적 분류 작업에 적용될 수 있습니다. 예를 들어, 데이터 세트의 작업이 개와 고양이의 사진을 분류하는 경우 각 이미지에 대해 CLIP 모델이 " 개 사진 " 또는 " 고양이 사진"이라는 텍스트 설명 이 쌍을 이룰 가능성이 더 높은지 여부를 확인합니다.
CLIP은 이미지 인코더와 텍스트 인코더를 사전 훈련하여 데이터 세트에서 어떤 이미지가 어떤 텍스트와 쌍을 이루는지 예측합니다. 그런 다음 이 동작을 사용하여 CLIP을 제로샷 분류기로 전환합니다. 데이터 세트의 모든 클래스를 " 개 사진"과 같은 캡션으로 변환하고 캡션의 클래스를 예측합니다. CLIP은 주어진 이미지와 가장 좋은 쌍을 추정합니다. (그림 1, 2)
딥 러닝에는 많은 데이터가 필요하며, 비전 모델은 전통적으로 구축 비용이 많이 들고 제한된 수의 미리 결정된 시각적 개념에 대한 감독만 제공하는 수동으로 레이블이 지정된 데이터 세트로 훈련되었습니다. 이 분야에서 가장 큰 노력 중 하나인 ImageNet 데이터 세트는 25,000명 이상의 작업자가 22,000개의 개체 범주에 대해 1,400만 개의 이미지에 주석을 달아야 했습니다. 반대로 CLIP은 이미 인터넷에서 공개적으로 사용할 수 있는 텍스트-이미지 쌍에서 학습합니다.
제약 사항
CLIP은 일반적으로 일반적인 물체를 인식하는 데는 잘 수행되지만 이미지에 있는 물체의 수를 세는 것과 같은 보다 추상적이고 체계적인 작업과 사진에서 가장 가까운 자동차가 얼마나 가까운지 예측하는 것과 같은 보다 복잡한 작업에서는 어려움을 겪습니다. 이 두 데이터 세트에서 제로샷 CLIP은 무작위 추측보다 약간 더 나을 뿐입니다. Zero-shot CLIP은 또한 자동차 모델, 항공기 변형 또는 꽃 종 간의 차이를 말하는 것과 같이 매우 세분화된 분류에서 작업별 모델과 비교하여 어려움을 겪습니다.
; (특히 경제적인) hardshi
<< 참조 >>
CLIP: Connecting Text and Images
We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision.
openai.com
'프로그램 개발해서 돈벌기 > AI' 카테고리의 다른 글
파이션(python) 초등 완전 기초: 연산과 변수 (0) | 2023.02.07 |
---|---|
ChatGPT 개념과 사용법(API 샘플 코드 포함) (0) | 2023.02.06 |
zero-shot 개념 (0) | 2023.01.17 |
AI 개인 PC(장비) 스펙: PC Hardware for Stable Diffusion (0) | 2023.01.17 |
DreamBooth : 주어진 사물(인물 포함)을 최대한 보존하면서 새로운 이미지 생성하기 (0) | 2023.01.16 |
댓글