728x90 반응형 clip1 CLIP 소개 * 아래 참조 원본 글을 볼 것을 추천 합니다. 번역기를 돌려서 요점만 추린 형태 입니다. CLIP( Contrastive Language–Image Pre-training )은 제로 샷 전송, 자연 언어 감독 및 다중 모드 학습에 대한 대규모 작업을 기반으로 합니다. CLIP은 시각 및 언어 모델을 위한 사전 학습 방법으로, 텍스트 데이터와 시각적 데이터 간의 관계를 예측하도록 모델을 학습합니다. 이 모델은 텍스트 및 이미지 데이터의 대규모 코퍼스에 대해 교육을 받고 주어진 쌍에 대한 텍스트와 이미지 데이터의 임베딩 간의 유사성을 최대화하는 동시에 다른 쌍에 대한 유사성을 최소화하도록 교육됩니다. 최종 결과는 언어와 이미지 데이터가 서로 어떻게 관련되어 있는지에 대한 일반적인 이해가 있고 이미지 캡션 .. 2023. 2. 2. 이전 1 다음 728x90 반응형