"DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation"
그림 1.은 기존 이미지 생성 AI들과 비교한 이미지 입니다.
DALL-E2와 Imagen을 DreamBooth와 이미지 생성 결과물을 비교했습니다.
원본 Input Images를 보면 노란색 자명종이 달리고 시간을 표시하는 곳은 흰색이고 테두리가 노란색인 탁상 시계입니다.
시간을 나타내는 눈금과 숫자는 검은 색이고 3숫자만 노란색으로 크게 보입니다.
DALL-E2는 새로운 이미지 생성도 기대치에 밑돌았고 충실도도 기대치를 만족하지 못했습니다.
DALL-E2는 흰색 이불 같은 배경을 그대로 유지했습니다.
그리고 시계 특징인 시침과 초침도 없고 숫자 3 표현도 기존 시계 특징 표현에 실패했습니다.
Imagen은 새로운 이미지 생성은 잘 생성했지만 역시 기존 시계를 표현하는데는 만족스럽지 않았습니다.
DreamBooth는 어떨까요?
기존 시계 특징을 그대로 잘 표현했고 뒷 배경 역시 제시한 새로운 이미지로 잘 표현한 것을 볼 수 있습니다.
그림 2.는 DreaBooth가 어떻게 동작했느지 보여주고 있습니다.
3 ~ 5개 개 이미지에 클래스 이름을 부여합니다.
Fine-Tuning을 통해 고유한 개인화된 Text-to-Image 모델을 만듭니다.
이 고유한 클래스 이름에 원하는 문구를 추가하고 추론을 거치면 원하는 결과물을 얻습니다.
그림 2.에서 클래스 이름은 "[V]" 입니다.
피사체의 ~3-5개 이미지가 주어지면 우리는 두 단계로 텍스트-이미지 확산을 미세 조정합니다.
식별자와 주제가 속한 클래스의 이름(예: "[T] 개의 사진")과 병행하여 클래스별 사전 보존 손실을 적용합니다.
텍스트 프롬프트에 클래스 이름(예: "A photo of a dog")을 삽입하여 대상 클래스에 속하는 다양한 인스턴스를 생성하도록 권장합니다.
(b) 입력 이미지 세트에서 가져온 저해상도 및 고해상도 이미지 쌍으로 초고해상도 구성 요소를 미세 조정하여 피사체의 작은 세부 사항에 대해 높은 충실도를 유지할 수 있습니다. (그림 3)
결과물들
Art Rendition
Text-Guided View Synthesis
Property Modification
Accessorization
그림 4 ~ 그림 8은 DreamBooth를 이용한 결과믈 예시입니다.
이중 그림 8.Accessorization을 이용한 Profile 서비스가 여럿 곳에서 제공하고 있습니다.
https://pfpmaker.com/ai?ref=menu
AI Profile Picture Maker - Create Your Own AI-Generated PFP's
Unleash your imagination with real Artificial Intelligence. Get 100+ photo realistic pictures of you transformed into anyone, anywhere or anything
pfpmaker.com
https://openart.ai/photobooth?discoveryModel=sd
Discover and generate AI Art | OpenArt
Search 10M+ prompts, and generate AI Art via Stable Diffusion, DALL·E 2.
openart.ai
https://www.profilepicture.ai/
AI Profile Picture Generator and Maker | ProfilePicture.AI
Your profile picture is the first thing people see when they look at your profile. We use artificial intelligence to generate an image of you that looks perfect and captures who you are. You can be anything, anywhere, or anyone!
www.profilepicture.ai
<< 원본 사이트 >>
DreamBooth
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman Google Research It’s like a photo booth, but once the subject is captured, it can be
dreambooth.github.io
'프로그램 개발해서 돈벌기 > AI' 카테고리의 다른 글
zero-shot 개념 (0) | 2023.01.17 |
---|---|
AI 개인 PC(장비) 스펙: PC Hardware for Stable Diffusion (0) | 2023.01.17 |
Stable Diffusion 기술 설명 : 텍스트로 이미지 생성 (0) | 2023.01.10 |
[실습] AI 장비 없이 단지 웹에서 AI로 이미지(그림) 생성(그리기)해 보기 (0) | 2023.01.06 |
AI가 개발을 같이 해 줘요. (0) | 2022.10.28 |
댓글