본문 바로가기
일상정보

스테이블 디퓨전(Stable Diffusion) 소개와 이미지 생성 기술의 원리

by KlayLee 2023. 8. 8.

 

🌟 스테이블 디퓨전(Stable Diffusion) 소개와 이미지 생성 기술의 원리 🌟

썸네일

📚 1) 스테이블 디퓨전의 개념과 기술적 작동 방식 설명 📚

스테이블 디퓨전(Stable Diffusion)은 2022년에 발표된 text-to-image 딥러닝 모델로, 이미지 생성 기술의 한 종류입니다. 이 모델은 Latent Diffusion 모델의 일종으로서, 이미지 합성에 기반한 고해상도 이미지 합성 연구를 수행하는 독일 뮌헨 대학교 Machine Vision & Learning Group (CompVis) 연구실에서 기반을 두고 있습니다. Stability AI, CompVis LMU, Runway의 협동과 EleutherAI, LAION의 지원으로 만들어진 오픈 소스 모델이며, 이에 따라 해당 모델은 github에서 확인할 수 있습니다. 또한, 스테이블 디퓨전은 기존 모델과는 다르게 적은 VRAM(8GB 이하)으로도 구동 가능하여 일반 소비자에게 더 높은 접근성을 제공합니다.

 

스테이블 디퓨전의 기술적 작동 방식은 Latent Diffusion 모델의 특징을 따릅니다. 이 모델은 이미지를 픽셀 공간에서 더 작은 차원의 잠재 공간으로 압축하는 VAE(변이형 오토인코더) 인코더를 사용합니다. 그 후, 압축된 잠재 표현에 가우시안 노이즈를 반복적으로 적용하는 전방 확산(forward diffusion) 과정이 이루어집니다. 이 과정에서 U-Net 블록을 포함한 잠재 확산 모델이 이미지를 노이즈로 변환합니다. 마지막으로 VAE 디코더가 역방향으로 작동하여 노이즈로부터 원래의 잠재 표현을 복원하고 최종 이미지를 생성합니다.

이와 같은 원리로 스테이블 디퓨전은 텍스트 프롬프트를 입력받아 해당하는 이미지를 생성하는 기술을 수행합니다. 높은 이미지 품질과 상대적으로 낮은 리소스 요구로 스테이블 디퓨전은 이미지 생성 작업에 큰 관심을 받고 있습니다.


📚 이미지 생성에 사용되는 딥러닝 기법과 인공지능 알고리즘에 대한 이해 📚

스테이블 디퓨전은 이미지 생성에 딥러닝 기법과 인공지능 알고리즘을 활용합니다. 이 모델은 텍스트 프롬프트를 입력으로 받고, 해당 텍스트를 기반으로 이미지를 생성하는 text-to-image 딥러닝 AI입니다.

이미지 생성 과정에서 사용되는 주요 기술은 다음과 같습니다:

  • VAE(변이형 오토인코더): VAE는 이미지를 픽셀 공간에서 잠재 공간으로 압축하는 기법입니다. 이러한 압축 과정은 이미지의 의미를 더 작은 차원의 벡터로 표현하게 됩니다.
  • 전방 확산(forward diffusion): 전방 확산은 이미지를 노이즈로 변환하는 과정으로서, 가우시안 노이즈를 잠재 표현에 반복적으로 적용함으로써 이미지를 노이즈로 변환합니다.
  • U-Net 블록: U-Net은 이미지를 노이즈로부터 다시 원래의 잠재 표현으로 복원하는 역방향 작업을 담당하는 블록입니다. 이러한 역방향 과정은 이미지를 생성하는데 기여합니다.

스테이블 디퓨전은 이러한 기술들을 조합하여 텍스트 입력을 이미지로 변환하는 작업을 수행합니다. 이 과정에서 높은 이미지 품질과 상대적으로 낮은 리소스 요구를 제공하여 다양한 분야에서 이미지 생성에 활용되고 있습니다.


⭐ 참고 문헌: