ai그림 WebUI (Stable Diffusion)에 대한 모든것
WebUI (Stable Diffusion)
2022년 8월 22일에 공개된 Stability AI는 텍스트를 이미지로 변환해주는 인공지능 모델입니다. 이 모델은 오픈소스 라이선스로 배포되어 다양한 사용자들이 자유롭게 활용할 수 있습니다. 텍스트를 입력하면 Stability AI는 해당 텍스트를 기반으로 고품질 이미지를 생성해냅니다.

사이트주소 :
https://stability.ai/
특징 :
Stable Diffusion은 독일 뮌헨 대학교 Machine Vision & Learning Group (CompVis) 연구실의 "고해상도 이미지 합성 연구"를 바탕으로 개발된 딥러닝 인공지능 모델입니다. Stability AI와 Runway ML 등의 지원을 받아 개발되었습니다.
Stability AI는 에마드 모스타크(Emad Mostaque)라는 영국인이 설립한 회사로, Stable Diffusion을 위해 컴퓨팅 자원을 제공하여 LAION-5B 데이터베이스를 학습시킬 수 있게 했습니다. 이 모델은 기존의 Dall-e 2나 Imagen과 같은 text-to-image 모델과는 달리 컴퓨터 리소스 사용량을 크게 줄여서 4GB 이하의 VRAM을 가진 컴퓨터에서도 사용할 수 있습니다.
또한, 비용이 많이 들더라도 개방적으로 오픈소스로 공개되어 일반인들도 사용할 수 있습니다. 이로 인해 그림 인공지능의 시대를 열었으며, 해당 모델을 기반으로 하는 AI 이미지 서비스 기능이 계속해서 늘어나고 있습니다.
플러그인인 "컨트롤넷"을 사용하면 포즈 지정이 가능합니다. 또한, Openpose에서 파생된 Canny 모델 등 다양한 ControlNet 보조모델을 활용하여 신체 부위에 대한 작대기를 조정하여 선화 수준의 밑그림 구도를 도와줍니다.
Stable Diffusion은 주로 CLIP, UNet, VAE (Variational Auto Encoder)라는 세 가지 인공신경망으로 구성되어 있습니다. 사용자가 텍스트를 입력하면 텍스트 인코더인 CLIP가 해당 텍스트를 UNet이 이해할 수 있는 토큰으로 변환합니다. UNet은 토큰을 기반으로 무작위로 생성된 노이즈를 제거하는 과정을 통해 이미지를 생성합니다. 디노이징 과정을 반복하다 보면 정확한 이미지가 생성되는데, VAE는 이러한 이미지를 픽셀로 변환하는 역할을 담당합니다.
Stable Diffusion은 전통적인 확산 확률 이미지 생성 모델과는 달리, 해상도가 높아질수록 리소스 사용량이 기하급수적으로 증가하는 문제를 해결하기 위해 앞뒤에 오토인코더를 도입했습니다. 이를 통해 이미지 전체가 아닌 작은 차원의 잠재 공간에서 노이즈를 조작함으로써 비교적 큰 해상도의 이미지를 생성할 수 있으며, 이를 위해 많은 컴퓨팅 자원이 필요하지 않습니다. 따라서, 일반적인 가정에서 사용되는 그래픽 카드 정도의 리소스로도 Stable Diffusion을 이용할 수 있게 되었습니다.
라이선스 :
Stable AI는 새로운 머신러닝 전용 오픈소스 라이선스[4]를 도입했습니다. 이 라이선스는 일반적인 오픈소스 라이선스와는 다른 특징을 가지고 있습니다. Stable Diffusion을 사용하여 서비스를 제공하는 경우, 사용자는 명시적으로 해당 라이선스를 준수해야 합니다. 또한, 모델을 파인튜닝하는 경우에는 라이선스에 명시된 특정 용도에 한정하여 사용해야 하며, 다른 용도로 사용해서는 안 됩니다.

사용방법 :
다양한 오픈소스 프로젝트들이 Stable Diffusion을 활용하여 개발되었습니다. 아래는 각 프로젝트에 대한 설명입니다:
1. Stable Diffusion web UI: Stable Diffusion 모델을 쉽게 사용할 수 있도록 웹 기반의 사용자 인터페이스를 제공하는 프로젝트입니다. 개발자는 지속적으로 업데이트를 진행하며, Stable Diffusion의 프론트엔드 기능 외에도 GFPGAN 보정, ESRGAN 업스케일링, Textual Inversion 등 다양한 기능을 추가하고 있습니다.
2. 원작자: CompVis에서 논문을 게재한 원본 프로젝트입니다. 사용성은 제한적이므로 참고 용도로 사용될 수 있습니다.
3. Diffusers: 유명한 머신러닝 프레임워크 제공사인 허깅페이스에서 제공하는 새로운 diffusion 모델용 프레임워크입니다. Stable Diffusion의 finetuning을 쉽게 할 수 있는 방법을 제공합니다. Transformers나 Datasets와 같은 프레임워크도 포함되어 있습니다.
4. DiffusionBee: 맥용 앱으로 Stable Diffusion을 직접 실행할 수 있습니다. 텍스트 및 이미지 입력이 가능하며, 인페인팅 및 아웃페인팅 기능도 지원합니다. Apple Silicon 버전은 애플 실리콘 내부의 뉴럴 엔진을 사용하며, HQ 버전은 GPU를 활용하여 품질을 높이지만 속도는 느립니다. 인텔 맥도 지원하며 향후 윈도우도 지원 예정입니다.
5. Draw Things: iOS, iPadOS 및 macOS용 앱으로 Stable Diffusion을 실행할 수 있습니다. CPU + GPU, CPU + Neural Engine, CPU + GPU + Neural Engine(All)의 3가지 모드를 지원합니다. Checkpoint, LoRA, Textual Inversion 등을 활용할 수 있으며, WebUI와 유사한 기능을 제공합니다. 확장 기능은 지원하지 않으며, 메모리 용량 제약으로 인해 구형 및 신형 기기 모두에서 일정 해상도 이상으로 실행하면 메모리 부족으로 앱이 종종 종료될 수 있습니다.
6. Riffusion: 스펙트로그램을 활용하여 작곡 AI에 응용하려는 사례입니다.
7. 디시인사이드 AI 이미지 갤러리: civitai의 서비스를 활용하여 AI 이미지 생성이 가능한 전용 갤러리를 개설하였습니다.
위 프로젝트들은 Stable Diffusion을 활용하여 다양한 기능과 환경에서 AI 이미지 생성을 가능하게 하고 있습니다.