[pxd talks] 생성형AI와 스테이블 디퓨전의 이해

2024. 7. 15. 11:33pxd talks
elyoob_박유빈

pxd talks는 여러 분야의 연사님을 초빙해 인사이트를 나누는 시간입니다. pxd 구성원들이 더 넓은 시야로 무언가를 새롭게 발견하거나 자신을 성장시킬 수 있는 기회를 얻을 수 있도록 말이죠. 그리고 그 경험은 [pxd talks] 아티클로 기록합니다. pxd 구성원들이 함께 보고 듣고 느끼고 배운 것들이 사라지지 않고 pxd story에 남아 더 넓은 세상으로 뻗어갈 수 있기를 바랍니다.

 

들어가며,

지난 5월 pxd talks에서는 soy.lab의 총괄 및 대표이시며 패스트캠퍼스 생성형 AI 강사이신 최돈현 연사님을 모시고, 이미지와 언어를 이해하는 AI 기술의 발전 및 활용과 Stable Diffusion에 대한 이해를 ComfyUI 시연을 통해 이해하는 자리가 마련되었어요. 

이번 글은 연사님께서 들려주신 이미지 생성 AI에 관한 흥미진진한 이야기들을 꼭지 별로 모아 보았어요.

soylab(소이랩),

간장이 음식에 맛을 내기 위해 쓰이는 용도와 같이, 소이랩의 목표와 포지셔닝은 생성형 AI 관련 기술의 진입 장벽을 낮추고 최신 트렌드 기술을 교육 중심의 콘텐츠 제작을 통해 커뮤니티를 확장하고자 하는 것이라고 합니다.

최근 다양한 분야의 회사들에서 생성형 AI에 대한 수요가 높아지고 있는 것을 체감하고 계신다고 해요. 이에 따라 사내 강연 요청이나 협업 제의가 많이 들어오고 있다고 합니다. 기존 사업과 생성형 AI가 결합될 때 예측 불가능한 새로운 '무언가'들이 많이 나올 것이라고 기대하시며, 피엑스디 도 이와 마찬가지라고 말씀하셨어요. (두근)

Facebook : www.stablediffusionkorea.com 
Youtube : www.soylab.ai  

생성형 AI 기술의 무한한 잠재력

2023년은 생성형 AI 기술이 크리에이터 시장을 근본적으로 변화시킨 해였다고 말씀하셨어요. 창작의 패러다임을 완전히 뒤바꿔 놓았다고 과언이 아닐 것 같아요. 창의성의 경계를 넓히는 동시에, 기존 크리에이터들의 역할과 가치에 대한 근본적인 질문을 제기하며 업계 전반에 걸쳐 깊은 파문을 일으켰다고 생각해요.

최돈현 님은 AI의 발전이 인류를 위한 길이라고 하셨어요. 개인이 일하고 있는 많은 일들이 거의 자동화되고 있는 추세이지만, "우리는 아직 AI 기술을 완벽하게 활용할 수 있는 파이프라인을 갖추고 있지 않은 상황"이라고 말씀하셨어요. 

생성형 AI는 이제 막 대중에게 소개되고 있는데, 이 분야에 처음 접하거나 기술적 개발, 경제적 관점을 두루 갖춘 사람들이 생성형 AI를 활용한다면 어떤 일이 벌어질지 상상하기 힘들 것이라고 하셨어요. 하지만 분명 AI 기술의 발전은 인류를 위한 길이 될 것이며, 우리에게 새로운 기회와 가능성을 열어줄 것은 확실하다고 합니다!


2022년 생성형 AI의 ‘BOOM 🪄’ 사실은 의도치 않은 ‘BOMB 💣’ 이였다

2019-2020년 당시, 생성형 AI 기술 개발의 선두주자였던 Runway ML과 Stability AI 뿐만 아니라 Adobe, Google, Microsoft 등 다른 대기업들도 각자 생성형 AI 기술 개발에 박차를 가하고 있었죠.

2022년 8월, 예상치 못한 사건이 발생합니다. Stability AI가 개발 중이던 이미지 생성 AI 모델인 Stable Diffusion의 가중치(weights)가 갑자기 인터넷상에 유출된 것입니다. 이는 단순한 실수라기보다는 의도적인 '누출'에 가까웠다고 볼 수 있다고 해요.

이 사건은 AI 업계에 큰 파장을 일으켰다고 해요. 특히 Runway ML은 큰 충격을 받았죠. 그들은 Stability AI와 동맹 사이.. 공동으로 연구를 진행하고 있었기 때문입니다. 다른 기업들도 마찬가지였습니다. 대부분의 기업들이 폐쇄적인 개발 방식을 통해 독점적 이익을 추구하고 있었는데, 갑자기 핵심 기술이 공개되어 버린 것이니까요.

하지만 이 사건은 역설적으로 AI 기술의 전파를 앞당기는 계기가 되었어요. Stable Diffusion의 오픈소스 공개로 인해, 많은 개발자들과 연구자들이 이 기술에 접근할 수 있게 되었고, 더 쉽고 직관적으로 사용할 수 있게 해주는 인터페이스 기반의 다양한 응용 프로그램과 서비스가 빠르게 개발되기 시작했어요. 덕분에 전문적인 프로그래밍 지식이 없는 일반 사용자들도 텍스트 프롬프트만으로 고품질의 이미지를 생성할 수 있게 되었죠.

결과적으로, 이 '사고'는 생성형 AI 기술을 대중화하는 데 큰 역할을 했다고 합니다. 지금 우리가 쉽게 다양한 AI 이미지 생성 서비스를 이용할 수 있는 것도 이 사건이 있었기에 가능해진 것이라고 해요. 


Stable Diffusion

“Stable Diffusion은 마법 같은 것도 아니고 그렇다고 해서 사기도 아니고 진짜 일어날 일이 일어난 일”

Stable Diffusion은 Stability AI에서 2022년에 출시한 딥러닝 모델이며 확산 및 노이즈 제거 메커니즘을 통해 텍스트를 사용하여 이미지를 생성하거나 기존 이미지를 변형할 수 있다는 특징이 있어요.

“노이즈를 넣으면서 이미지를 계속해서 파괴하는 것. 그리고 파괴됐던 노이즈에 대한 패턴을 기억하고 노이즈 안에서 우리가 원하는 이미지를 찾는 것"

해당 과정을 Diffusion 프로세스라고 부르는데, 원리는 다음과 같다고 해요: “이미지에 점진적으로 노이즈를 적용하여 이미지를 흐리게 만드는 과정을 학습할 수 있다면, 그 과정을 역으로 적용하여 다시 이미지를 생성할 수 있지 않을까 하는 아이디어에서 시작되었다고 해요. 이를 위해 여러 학습 모델을 사용하여 인코딩과 디코딩 과정을 통해 원하는 형태의 결과물까지 도달하는 것이라고 해요.

쉽게 말해, 디퓨전 프로세스는 마치 퍼즐을 맞추는 과정을 거꾸로 하는 것과 비슷한 것 같아요. 먼저, 깨끗한 이미지에 점진적으로 노이즈를 추가하면서 이미지를 '파괴'합니다. 이 과정에서 AI는 각 단계마다 어떤 노이즈가 추가되었는지, 그리고 그 노이즈가 원본 이미지를 어떻게 변화시켰는지 기억을 해요. 그다음, 이 과정을 역으로 실행합니다. 완전한 노이즈 상태에서 시작해, AI가 학습한 패턴을 이용해 노이즈를 조금씩 제거해 나가는 거죠. 이때 우리가 원하는 이미지의 특징을 텍스트로 입력하면, AI는 그 특징에 맞는 패턴을 노이즈 속에서 찾아내고 강화합니다.

노이즈 속에서 의미 있는 패턴을 찾아내고, 그 패턴을 점점 선명하게 만들어가는 과정이에요. 마치 안갯속에서 천천히 모습을 드러내는 풍경처럼, 노이즈 속에서 우리가 원하는 이미지가 서서히 형성되는 것입니다.

Stable Diffusion의 원리를 깊이 파헤치고 쉽게 이해하니, 이미지 생성 AI를 단순한 '마법의 도구' ‘블랙박스’로 보지 않게 되었어요. 이제는 'AI가 이런 식으로 이해하겠구나'라고 생각하며 더 효과적으로 사용할 수 있게 되었죠. 또한, AI가 생성한 그림을 볼 때도 '여기서 이런 부분을 잘 표현했네'라고 더 깊이 있게 감상할 수 있게 된 것 같아요!


Comfy UI

Comfy UI Text2img + Controlnet 1.1 openpose로 생성한 이미지 (출처: 최돈현-페이스북)

“Comfy UI는 Stable Diffusion을 더욱 강력하고 유연하게 사용할 수 있게 해주는 도구”

Comfy UI는 Linear Workflow가 아닌 Node Workflow 기반의 인터페이스를 제공합니다. 이는 코드 작성 없이 노드 기반으로 쉽게 구동되는 Stable Diffusion이라고 생각하면 돼요. 노드 기반 인터페이스 라 Blender나 UE5와 같은 전문 툴에 익숙한 사용자들에게 특히 매력적으로 다가올 수 있어요.

일견 복잡해 보일 수 있지만, 노드 시스템을 이해하면 Comfy UI에서 Stable Diffusion 과정의 로직 구성과 절차가 직관적으로 보이기 때문에 오히려 더 편할 수 있어요.

Node Workflow의 특징이자 강점은 한 화면에서 여러 컨디셔닝과 파라미터들을 미세 조정하여 다양한 조건들을 엮어 동시에 여러 가지 결과를 만들어내는 것인데요. 이를 통해 고품질의 이미지를 생성할 수 있으며, Comfy UI가 주목받고 있는 주된 이유는 엄청난 생산성 때문이에요. Comfy UI로 실행하면 0.1초에 한 장씩 이미지를 생성할 수 있다고 합니다.

Comfy UI에서 노드는 각각 특정 기능을 수행하며, 다른 노드들(e.g. Controlnet)과 결합되었을 때 새로운 기능들이 구현 가능하다고 해요. 이는 프로그래밍의 함수와 유사한 역할을 한다고 볼 수 있어요.

(왼)Comfy UI 화면, (오)결과물; 단순 컨트롤넷 Canny 사용 및 프롬프트 적용으로 다양한 헤어스타일 변경 (출처: 최돈현-Stable Diffusion Korea 페이스북)

시연과 설명을 통해 다양한 기능들을 보여주셨어요. 텍스트 프롬프트를 바탕으로 하는 이미지 생성(Text-to-Image), 기존 이미지를 기반으로 새로운 스타일이나 내용으로 변형하는 이미지 생성(Image-to-Image), 이미지의 특정 부분만 선택적으로 수정할 수 있는 인페인팅(Inpainting) 기능, LoRA 모델을 적용하여 특정 스타일이나 주제에 특화된 이미지 생성 등이 있었어요.

특히 인페인팅 기능은 실용적인 면에서 큰 가능성을 보여주었는데요. 이미지의 특정 부분만을 자연스럽게 수정하거나 교체할 수 있다는 점이 인상적이었습니다. 예를 들어, 풍경 사진에서 날씨를 바꾸거나 인물의 의상을 변경하는 등 섬세한 조작이 가능했죠.

연사님께서 각 기능을 사용했을 때 나오는 결과물을 보여주셨는데, 그 퀄리티와 다양성에 놀라지 않을 수가 없었어요.
분명한 건, AI 이미지 생성 기술이 우리의 상상력을 현실로 구현하는 강력한 도구로 자리 잡았다는 점입니다.

여러분도 ComfyUI를 한번 사용해 보시는 건 어떨까요?

텍스트로 상상한 이미지를 만들어보고, 기존 이미지를 새롭게 변형해 보거나, 특정 부분만 수정해 보는 등 다양한 실험을 직접 경험해 보시면 그 매력을 더욱 깊이 이해하실 수 있을 거예요. 우리의 상상력과 ComfyUI의 기능이 만나 어떤 놀라운 결과물을 만들어낼지, 저도 아직 해보지 못했지만 곧 도전해보려고 합니다!


Stable Diffusion 3 로 생성된 고양이 (출처: 최돈현-페이스북)

마무리하며,

강연을 마무리하며 최돈현 연사님께서 우리에게 중요한 메시지를 전달해 주셨어요. 생성형 AI 기술이 놀라운 속도로 발전하고 있는 가운데, 한국보다 태국이나 중국 같은 국가들이 이미 이 기술을 적극적으로 활용하고 있다고 합니다. 이에 뒤처지지 않기 위해 우리도 빠르게 따라잡으려 노력해 왔지만, 단순히 쫓아가는 것만으로는 부족하다는 걸 깨달았다고 해요.

연사님은 이 기술 격차를 줄이기 위해서는 개인의 노력만으로는 한계가 있다고 강조하셨어요. 대신 우리 모두가 힘을 모아 커뮤니티를 형성하고, 대한민국을 생성형 AI 강국으로 만들어 나가야 한다고 말씀하셨어요! 그래서 모두가 이 혁신적인 기술에 도전해 보고, 직접 사용해 보면서 자신만의 것으로 만들어 가길 권유하셨어요.

함께 이 흥미진진한 여정을 시작해 볼까요?