AI
:ing
2024. 03. 10
스테이블 디퓨전과 '로라'의 모든 것:특성부터 이슈까지
“AI는 창조성의 민주화를 가져올 거예요.
이미 모든 사람이 소셜 미디어를 사용하고, 모두가 콘텐츠 제작자입니다.
그리고 이제 창작의 장벽이 아예 무너졌어요.
그동안 창의적이지 못해 좌절했던 사람도 창의적일 수 있을 거예요.
물론 그만큼 크리에이티브에 대한 기준도 높아지겠죠.”
-대런 휘트니 디자인 스튜디오 디지털 디자인 디렉터, 2022년 크리에이티브 리뷰 인터뷰에서
넷플릭스, 인공지능 관련 인재 선발한다
대화형 AI인 챗gpt 뿐 아니라 이미지 생성형 AI에 대한 관심이 엄청난 요즘입니다. 단 몇 개의 단어만으로도 사용자가 원하는 뛰어난 퀄리티의 이미지를 뚝딱 만들어내는 인공지능. 이미지 생성 AI 업계에서는 현재 오픈AI의 ‘달리(DALL·E)’, ‘미드저니(Midjourney)’, 어도비의 ‘파이어플라이(Firefly)’, 스테이블AI의 ‘스테이블 디퓨전(Stable Diffusion)’ 등이 치열하게 경쟁하고 있죠. 산업과 직무를 불문하고 어디에서나 인공지능의 활용 범위가 높아지리라는 기대는 이미 현실로 바뀌고 있습니다. 이를 증명하듯 넷플릭스 소유의 VFX 스튜디오에서 인공지능 관련 여러 포지션의 채용 공고를 냈는데요. 이제 생성형 AI의 활용은 옵션이 아니라 필수가 된 듯하네요. 이 똑똑한 툴을 얼마나 잘 활용해 자신만의 결과물을 만들고 업무에 적용할지, 실무자들의 창의력이 관건이겠지요. 내게 지금 가장 필요한 인공지능을 선택해 배우는 것이 중요할 텐데요. 그렇다면 요즘 가장 주목받고 있는 생성형 AI들을 비교해 보아야겠죠?
달리, 미드저니, 그리고 스테이블 디퓨전
현시점에서 가장 각광받고 있는 이미지 생성형 AI로는 달리(DALL*E), 미드저니(Midjourney), 스테이블 디퓨전(Stable Diffusion)이 있습니다. 달리는 사용자의 주문대로 ‘모범생’스럽게 정확히 이미지를 구현해 내는 것이 특징입니다. 미드저니는 섬세하지는 않지만 ‘때깔’ 좋은 이미지를 수월하게 생성해낼 수 있고요. 스테이블 디퓨전의 경우 실사에 가까운 이미지를 뽑아내는 상당한 수준의 기술력이 인상적입니다. 이외에도 일본풍의 애니메이션 느낌을 풍기는 이미지가 필요할 때 적합한 NobleAI가 있죠.
그림 AI시대를 열다, '스테이블 디퓨전'의 장점
앞서 언급한 것처럼 가장 세밀한 컨트롤이 가능한 것으로 알려진 AI는 단연 스테이블 디퓨전입니다. Stable Diffusion은 독일 뮌헨 대학교의 Machine Vision & Learning Group 연구실이 여러 곳의 투자를 받아 개발한 딥러닝 인공지능 모델이거든요. 컴퓨터 사용 리소스를 크게 줄였다는 점이 다른 인공지능과의 확연한 차이죠. 무엇보다도 과감하게 오픈 소스로 공개했기에 모두가 접근 가능하다는 점이 엄청난 장점입니다. 앞서 간단히 언급한 것처럼 이미지를 구현하는 데 있어 아주 세밀한 디테일을 잘 살리는 다양한 기능을 갖추고 있고, 여전히 새로운 기능이 개발되고 있다는 점 역시 엄청난 경쟁력이라고 볼 수 있겠습니다. 뿐만 아니라 방대한 데이터를 학습하며 실사에 가까운 이미지를 뛰어난 퀄리티로 만들어 냅니다. 지난 2023년 7월에는 기존 SD 1.5보다 매개변수가 6배 가까이 늘어난 SDXL 버전이, 11월에는 1초 만에 3단계 이미지를 생성하는 SDXL 터보가 공개됐습니다.
이렇게 대중성과 편리함에 신속함까지 모두 장착한 스테이블 디퓨전은 그림 AI의 시대를 열었다고 평가받고 있습니다. 이것이 오늘 글의 주제로 ‘스테이블 디퓨전’을 선택한 이유이기도 합니다.
대체 AI가 어떻게 그림을 그려내는 걸까?
그런데 대체 인공지능이 어떻게 그림을 그려내는 것일까요? 원리는 이렇습니다. 사용자가 텍스트로 작업 지시를 내리면 AI는 여기에 걸맞는 이미지를 만들어 냅니다. 스테이블 디퓨전(Stable Diffusion)의 경우 딥러닝 알고리즘을 통해 특정 이미지에 무작위의 노이즈를 추가하고 제거해 가며 명령값에 맞는 이미지가 무엇인지 예측하는데요. 이런 작업이 매끄럽게 가능하려면 인공지능이 메시지(텍스트)와 연결되는 이미지의 예시를 다양하게 학습해야만 하겠죠. 바로 이 지점에서 인공지능은 엄청난 데이터를 필요로 할 수밖에 없습니다. 인터넷 속 무궁무진한 정보의 바다에서 수많은 이미지와 텍스트를 무작위로 섭렵하며 이미지 생성 기술을 스스로 고도화하는 것이죠.
이런 어마어머한 학습량은 분명 대체 불가능한 장점이지만 문제점 역시 불러일으켰습니다. 지난 2023년 초, 시애틀에 본사를 둔 스톡 포토 에이전시 게티 이미지 측이 스테이블 디퓨전 개발을 지원한 기업 ‘스태빌리티 AI’를 상대로 소송을 제기하는 일이 있었거든요. 스태빌리티 측이 동의를 구하지 않은 채 수백만 장의 이미를 불법적으로 이용했다는 이유였어요. 자세한 얘기는 글 후반부에서 다시 다루겠습니다.
스테이블 인퓨전 모델 : 로라, 드림부스, 텍스트 인버전
스테이블 디퓨전을 검색하면 로라(LoRA, Low-Rank Adaptation)에 관한 질문이 다양하게 뜹니다. 많은 분들이 관심을 보이는 ‘로라’는 무엇일까요? 간단히 설명하자면 로라(LoRA)는 대상을 세부 조정하기 위한 학습 기법 중 하나입니다. 스테이블 디퓨전에는 로라 말고도 드리부스나 텍스트 인버전 같은 다양한 학습 기법이 있는데요. 이 중에서도 로라는 그림체의 세부적인 얼굴, 자세, 배경 등을 결정짓는 모델이라고 할 수 있습니다. 드림부스가 뛰어난 성능임에도 부담스러운 크기이고 텍스트 인버전은 파일 크기가 작은 대신 기능의 제약이 많다는 것을 감안하면, 아마 대부분의 이용자들에게 로라가 가장 적절한 대안일 겁니다. 로라는 이 두 학습 기법의 중간쯤이거든요. 저장 용량이 왜 중요한 건지 궁금해하실 분도 계실 텐데요. 스테이블 디퓨전을 사용하다 보면 저장 용량의 중요성을 절실하게 느끼게 됩니다. 원하는 모델을 모두 사용하려면 파일 크기의 압박이 상당해지기 때문이죠. 그러니 부담스럽지 않은 용량에 보통 이상의 학습 능력인 로라가 좋은 선택이 될 수밖에요.
로라, 이미지에서 이미지를 창조해 내다
스테이블 디퓨전에서 로라를 활용하면 수십 장의 이미지로 대상을 학습시킨 뒤 해당 그림체를 흉내 내어 새로운 작품을 뽑아낼 수 있습니다. 텍스트 명령으로 새로운 이미지를 구현하는 데서 더 나아가 이미지에서 이미지를 재창조해 내는 것이죠! 그러니 유명 작가의 작품이나 맘에 드는 그림을 로라를 이용해 리터치해서 나만의 새로운 작품을 탄생시킬 수 있습니다. 물론 이 지점에서 윤리적 문제가 발생합니다. 이렇게 만들어진 작품의 저작권이 어느 쪽에 가야 할지에 대해서 사회적 논의가 필요한 시점입니다. 스테이블 디퓨전과 로라뿐 아니라, 생성형 AI 때문에 빚어진 문제들이 사회 이곳저곳에서 터져 나오고 있거든요.
소송에 휘말린 스테이블 디퓨전
사실 블룸버그는 이미 지난 2023년 한 해가 인공지능에서 비롯된 저작권이나 소유권 등 법적 갈등이 본격적으로 시작되리라 예상한 바 있습니다. 그리고 블룸버그의 예측이 옳았어요. 지구촌 곳곳에서 여러 논란이 불거졌거든요. 주요 이미지 생성 AI의 개발사들이 소송에 휘말렸습니다. 앞서 게티 이미지 측에서 스테이블 디퓨전 개발사에 소송을 걸었다는 소식을 말씀드렸죠? 게티 이미지가 지적한 문제는, 스테이블 디퓨전이 동의 없이 이미지 스크래핑을 했을 뿐 아니라 게티이미지의 유료 소스 워터마크를 재현하려는 경향이 보인다는 점이었어요. 뿐만 아니라, 스테이블 디퓨전의 로라로 모 작가의 작품이 훔쳐져 재생산되어 논란이 되기도 했습니다.
이 사건이 끝이 아닙니다. 미드저니의 설립자가 동의 없이 수억 개의 이미지를 사용했음이 인터뷰를 통해 드러나자, 이들을 향한 대규모 집단 소송 역시 벌어지기도 했습니다. 동의 없이 가져간 저작물로 상업적 이윤을 얻은 행위가 공정하지 않다는 주장이었죠. 문제는 여기서 끝나지 않았어요. 스페인에서는 생성 AI를 이용해 아동 포르노를 만든 프로그래머가 검거되는 일이 생기고야 말았습니다.
인공지능이 불러온 사회적 파장
생성형 AI의 등장은 인간이 꿈꾸던 편리한 핑크빛 미래와는 거리가 있습니다. 인공지능의 등장으로 인간 일러스트레이터들이, 더 나아가 그들의 독창성이 생계를 위협받고 있으니까요. 누군가는 온라인 상에 올라와 있는 작품을 허가도 받지 않은 채 스테이블 디퓨전 같은 툴로 만져 여기저기서 자신의 작업물로 활용하고 있습니다. 꼭 저작권 문제가 아니더라도 앞으로 더 다양한 곳에서 인공지능으로 인한 문제가 일어나겠죠. 그때마다 이성적이고 지혜로운 사회적 합의가 필요할 테고요.
생성AI 기술은 계속 범용화할 겁니다.
그렇기 때문에 기술을 이길 수 없는 일은 하면 안 돼요.
대신 인간만이 할 수 있는 숙고를 해야 합니다.
가끔 인공지능이 인간의 창의성마저 앞지르지 않을까? 걱정하는 분도 있습니다.
하지만 관점은 하나의 키워드가 아니라, 무수한 숙고의 조합에서 나와요.
그렇기 때문에 하나의 생각은 굉장히 깊습니다.
그 사람만이 할 수 있는 것들이 분명히 있어요. 그걸 찾아 나가야 합니다.
-송길영 <폴인> 인터뷰 중에서
스테이블 디퓨전, 일단 배움이 먼저!
생성형 인공지능 기술의 탄생은, 마치 스마트폰의 처음 등장과도 비슷한 혁명과도 같은 사건임이 분명합니다. 그럼에도 전문가들은 생성 AI가 인간을 완벽하게 대체하지 못할 거라고 내다봅니다. 인공지능에게는 인간만이 가진 관점과 취향, 기교나 감정이 없으니까요. 결국 생성 AI를 잘 다뤄서 스스로의 창의성에 날개를 다는 사람들이 레이스에서 승자가 되겠지요. 그런 면에서 <폴인> 인터뷰에서 송길영 부사장 님이 밝히신 내용이 인상적입니다. AI를 다루고 배우는 것은 무척 중요하지만, 가장 중요한 점은 인공지능을 활용하면서도 ‘왜’에 대한 고민을 멈추지 않으며 나만의 장르를 만들어내는 것이 중요하다는 사실. 스테이블 디퓨전을 비롯한 어떠한 생성 AI도, 인간에게 그저 도구일 뿐이죠. 철학 없이 도구만 쥐는 사람들에겐 인공지능과 함께하는 미래가 오히려 위기가 될 겁니다.
그러니 우리, 걱정은 멈추고 먼저 배워 보아요!
앞으로는 AI를 충실히 배우고 치열하게 고민하는 사람들에게 주도권이 넘어갈 테니까요.