2024년 2월 오픈 AI는 새로운 인공지능 모델을 공개했다. ‘소라(Sora)’라는 인공지능 모델은 문자 기반 영상 생성 모델로 등장하는 순간 제2의 Chat GPT와 같이 엄청난 관심을 한데 모으고 있다. 오픈 AI의 CEO 샘 알트만은 소라의 우수성을 입증하려는듯 X(트위터)에 만든 영상을 보여줬는데 그 퀄리티가 무척 뛰어나 업계 사람들을 놀라게 만들었다. 여기에 더해 즉각적으로 사람들이 만들어달라는 요청에 부응하여 바로 영상 9개를 생성해 선보였다. 사람들이 요청한 내용은 비현실적인 내용들이 다수였다. “
“반은 오리, 반은 용, 햄스터를 등에 업고 아름다운 일몰을 향해 날아가는 장면을 만들어주세요.”
“산 위에서 팟캐스트를 하는 두 마리의 골든 리트리버를 만들어주세요.”
샘 알트먼이 제시한 영상들의 퀄리티는 영상 제작자가 수년동안 편집하고 연구해야 나올 수 있을 정도로 훌륭하였다. 이런 결과물을 보고 사람들은 감탄하였고 창작, 광고 및 홍보, 게임 및 가상현실 분야의 업계 관계자들은 흥분하였다. 업계를 깜짝 놀라게 만든 ‘소라(Sora)’ AI 모델은 무엇이고 왜 업계의 주목을 받는 것일까?
소라(Sora)는 무엇인가?
소라는 텍스트로 비디오를 만드는 AI모델이다. chat gpt를 만든 오픈 AI가 개발한 모델이다. SORA 모델은 사용자가 입력하는 텍스트 기반으로 최대 1분 길이의 비디오를 생성한다. 어떤 캐릭터인지, 동작은 어떠한지, 피사체의 배경이나 세부 정보를 입력하면 화려한 영상이 개발되는 형태이다. DALL-E2나 chat gpt와 같이 텍스트를 이해하면서 여러 시각적 스타일을 개발한다.
소라는 확산 변환기 모델이라고 불리는 텍스트 및 이미지 생성 도구 기능을 결합한다. chatgpt에도 역시 확산 모델을 활용한다. 무작위 노이즈로 시작하면서 입력 프롬프트에 맞춰 깨끗한 이미지를 향해 반복적으로 수정하면서 노이즈를 제거하면서 이미지를 다듬어가는 방식으로 작동된다. 이러한 이미지의 연속으로 비디오를 만들어갈 수 있다.
텍스트 데이터를 학습하는 대신 시각적 패치를 활용
소라는 텍스트 기반의 명령어를 분석해서 장소, 시간, 분위기, 앵글 등의 키워드를 추출한다. 소라가 보유하고 있는 데이터셋에서 텍스트 명령어와 일치하는 동영상을 검색해 이를 기반으로 새로운 영상을 제작한다. 사용자의 프롬프트를 통해 비디오의 해상도와 분위기를 재조정할 수 있고 이미지나 사운드를 넣어 생성된 영상을 다시 재편집하여 새로운 영상으로 제작도 가능하다.
영상은 연속된 이미지들이 끊기지 않고 연결되는 것이 필수적이다. 일관성 있게 연결하기 위해 소라는 변환기 아키텍처를 사용해 이미지 간 끊기지 않고 서로 연결되도록 개발이 되었다. chat gpt의 경우 방대한 텍스트 데이터를 학습해 질문에 대한 답변을 얻는 형태로 이루어졌다면 소라는 텍스트 대신 시각적 패치를 활용해 이미지 형식으로 모델을 훈련한다.
시각적 패치는 다양한 비디오나 이미지 형태로 쪼개 훈련을 한다. 시각적 패치는 순차적으로 정돈하여 시퀀스의 시공간 패치로 압축하는 형태로 구성한다. 비디오를 전처리하거나 변환하지 않은 채 시공간 세그먼트로 분할되어 훈련된 시각적 패치를 만들어 간다. 소라는 공간과 시간의 작은 패치를 나타내는 토큰을 활용하여 프레임간 연결을 하는 형태이다. 크기 조정이나 일정하게 시퀀스 길이를 임으로 맞추는 변형 과정이 없이 쪼갠 패치의 배열로 비디오를 만드는 것이라 비디오가 매우 사실적이고 퀄리티가 높은 편이다.
왜 소라를 주목하는 것일까?
독특한 기술 때문일까? 소라의 등장으로 어도비의 주식 급락은 물론이고 미디어 관련 회사들에게 큰 긴장감을 안겨주었다. 메타는 에뮤(Emu), 스태빌리티는 스테이블 디퓨젼(Stable diffusion), 구글은 루미에르 등 여러 유수의 회사들도 ‘텍스트 투 비디오’ 모델을 개발한 이력이 있다. 이들 회사 역시 텍스트나 이미지로 고해상도 비디오를 만들어 주목을 받은 바 있다. 소라는 여기에 한발 더 나아가 이들 회사들이 만든 그 어떤 비디오 샘플보다 높은 품질로 세상에 놀라움을 안겨주고 있다. 구체적으로 어떤 혁신을 이루었길래 업계가 흔들릴 정도의 파급력을 지닌 것일까?
다중모드 기능
가장 대표적인 혁신은 다중모드 융합이다. 텍스트, 이미지, 오디오 사운드, 비디오 등 다양한 형식을 AI가 이해하고 긴밀하게 통합할 수 있는 기능이다. 다중모드 기능을 통해 혼합 미디어 생성이 가능하다. 서로 다른 영상을 자연스럽게 하나의 영상으로 합성하는 기능도 추가되었다.
영상 확장 기능
영상을 생성한 후 생성한 영상의 전후를 추가적으로 확장하는 기능도 제공된다. 영상의 시작점은 다르지만 같은 결말로 끝내거나, 영상의 시작점은 같지만 다른 결말로 끝나게 할 수도 있다. 일부 영상이 누락된 경우 프레임을 자연스럽게 연결시킬 수도 있다. 이전에 출시된 여타 모델과 달리 소라(Sora)는 영상의 색상, 캐릭터의 표정, 배경 등의 요소들이 끊기지 않고 일관적으로 영상을 보여주고 유지하는데 탁월하다. 안정적으로 영상 전환이 가능해 전체적인 퀄리티가 향상되었다.
높은 해상도
이전에도 텍스트 기반으로 비디오를 생성하는 모델은 존재하였다. 하지만 픽셀과 해상도, 다양한 종횡비율 전환을 하는데 한계가 많았다. 가장 최근에 나온 구글의 루미에르조차 512*512 픽셀의 영상이 최대 출력 범위였다. 그래서 영상을 제작한 뒤 해상도를 높이는 후처리 작업을 해야만 했다. 반면 소라는 1920*1080 픽셀, HD품질의 해상도까지 구현 가능하다.
소라가 상용화되면 영화 제작자, 영상 디자이너는 소라를 활용해 더 다양한 표현을 탐구할 수 있다. 짧은 시간에 풍성한 아이디어를 만들 수 있고 간단하게 스토리보드 영상이나 영화 시퀀스를 생성해 사전 제작 단계를 줄이고 커뮤니케이션을 효율적으로 해나갈 수 있다. 게임, 가상환경 구축 산업분야도 ‘소라’에 대한 관심이 크다. 소라를 통해 가상 환경 세계에서 캐릭터의 움직임, 화려한 배경, 자연스러운 움직임 등을 무궁무진하게 개발할 수 있기 때문이다. 소라로 게임, 가상환경 세계를 풍부하게 개발할 수 있게 된 것이다. 이 외에도 교육, 광고, 비즈니스 등 영상이 활용되는 분야라면 어디든 소라를 활용할 수 있어 업계의 관심이 높다.
업계를 뒤흔들 정도의 게임체인저 파급력을 지닌 ‘소라’이기에 어도비의 주가는 떨어지고 업계는 흥분하고 있다. 하지만 모든 화려한 기술은 그만큼 양면성이 존재한다. 소라로 인해 말도 안 되는 가짜 영상들을 제작하기가 더 쉬워진 것이다. 유명인의 가짜 영상을 만들어 배포했을 때 너무도 진짜 같은 가짜 영상이기에 보는 사람들은 혼란에 빠질 위험이 크다. 즉 인공지능 할루시네이션 현상이 더욱 두드러질 가능성이 높아졌다. 할루시네이션은 AI가 정확하지 않은 정보들을 뒤섞어 오류가 있거나 문제 되는 콘텐츠를 생산하는 현상을 의미한다. ‘소라’로 인해 검증되지 않은 잘못된 정보, 성/인종 등의 차별적인 콘텐츠, 혐오스러운 콘텐츠들이 제작된다면 사회적 혼돈이 커질 것은 너무나 당연한 이야기다. 오픈 AI 역시 할루시네이션 영향을 누구보다 고민하고 있어 전담 팀을 꾸려 계속해서 테스트를 하고 있다고 한다. 편견, 잘못된 정보에 대해 사전 필터링을 할 수 있도록 각 분야 전문가 팀을 꾸려 안전성 테스트를 지속적으로 할 계획이라고 밝히고 있다. 아직 출시되지 않아 일부 업계 관계자들에게만 공개된 ‘소라’이지만 추후 출시가 되었을 땐 할루시네이션 문제를 어떻게 해결하여 출시될지도 주목하여 살펴볼 필요가 있다.