동영상 AI ‘소라(SORA)’가 영상을 제작하는 방법

동영상 AI ‘소라(SORA)’의 등장!

[그림 1] 오픈AI ‘소라’에 프롬프트를 입력해 생성한 영상 모습 (출처: 오픈AI)

[그림 1]은 동영상 AI ‘소라(Sora, 이하 소라)’로 만든 영상의 일부입니다. 소라는 오픈AI가 2024년 2월 공개한 동영상 제작 AI로, 공개와 동시에 주변을 놀라게 했습니다. 그동안 런웨이, 피카랩과 같은 동영상 AI 스타트업의 제품이 있었지만 소라는 달랐습니다. 소라가 만들어 내는 동영상이 너무 현실적이었기 때문인데요.

기존 동영상 AI는 처음 3초 분량의 영상을 만든 뒤, 이어 4초씩 추가 생성하는 방식으로 영상을제작했으며, 최장 길이는 대략 15초였습니다. 이에 반해 오픈AI의 소라는 최장 1분 이상 고해상도 영상을 생성할 수 있습니다. 또한 기존 동영상 AI는 움직일 때 피사체 주변 글자가 깨지거나 일그러지는 반면, 소라는 깨짐 현상이 거의 없었습니다.

소라의 출현으로 영화나 드라마, 광고 등 콘텐츠 제작 시장의 판도가 달라지는 것 아니냐는 전망도 나오고 있는데요. 중국 보안 기업 치후360의 창업자인 저우훙이 역시 “소라가 광고와 영화 예고편 업계를 완전히 흔들 것”이라고 언급했는데요. 할리우드에서는 스튜디오 투자를 중단한 곳이 늘어나기도 했습니다. 영화 제작자 타일러 페리는 “영화 스튜디오 확장에 수백억 원을 투자했지만, 소라가 제작한 영상을 보고 투자를 전면 보류했다”고 말했습니다.

물리적 원리를 이해하는 일반세계모델(GWM)

소라가 이와 같은 영상을 만들 수 있는 이유는 ‘트랜스포머모델(Transformer Model, 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 모델)’과 ‘일반세계모델(General World Model, GWM, AI에게 물리적 세계의 법칙을 이해하도록 학습시키는 모델)’에 있습니다. 일반세계모델은 2018년 구글브레인 소속이었던 데이비드 하가 논문을 통해 소개한 개념으로 알려져 있습니다. AI 모델 초기 제작 시, 컵이 떨어지면 깨지는 것, 바람이 불면 머리가 흩날리는 것 등 물리 법칙을 자연스럽게 이해할 수 있도록 구축하는 방식인데요. 기존 동영상 AI는 물리적 원리를 전혀 알지 못했기에 바람이 불어도 머리카락이 날리지 않거나 컵이 떨어져도 깨지지 않아 자연스러운 영상 생성이 어려웠습니다.

미래 AI의 핵심 ‘예측성(Prediction)’

미래 AI의 핵심은 예측성에 있다는 전망은 몇 해 전부터 있었습니다. 산자 피들러 엔비디아 부사장은 향후 미래 AI는 ‘예측성(Prediction)‘을 갖출 것으로 예상했는데요. 그는 “AI 발전은 데이터를 늘리는 것만으로 충분하지 않다”면서 “모델에 들어있는 기존 데이터 바탕의 예측ᆞ추론 능력을 높이는 것이 중요하다”고 강조했습니다.

메타의 최고수석과학자 얀 르쿤은 AI 예측ᆞ추론 능력 향상을 위해 일반세계모델을 대안으로 꼽았습니다. 그는 “예측성을 높이려면 데이터 규모 그 이상이 필요하다”며, “한 상황에 대한 예측성이 높아지면 다양한 환경에 적용할 수 있고, 모델의 불확실성 대처 능력을 높일 수 있다”고 말했습니다. 구체적인 방법으로 조각 모음이 있는데요. 예를 들어, 매우 큰 벽화를 그리라고 했을 때, 과거에 학습한 다양한 세부 그림 기법을 활용해 벽화 전체를 예측하는 방식입니다.

세계 최고 AI 석학으로 꼽히는 요슈아 벤지오 캐나다 몬트리올대 교수는 “AI 모델이 일반적인 사람 수준이 되려면 현재의 딥러닝 수준으로는 역부족”이라며 “AI와 신경과학(Neuroscience)을 결합한 딥러닝 연구가 중요하다”고 말했습니다. 딥러닝의 아버지로 불리는 제프리 힌턴 토론토대 교수 역시 “예측성을 높이기 위해 인공신경망 연구를 지속하고 ‘역전파(Back Propagation, 딥러닝에 사용되는 학습 알고리즘으로, 신경망의 가중치를 업데이트해 출력값과 실제값의 오차를 최소화하는 학습방법)’ 알고리즘 대안을 찾는 등 꾸준한 노력이 필요하다”고 말했습니다. 여러 석학들은 AI 모델을 발전시키려면 방대한 분량의 빅데이터, 막대한 용량의 컴퓨팅 파워만으로는 승부를 볼 수 없다고 강조했습니다.

동영상 생성 AI 소라, 어떻게 등장했을까?

오픈AI가 공개한 소라 기술 보고서에 따르면, 오픈AI는 전통적인 확산 모델(Diffusion Model, 원본 이미지를 만드는 과정을 기계학습해 새로운 이미지를 만드는 생성 모델)과 다단계 프로세스를 활용해 매끄러운 영상을 만들어 냅니다. 소라는 텍스트 토큰 대신 ‘시각적 패치’를 사용하는 것이 특징인데요. 데이터를 학습할 때 동영상을 압축한 뒤, 시간 공간 세그먼트로 세분화해 패치를 만들어 냅니다. 즉, 텍스트에 토큰이 있다면, 영상에 패치가 있으며, 시공간 정보를 토큰처럼 잘라 활용한다는 점입니다.

비디오 데이터 압축은 특수 네트워크가 담당합니다. 특수 네트워크에는 생성된 압축 버전을 다시 전체 비디오로 변환해 주는 특수 디코더가 포함돼 있는데요. 소라엔 무작위로 생성된 패치를 특정 그리드에 배열해 크기를 제어하는 기능이 있기 때문에 해상도, 길이, 화면 비율 등을 통제하고 생성할 수 있습니다. 또한, 확산 모델을 활용해 추가 문장 지침을 줄 경우, 보다 선명한 이미지 생성이 가능합니다.

사람이 입력한 문장을 AI가 이해하는 것이 가장 중요한데요. 이를 위해 달리(DALL-E)3에 탑재된 리캡션 기법을 응용했습니다. 설명이 긴 동영상 캡션을 학습해 영상 생성 능력을 향상한 것입니다.

동영상 생성 AI 소라가 동영상을 생성하는 방법

소라가 문장을 동영상으로 생성하는 과정은 대략 이렇습니다. 먼저, 소라가 입력된 글을 꼼꼼히 분석해 주제, 등장인물, 장소, 시간, 분위기와 같은 중요한 키워드를 찾아냅니다. 이후 방대한 동영상 모음집에서 해당 키워드와 잘 어울리는 동영상 조각(패치)들을 찾아냅니다. 퍼즐 조각을 맞추는 작업과 유사한데, 미세한 동영상 조각들을 모아 큰 동영상을 그리는 작업입니다. 다만 처음엔 동영상이 좀 흐릿하고 노이즈 같아 보일 수 있지만, 소라는 여러 단계를 거치며 노이즈를 제거하고 또렷한 영상을 만듭니다. 또 다른 소라의 비결은 ‘트랜스포머’입니다. 트랜스포머는 글 속의 단어들이 서로 어떤 관련이 있는지 이해할 수 있게 해주는 기술인데요. 동영상을 잘게 나눠 분석하고, 그 조각들 사이의 관계를 파악해 전체적인 내용을 이해하는 구조입니다. 우리가 그림을 그릴 때 큰 종이를 작은 조각으로 나눠 그리는 것과 유사합니다.

소라는 와이드스크린 1920X1080p 동영상부터 세로 1080x1920p 휴대폰 포맷까지 다양한 화면 비율의 콘텐츠를 생성할 수 있습니다. 또한 프롬프트만으로 비디오 게임 동영상을 생성할 수 있는데요. 오픈AI는 “게임 세계를 매우 세밀하게 렌더링할 수 있다”며 “별도 지침 없이 ‘마인크래프트(Minecraft)’라는 프롬프트만 입력하고 원하는 문장을 쓰면 게임 동영상 생성이 가능하다”고 말했습니다.

물론 소라가 100% 완벽한 것은 아니며 단점도 존재합니다. 소라가 일반세계모델을 차용했지만 100% 완벽하지는 않기 때문입니다. 예를 들어 카메라가 갑작스레 움직이면 AI 모델의 기억이 지워질 수 있습니다. AI 업계 관계자는 “유리가 깨지는 것과 같은 물리적 현상을 정확하게 묘사하지 못할 수 있다”면서 “긴 시간 동안 생성된 동영상은 비논리적이거나 갑자기 나타나는 물체가 포함될 수 있다”고 덧붙였습니다.

게다가 막대한 컴퓨팅 파워가 필요할 것이라는 분석도 있습니다. 벤처캐피털 팩토리얼펀드는 일반 크리에이터가 오픈AI의 소라를 사용하려면 엔디비아 GPU H100이 약 72만 개가 필요할 것으로 예상했습니다. 소라와 같이 제대로 된 AI 동영상 서비스를 구현하려면 GPU 구매에만 약 216억 달러(약 29조 8000억 원)을 투입해야 합니다. 또 일부 테스터들은 1분짜리 동영상을 만드는데 1시간 이상의 추론 시간이 필요할 것으로 추정하기도 했습니다.

뜨거워진 동영상 AI 전쟁

AI 스타트업 런웨이 역시 일반세계모델을 만들고 있다고 밝혔습니다. 피카렙은 동영상 생성 시 음성이 함께 생성되는 모델을 내놓기도 했는데요. 이와 같은 추세에 가장 큰 위협을 받은 곳은 포토샵 프리미어와 같이 이미지, 비디오, 3D 애셋 도구를 판매하는 기업 Adobe(이하 어도비)였습니다. 이에 어도비는 ‘파이어플라이(반딧불이)’라는 서비스를 내놓았는데요. 파이어플라이는 텍스트를 이미지로 만들고, 텍스트를 입력하면 템플릿을 생성하는 모델입니다. 어도비는 “생성형AI로 오디오와 비디오를 만들고 편집하는 기능까지 추가할 예정”이라고 밝혔습니다.

오픈AI는 소라를 공개한 뒤, 틱톡에 무수히 많은 영상을 업로드했습니다. 동영상이 숏폼에서 활용도가 높은 만큼, SNS를 통해 그 힘을 과시하고 있는 것입니다. 또한 오픈AI는 할리우드 스튜디오와 파트너십 추진에 나섰습니다. 블룸버그는 앞서 익명의 소식통을 인용, 오픈AI가 미국 로스앤젤레스(LA)에서 할리우드 스튜디오와 미디어사, 연예기획사 등과 면담을 가졌다고 보도했는데요. 이처럼 동영상 AI 소라의 등장으로, 영화 한 편에 수조 원을 투자하는 영화 제작 업계에 혁신의 바람이 불고 있습니다.

소라의 등장은 생성형 AI 영역의 확산을 의미합니다. 생성형 AI는 이제 음성, 문장, 이미지를 넘어 동영상으로 크게 보폭을 넓히고 있습니다.

글 ㅣ 이상덕 ㅣ 매일경제 기자·미라클AI 에디터·<챗GPT 전쟁: 실리콘밸리는 지금 무엇을 준비하고 있는가> 저자

블로그

동영상 AI ‘소라(SORA)’가 영상을 제작하는 방법

관련 아티클