Extension

기술 뒤 사람의 이야기
<얼라이브> 제작기

글. 이선우(JTBC 교양팩추얼본부 PD)

2022 뉴미디어 콘텐츠상 대상을 수상한 <얼라이브>는 고인이 된 뮤지션을 인공지능으로 복원해 무대에 재현함으로써 많은 시청자에게 감동을 선사했다. 수십 년 전의 데이터를 모아 수작업으로 목소리와 외형을 복원하고, 고인 특유의 제스처를 재현해내는 등 세심한 부분까지 신경썼다는 평가를 받았다. 제작 과정에서의 어려움을 이겨낼 수 있었던 원동력은 무엇이었는지 <얼라이브>의 제작기를 들어본다.

인공지능 기술, 고인이 된 뮤지션과 시청자를 잇다

기술은 하나의 방법일 뿐이라 여겼다. <얼라이브>(JTBC)가 기술적 성취를 자랑하기 위한 ‘쇼케이스’가 된다면 결국 <얼라이브>가 전하고 싶었던 두 뮤지션, 故유재하와 故임윤택(울랄라 세션)의 삶과 음악 이야기를 제대로 보여 줄 수 없다고 생각했기 때문이다. 하지만 결국 우리와 그 두 뮤지션을 만나게 해준 것도 기술이었다. 이 글에서는 <얼라이브> 속 기술에 대해 이야기 해보려고 한다.

2021년 1월 즈음 새로운 기획안에 대한 논의가 한창이었다. 그때 <얼라이브>에 대한 제작 제의가 들어왔다. ‘고인이 된 뮤지션을 복원한다’는 거였다. 하지만 이미 여러 방송사에 홀로그램 방식을 이용한 복원 프로그램은 있었고, 그 이상의 무언가를 할 수 없다면 그저 비슷한 프로그램밖에는 만들 수 없다는 생각이 강했다. 그 ‘무언가’가 필요했다.

그즈음 버추얼 휴먼에 대한 이슈들이 한창이었고 우리는 유튜브에서 화제가 되었던 ‘루이’를 만날 수 있었다. 버추얼 휴먼 루이는 하이퍼리얼리즘 가상 얼굴의 대표적인 성공 사례로, 수많은 사람들의 얼굴 데이터를 인공지능 기술로 조합해서 새롭게 구현해낸 가상 얼굴을 쉐도우 액터(딥페이크의 본체가 되는 실존하는 사람)에 딥페이크로 덮어씌우는 방식이다. 실제 사람의 얼굴 질감을 99%까지 구현하고 쉐도우 액터의 미묘한 표정과 근육의 움직임까지 그대로 재연하는 ‘루이’의 제작 방식은 앞서 이야기한 그 무언가를 채워 줄 수 있을 것 같았다. 가족, 동료, 팬들이 기억하고 있는 두 뮤지션의 실제 모습과 같은 질감 그리고 목소리의 표현과 입 모양 싱크 등의 효과를 최대로 반영하기에 적합하다는 생각이 들었다.

우선 루이처럼 실제 사람의 질감으로 고인의 얼굴을 복원하기 위해서는 Full HD 규격의 영상들과 사진 데이터들이 필요했다. 故임윤택 씨의 경우 2011년 <슈퍼스타K 3>(Mnet) 출연 이후 약 2년간 활동하면서 남긴 방송영상 자료 및 프로필 사진, 보도사진까지 다양한 자료들이 남아 있었지만 故유재하 씨의 경우는 찾을 수 있는 자료가 1987년 <젊음의 행진>(KBS) 단 한 번의 방송 출연 영상과 20장 남짓한 사진 자료밖에는 없었다. 도저히 AI를 학습시킬 수 있는 만큼의 데이터가 아니었다. 외형 복원을 담당한 디오비스튜디오의 복원 스태프들과 기나긴 논의 끝에 故유재하 씨와 故임윤택 씨의 복원 방식을 다르게 적용하기로 했다. 이때까지만 해도 우리는 험난한(?) 복원의 시간이 시작될 것이라고 아무도 예상하지 못했다.

얼굴 합성(Face Swap)기술과 커스터마이징(customizing) 기술

故임윤택 씨의 경우 해당 인물의 살아생전 FHD 규격의 영상들과 이미지을 취합하여 이미지 생성 AI인 GAN(Generative Adversarial Network, 생성적 대립 신경망)기술을 적용하여 모델링을 구축했다. 쉽게 말해 두개의 AI, 판별자와 생성자가 존재한다. 판별자에게 고인의 다양한 데이터를 기반으로 생성자가 만든 이미지가 실제 고인의 이미지와 부합하는지 판별하도록 학습시키고, 생성자는 쉐도우 액터에게 덮어씌울 이미지를 만들어 판별자에게 검사를 받는다. 판별자는 생성자가 만든 이미지가 가짜인지 진짜인지를 구별해 내고, 생성자는 판별자가 진 짜라고 믿게끔 서로 엎치락뒤치락 경쟁하며 알고리즘을 발전시켜 故임윤택 씨의 이미지를 생성하게 된다. 이렇게 완성된 이미지를 쉐도우 액터에 최종적으로 딥페이크로 합성하는 방식이다.

하지만 당시 우리는 여기서 가장 중요한 요소를 놓쳤다는 것을 알게 된다. 바로 쉐도우 액터의 스타일이다. 체형, 머리 모양, 의상, 몸동작, 습관 등 대중들이 기억하고 있는 고인의 모습과 100%에 가깝게 일치해야 한다는 것이다. 하지만 우리는 故임윤택 씨의 외형적 모습 중 키와 춤추는 모습만 일치하는 쉐도우 액터를 섭외했던 것이다. 고인의 트레이드 마크인 짧은 헤어스타일, 얼굴형, 노래를 부를 때 표현되는 감정 등 키와 춤 이외의 일치하지 않는 모습이 드러나면서 故임윤택 씨와 비슷하지만 어딘가 어색해지기 시작했다. 거기에 쉐도우 액터의 이미지가 덧씌워지면서 딥페이크 된 이미지에서 전혀 다른 사람의 모습이 보이기 시작했다. 제작진 모두가 패닉에 빠졌다.

우선 가장 큰 문제점인 쉐도우 액터의 수정 보완이 필요했다. 여기저기 수소문 끝에 故임윤택 씨와 체형, 얼굴형, 춤추는 모습과 노래하는 모습이 비슷한 아이돌 출신 쉐도우 액터를 섭외할 수 있었다. 그리고 약 3개월 동안 고인의 사소한 버릇부터 특유의 입술 깨무는 동작까지 일치하도록 학습을 시켰다. 이후 재촬영과 합성 작업을 통해 故임윤택 씨의 모습을 비슷하게 만들 수 있었다. AI 학습과 인간의 학습이 만들어 낸 결과물이었다.

故임윤택의 모습을 재현해낸 <얼라이브>

자료제공: 티빙

하지만 故임윤택 씨의 복원 과정은 故유재하 씨의 복원 과정에 비하면 쉽게 진행된 편이었다. 앞서 이야기했듯 故유재하 씨의 경우 AI 학습을 시킬 수 있는 데이터의 양이 현저히 부족했다. 그래서 고인과 얼굴 이목구비가 최대한 닮은 쉐도우 액터를 섭외했다. 기본적인 모델링을 한 후, 추가적인 유사성 확보를 위해 (광대 모양, 코 생김새, 턱선 등) 특수 분장을 통해 구축한 모델링 데이터를 융합했다. 하지만 故유재하 씨의 경우 사망 이후 오랜 시간이 흘렀기에 고인의 얼굴을 기억하는 분들마다 다른 이미지로 기억하고 있었다. 거기다 남아 있는 사진마다 얼굴의 모습이 조금씩 차이가 있어서 비교할 수 있는 기준값을 찾기가 힘들었다. 그래서 최대한 유가족분들의 의견을 반영하여 기준값을 설정하고 특수 분장 등을 통해 구축한 모델링 데이터의 공간좌표적 속성값 변형으로 이목구비의 위치와 모양을 수정하는 커스터마이징 기술을 적용했다. 조금 어렵게 느껴질 수도 있는데, 애니메이터나 합성팀이 기준값을 참고로 약 6개월 동안 수많은 수정작업을 통해 한 땀 한 땀(?) 수작업으로 故유재하 씨의 이미지를 만들어냈다고 생각하면 된다.

약 6개월에 걸쳐 복원한 故유재하의 외형
자료제공: 티빙

국내 최초 고인의 신곡 발표

두 뮤지션의 외형 복원과 함께 목소리 복원이 같이 진행되었다. 故임윤택 씨의 경우 생전에 녹음 과정에서 저장되어 있던 보이스 트랙(음성만 존재하는 데이터)을 활용하여 보이스 모델링을 구축했다. 이후 고인의 발음 특성, 습관, 목소리 특징 등을 분석하여 8개 정도의 창법을 찾아냈다. 故임윤택 씨의 경우 허스키한 목소리와 다양한 보컬의 특징을 적절하게 섞어서 고인의 목소리를 기억하는 가족, 팬, 시청자들에게 이질감 없이 전달하도록 했다. 이렇게 구축된 데이터는 TTS(Text to speech)기반으로 AI 보컬 트레이닝에 들어간다. AI 보컬 트레이닝은 특정인의 가창 데이터를 이용한 훈련으로 음색, 창법을 그대로 모델링한 가창 합성 AI에 미발표 신곡의 악보를 학습시킴으로써 새로운 음원을 만드는 것이다. 신곡 발표는 ‘고인이 된 가수가 이런 노래를 불렀다면 어땠을까?’, ‘지금도 살아 있다면 이런 노래가 나오지 않았을까?’하는 상상에서 시작했다.

이러한 프로젝트가 가능했던 것은 우리나라에서 독보적으로 AI 가창 복제, 합성 기술을 보유하고 있는 기업 수퍼톤을 만났기에 가능했다. 기존에 다양한 방송 프로그램을 통해 음성 합성 기술을 선보였지만 신곡을 발표하는 프로젝트에 대해서는 조심스러운 입장이었다. 하지만 두 뮤지션 유가족의 허락을 바탕으로 수퍼톤도 프로그램 취지에 공감하면서 새로운 시도를 할 수 있었다.

다시 본론으로 돌아가면, 이렇게 구축된 모델링을 이용하여 故임윤택 씨가 생전에 딸 리단이에게 들려주고 싶었지만 완성하지 못했던 곡 ‘낡은 테잎’을 가수 휘인과 듀엣으로 제작했고, 10년 만에 울랄라 세션 완전체가 모여 들려주는 신곡 ‘얼라이브’를 발표했다.

AI 기술로 재현된 故임윤택 씨와 휘인, 울랄라 세션의 무대

자료제공: 티빙

故유재하 씨의 경우는 외형 복원과 마찬가지로 음성에 대한 데이터 또한 현저히 부족했다. 그리고 깨끗한 보이스 트랙이 필요했다. 이미 수퍼톤에서 보유하고 있던 음원 분리 기술을 이용해 故유재하 씨의 보이스 트랙을 확보했다. 하지만 해당 보이스 트랙은 리버브(Reverb) 현상이 있었다. 우리가 노래방에서 노래를 부르면 울려서 들리는 것과 같은 현상이다. 100% 완벽한 음성 데이터 확보가 어려웠다. 현저히 부족한 데이터 양과 잡음이 섞이지 않은 온전한 음성 데이터가 복원의 핵심이었다.

이에 수퍼톤은 약 6개월의 연구개발 끝에 리버브 현상을 제거하는 기술을 찾아냈고 잡음이 섞이지 않은 고인의 음성을 확보할 수 있었다. 이렇게 확보된 음성에 작곡가 김형석, 김현철 씨와 가수 심현보 씨가 참여하여 35년 만에 신곡을 발표할 수 있었다.

유재하의 목소리를 기반으로 신곡을 만든 <얼라이브>
자료제공: 티빙

비록 일시적인 만남이었지만 외형과 목소리를 실제와 가깝게 구현한 두 뮤지션의 모습과 목소리가 가족, 팬, 시청자들에게 좋은 추억과 감동으로 전달되길 바랐다. 이런 프로그램 취지에 공감하여 참여해준 기술 스태프들의 노력이 있었기에 가능했다고 생각한다. 그리고 두 뮤지션에 대해 이야기하는 데 기술이 매개가 되어 우리가 알지 못했던 고인들의 이야기를 완성할 수 있었다.

프로그램 말미에 나왔던, 태어나서 처음으로 AI를 이용해 복원된 아빠를 만난 리단이의 모습이 아직도 생생하다. 리단이는 ‘기분이 묘하고 좋았다. 말로 표현할 수 없을 정도로 좋았다’, 그리고 ‘아빠의 모습을 처음 봤을 때 너무나 떨리고 설렜다’고 이야기했다. <얼라이브>를 통해 죽음이라는 것이 마냥 슬픈 것이 아니라 그 속에 즐거움, 기쁨 등 다양한 감정들이 존재한다는 것을 시청자들이 함께 느꼈으면 좋겠다. <얼라이브>는 앞으로도 계속될 것이다.

필자 소개_ 이선우

JTBC 입사 후 약 6년간 탐사보도 프로그램 <이규연의 스포트라이트>를 제작했고 2020년부터 팩추얼 장르를 제작하기 시작했다. 2021년 국내 다큐멘터리 최초 XR스튜디오를 제작한 <A.C.10> 3부작, 고인 복원 프로젝트 <얼라이브>를 연출했다.

Extension

기술 뒤 사람의 이야기 <얼라이브> 제작기

인공지능 기술, 고인이 된 뮤지션과 시청자를 잇다

얼굴 합성(Face Swap)기술과 커스터마이징(customizing) 기술

국내 최초 고인의 신곡 발표

필자 소개_ 이선우

기술 뒤 사람의 이야기
<얼라이브> 제작기