"4조(1조)"의 두 판 사이의 차이

2019년 12월 26일 (목) 05:49 판

프로젝트 개요

기술개발 과제

궁중st 운명교향곡 뮤직비디오

(영문 Beethoven Symphony No.5 Korean Court Music Style Video)

과제 팀명

4조(1조)

지도교수

김민호 교수님

개발기간

2019년 9월 ~ 2019년 12월 (총 4개월)

구성원 소개

서울시립대학교 컴퓨터과학부 2015920061 현*연(팀장)

서울시립대학교 컴퓨터과학부 2014920007 김*영

서울시립대학교 컴퓨터과학부 2015920060 현*지

서론

개발 과제의 개요

개발 과제 요약

많은 사람들의 귀에 익숙하고, 찾아 듣기 쉬운 클래식에 비해 국악은 접근성이 상당히 떨어진다. 이 과제는 국악의 접근장벽을 낮추기 위해 베토벤의 운명교향곡과 같은 서양 악기를 이용한 클래식 음악을 한국의 전통악기를 이용한 국악으로 변환하여 국악풍의 클래식 음악을 만들어내는 것을 1차적인 목표로 한다. 여기에 더불어, 클래식 음악의 연주영상을 한국의 전통적인 민화의 style을 가지는 영상으로 변환하고, 생성된 국악풍의 클래식 음악과 합성하여 클래식 음악의 국악 버전 뮤직비디오를 만든다. 이 제작된 뮤직비디오를 유튜브에 업로드하여 한국의 전통 예술을 세계에 널리 알리는 것을 목표로 한다. 이를 구현하기 위해 Video Style Transfer와 Audio Style Transfer의 오픈소스를 사용하여 영상 내 이미지의 스타일을 변환해주는 Real-Time Style Transfer을 활용해, 음악과 영상을 모두 변환할 수 있는 프로그램을 만드는 것이 최종적인 목표이다.

개발 과제의 배경

많은 사람들이 심리적 안정을 취하기 위해 종종 클래식을 듣는다. 또한 클래식은 광고의 배경음악, 유명 가수의 노래 등에 사용되어 대중에게 쉽게 다가간다. 그에 반해, 국악은 여러 가지 생소한 악기들과 어딘지 모르게 난해한 느낌이 드는 멜로디 때문인지 접근성이 상당히 떨어진다. 사극 드라마의 ost나 국악풍 노래 등을 통해 ‘사극풍 음악’, ‘국악풍 음악’은 어느정도 인기를 끌고 있으나, 막상 국악을 찾아서 듣는 사람은 많지 않다. 대부분의 사람들이 익숙하지 않고 어려운 국악 대신 귀에 익은 클래식을 찾아 듣는 것은 당연한 상황이다.

한국 예술공연장의 대표라고 할 수 있는 ‘예술의 전당’ 공연일정을 찾아봐도 ‘첼로 독주회’, ‘바이올린 독주회’ 등의 클래식 악기의 공연은 쉽게 찾아볼 수 있는 반면, 국악 공연 찾기는 모래밭에서 바늘찾기라고 할 수 있다. 더군다나 클래식 음악 전공을 희망하는 사람은 늘어가는 반면 국악 전공자는 상당히 적다. 이로 인해 국악과가 폐지되는 학교도 점점 늘고 있다.

이처럼 국악이 사람들의 관심사에서 점점 멀어지고, 소외되는 까닭은 ‘국악은 지루하고 심심하다’는 편견이 자리잡고 있기 때문이다.이러한 편견의 원인으로는 한국 전통 음악이 느리다는 특징이 가장 큰 이유를 차지한다. 하지만 한국의 전통 악기들로도 충분히 빠르고 신나는 음악을 연주할 수 있으며, 다양한 느낌의 곡을 소화할 수 있다. 이번 과제를 통해 많은 사람들에게 친숙한 베토벤의 운명교향곡을 국악 스타일로 변환하여, 듣는 이들에게 한국의 전통 악기들에 대한 편견을 제거하고 국악에 대한 거부감을 줄일 수 있다. 나아가 외국인들에게도 한국 전통 음악 스타일을 쉽게 알리는 계기가 될 수 있다.

이번 과제의 최종 목표인 베토벤 운명 교향곡의 국악 버전 뮤직비디오를 제작하기 위해 다음의 두 가지 Style Transfer 기법을 사용한다.

첫번째, 클래식을 국악 Style로 변환하기 위해 Audio Style Transfer를 사용한다. Audio Style Transfer에 대한 자세한 설명은 아래의 [Deep Learning For Audio Style Transfer]를 참조한다.

두번째, 클래식 연주 영상 이미지를 수묵화 등의 한국 전통 미술 양식을 띄는 이미지로 변환하기 위해 Video Style Transfer를 활용한다. Video Style Transfer에 대한 자세한 설명은 아래의 [Real-Time Style Transfer]을 참조한다.

개발 과제의 목표 및 내용

유명한 클래식인 베토벤의 운명교향곡의 연주 영상을 민화와 국악의 style로 transfer함으로써 사람들의 국악에 대한 거리감을 좁히고 나아가 세계에 한국의 style을 알리는 것을 최종적인 목표로 한다.

이를 위해 기존의 Real-time video style transfer와 Audio style transfer 오픈소스를 활용하고 발전시켜 voice와 video를 한 번에 변환할 수 있는 프로그램을 만드는 것을 목표로 한다. 베토벤의 운명교향곡 연주 영상을 변환하는 것뿐만 아니라, 사용자가 원하는 연주 영상을 직접 변환할 수 있도록 프로그램을 제작하되 style audio를 국악으로 고정시킴으로써 사용자가 한국의 style을 체험할 수 있도록 한다.

원본 영상에서 소리와 무성영상을 분리하여 각각 국악과 민화의 style로 style transfer를 진행한 후, 생성된 음성과 무성영상을 병합하는 작업을 거친다. 기존의 Real-time video style transfer와 Audio style transfer 오픈소스를 활용하고 발전시켜 voice와 video를 한 번에 변환할 수 있는 프로그램을 만드는 것을 목표로 한다.

관련 기술의 현황

시장상황에 대한 분석

경쟁제품 조사 비교

◇ EbSynth (https://ebsynth.com)

EbSynth는 이미지 합성을 위한 다목적 도구이다. 기존 이미지 합성 도구와의 차이점은 단일 이미지를 입력으로 받는 것이 아니라, 동영상의 각 프레임을 입력값으로 받는다는 것이다. 해당 프로그램의 실행 화면과 자세한 설명은 다음과 같다.

먼저 Project Dir에서 실제 프로젝트를 진행할 폴더를 입력받는다. 그리고 Keyframes는 Real-Time Video Style Transfer의 합성 결과 영상의 프레임과 같다. 즉, Keyframes를 입력받는다는 것은 실제 변환하고자 하는 영상의 일부분을 직접 변환해야 한다는 것이다. 그 예시는 다음과 같다.

Video에 입력할 값은 변환하고자 하는 영상의 각 프레임 이미지다. 그 예시는 다음과 같다.

000.jpg 부터 099.jpg 까지의 이미지를 input으로 넣었으며, Keyframes로 입력했던 000.jpg와 099.jpg에 따른 합성 결과가 생성된다. 해당 프로그램의 가장 큰 한계점은 영상 프레임 이미지를 직접 추출해야한다는 것과, 원하는 결과 영상의 프레임을 입력해야한다는 것이다. 이미지의 크기가 동일해야 하므로 단순히 원하는 style image를 입력할 수는 없다. 따라서 변환하고자 하는 영상의 프레임을 추출하고 추출한 프레임의 Style Transfer를 진행하기 어려운 일반인들이 사용하기에는 어려움이 있다.

◇ TimbreTron

TimbreTron은 한 악기의 소리를 다른 악기의 소리로 변형하려는 연구로, 아직 연구가 진행중이다. 만들어진 프로그램은 아니지만 클래식 음악을 국악기의 소리로 변형하려는 본 조의 과제와 비슷한 부분이 있어 경쟁제품에 포함시켰다.

마케팅 전략 제시

◇ 3C 전략

1) 시장상황

o 사회,문화적 요인

 교양있는 문화생활에 대한 관심 고조

 우리 것을 보존해야 한다는 주장에 대한 공감대

 대중의 대부분이 국악에 대한 관심이 전혀 없음

o 경제적 요인

 여가시간을 위해 지출하는 비용이 증가하는 추세

o 기술적 요인

 Computer Science의 발달

 Style Transfer 기술에 대한 연구 확산

 동영상을 즐길 수 있는 다양한 플랫폼

2) Customer (고객)

o 국내외 유튜브 사용자들 (10 - 50대)

o 자신의 관심사와 일치하는 주제의 동영상, 혹은 수 초 내에 자신의 관심을 끌어들이는 동영상을 주로 시청한다.

o 특별한 관심이 있지 않은 한, 긴 재생시간의 동영상은 부담스러워한다.

3) Company (회사)

o SWOT 분석

 Strengths (강점)

(1) 대중들의 귀에 익은 클래식을 Style Transfer에 이용한다.

(2) Style Transfer의 결과물은 컴퓨터과학에 무지한 사람들의 눈과 귀를 쉽게 매혹할 수 있다.

(3) 오케스트라 연주 장면 등 익숙한 영상을 민화 스타일로 바꾸어 시청자의 흥미를 유발한다.

(4) 창작물의 배포와 홍보에 시간적, 공간적 제약이 매우 적다.

(5) 자신이 원하는 클래식 음악을 국악 버전으로 변환할 수 있다.

 Weakness (약점)

(1) 클래식을 Style Transfer하기 때문에 전통 음악의 스타일은 재현할 수 있지만 전통 음악을 시청자에게 직접 들려주기는 힘들다.

2) 변환 과정에 짧지 않은 시간이 요구된다.

 Opportunities (기회)

(1) 유튜브 등의 동영상 공유 사이트가 국내외에서 많은 인기를 얻고 있다.

(2) 현재까지 국악을 홍보하려는 참신한 시도가 적었다.

(3) 국악기로 클래식을 연주하는 등 현대음악 및 외국음악과 접목한 국악의 형태가 증가하고 있다.

(4) 여러 사극 드라마의 영향으로 인해 ‘국악풍 음악’에 대한 사람들의 관심이 증가하고 있다.

(5) 영상을 즉석으로 변환하는 프로그램이 없다.

 Threats (위협)

(1) 국악에 대한 대중들의 관심이 저조하다.

(2) 현대 음악 및 외국 음악의 다양화로 국악이 설 자리가 부족하다.

(3) 비교적 UI/UX가 단순한 경쟁 제품이 존재한다.

 SO 전략

대중의 관심을 강하게 유발할 수 있는 Style Transfer를 적용한 국악+민화 스타일의 뮤직비디오를 만들어 유튜브에 게시한다면, 국악을 국내외에 효과적으로 알릴 수 있을 것이다.

 ST 전략

Style transfer의 결과물인 클래식의 국악풍 뮤직비디오를 통해 대중들의 국악에 대한 관심을 높일 수 있다.

클래식의 국악화를 통해 국악의 다양성을 보여줄 수 있다.

 WO 전략

변환한 영상을 한번에 여러개가 아닌 한 번에 한 영상씩 유튜브에 주기적으로 업로드하여 사람들의 관심과 기다림을 유도한다.

전통 음악을 계승한 퓨전 음악을 만들고 결과물을 예측하는 데에 활용할 수 있다.

변환 과정에 생기는 delay를 최소화하여 원하는 클래식 영상을 짧은 시간 내에 국악 style로 변환하도록 한다.

 WT 전략

현대 음악과 외국 음악을 국악화하여 전통 음악을 계승한 퓨전 음악으로 전통 음악에 대한 관심을 끌어낸다.

경쟁제품보다 사용하기 간단하도록 프로그램을 제작하여 사용자들의 관심을 유도한다.

4) Competitor (경쟁사)

o Style Transfer 기술을 적용하여 전통 그림과 음악의 홍보에 이용한 사례는 없음

o Video Style Transfer만을, 혹은 Audio Style Transfer만을 이용하여 컨텐츠를 변환한 사례는 있지만 비디오와 오디오를 둘 다 동시에 변환한 사례는 없음

◇ STP 전략

 Segmentation (시장 세분화)

o 국악과 민화에 대한 관심이나 지식이 거의 없는 층

o 국악과 민화에 본격적으로 입문하려는 층

o 국악과 민화를 이미 즐기고 있고 잔뼈가 굵은 층

 Targeting (표적 시장 선정)

o 국악과 민화에 대한 관심이나 지식이 거의 없는 층

 한국인, 외국인의 모든 연령대

 유튜브를 사용하는 사람들의 대부분

 관심을 강하게 끌 수 있는 컨텐츠가 아니면 국악 컨텐츠의 재생을 유도하기 어려움

 Positioning (제품 포지셔닝)

o 국악과 민화에 대한 관심이나 지식이 거의 없는 층을 국악과 민화에 입문할 수 있게 하는 것이 목표

o 가볍게 소비 가능한 컨텐츠

o 시청자의 이목을 끌 수 있는 참신한 컨텐츠

◇ 4P

 Product (제품)

o 누구에게나 익숙한 클래식을 국악 스타일로 변환

o 오케스트라의 연주 영상을 민화 스타일로 변환

o 불특정다수의 시청자들이 호기심을 가질 수 있음

 Price (가격)

o 무료

 Place (유통)

o 유튜브에 동영상을 게시하여 시간과 공간의 제약을 받지 않음

 Promotion (판매촉진)

o 대중들이 좋아하는 여러 클래식을 변환하여 지속적으로 게시

o 이벤트성으로 인기있는 대중음악의 뮤직비디오를 변환하여 게시할 수 있음

개발과제의 기대효과

기술적 기대효과

◇ 영상 혹은 음성 한 가지만을 style transfer한 시도는 많지만 영상과 음성을 동시에 transfer한 시도는 찾기 힘들다. 개발 과제를 성공적으로 완료할 경우, 비디오를 소리의 손실 없이 (또는 소리와 함께) 변환하려는 요구를 정확히 충족시키는 기술이 될 수 있다.

◇ Audio Style Transfer에 관련된 많은 연구에는 source audio의 길이에 대한 제약이 있지만 개발 과제를 성공적으로 완료할 경우, 이러한 제약을 완화시킬 수 있다.

경제적, 사회적 기대 및 파급효과

◇ Style Transfer라는 IT 기술을 클래식에 접목하는 참신한 시도를 통해 우리의 소리를 재조명하고, 전통 음악에 대한 대중의 관심을 유도할 수 있다.

◇ 제작된 뮤직비디오를 유튜브에 게시함으로써 세계 각국의 많은 사람들에게 한국의 전통 음악 스타일을 알리는 계기가 될 수 있다.

◇ 국악을 국내외에 널리 홍보하는 데에 성공할 경우, 국악 컨텐츠 소비 증가와 이에 따른 경제적 효과를 기대할 수 있다.

기술개발 일정 및 추진체계

개발 일정

구성원 및 추진체계

◇ 주 1회 팀원들이 모두 모여 진척도와 주단위 목표를 공유한다.

◇ 현*연 : 설계, 구현, 테스트

◇ 김*영 : 설계, 구현, 테스트

◇ 현*지 : 설계, 구현, 테스트

설계

설계사양

제품의 요구사항

Vuforia나 Unity 등 대중성 있는 도구를 활용함으로서 VR, AR 관련 시스템을 개발

설계 사양

프로세서 : Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz 1.80GHz 설치된 메모리(RAM) : 8.00GB 시스템 종류 : 64비트 운영 체제, x64 기반 프로세서

개념설계안

이론적 계산 및 시뮬레이션

VR : 총을 이용한 가상 게임 구현 AR : 만원 짜리 지폐를 인식해 주변에 행성 모양을 띄워주는 시스템 구현

상세설계 내용

동영상의 영상과 소리를 분리한 후, 비디오 스타일 트랜스퍼 오픈소스, 오디오 스타일 트랜스퍼 오픈소스를 각각 사용하여 변환을 적용한다. 비디오 스타일 트랜스퍼의 결과가 좋은 모델을 기본 제공하여 사용자로 하여금 별도의 training 없이 변환을 수행할 수 있게 한다. 변환된 영상과 음성을 병합하여 최종 결과물을 출력한다.

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

완료작품의 평가

목표했던 바와 같이 하나의 동영상을 입력하여 비디오와 오디오를 한 번에 변환한 후 출력하는 데에 성공하였다. 이에 한 발 더 나아가 데스크탑에서 작동하는 애플리케이션을 제작하였다. 일정 수준 이상의 장비가 갖춰진 데스크탑 환경에서는 우리가 제공하는 미리 훈련된 모델을 사용하여 빠르게 video style transfer를 완료할 수 있으며, audio style transfer 또한 가능하다. 그러나, 미리 훈련된 모델을 사용하지 않고 사용자가 원하는 이미지를 직접 입력 받는 경우에는 상당히 높은 수준의 GPU를 갖춘 데스크탑이 필요하며, 변환 시간 또한 오래 걸린다.

향후계획

클라우드 서비스를 이용하여 애플리케이션의 권장 사양을 낮춤으로써 사용자 접근성과 실용성을 보완한다.

특허 출원 내용

없음

@@ 413번째 줄: / 413번째 줄: @@
 ===개념설계안===
-참조된 논문들의 내용 즉, VR, AR에 대해 인간이 받아들이는 정도, 기술 전문성, 부작용 등에 대한 이해도와 전문성을 바탕으로 관련된 시스템을 개발
+[[파일:Example.jpg]]
 ===이론적 계산 및 시뮬레이션===