"Pure Sound"의 두 판 사이의 차이

cdc wiki
이동: 둘러보기, 검색
(서론)
25번째 줄: 25번째 줄:
 
===개발 과제의 개요===
 
===개발 과제의 개요===
 
====개발 과제 요약====
 
====개발 과제 요약====
- 통화 서비스에서 소음을 줄이고 사용자의 목소리를 명확하게 전달하는 것은 중요하다. 그러나 소음 제거 기술을 발전시키는 데에는 상당한 시간이 소요된다. 이에 따라 본 연구에서는 STT(Speech-to-Text)와 TTS(Text-to-Speech)를 결합하여 근본적인 소음 제거 방법을 제안한다.
+
* 통화 서비스에서 소음을 줄이고 사용자의 목소리를 명확하게 전달하는 것은 중요하다. 그러나 소음 제거 기술을 발전시키는 데에는 상당한 시간이 소요된다. 이에 따라 본 연구에서는 STT(Speech-to-Text)와 TTS(Text-to-Speech)를 결합하여 근본적인 소음 제거 방법을 제안한다.
 
====개발 과제의 배경====
 
====개발 과제의 배경====
내용
+
* 최근 블루투스 이어폰을 사용이 증가함에 따라 이어폰을 착용하여 통화하는 사람들이 늘어났다. 블루투스 이어폰을 사용하면 주변 통화 소음이 크게 포함되기에 사람들간의 의사소통에 방해 요소가 될 수 있다. 블루투스 이어폰뿐만 아니라 노인과 어린아이와의 통화 시에도 목소리가 명확하게 전달되지 않는 경우가 종종 발생하는 어려움도 있다.
 
====개발 과제의 목표 및 내용====
 
====개발 과제의 목표 및 내용====
내용
+
* 최종 개발 목표는 소음을 제거하여 명료한 목소리를 전달하는 모델을 만드는 것이다. STT와 TTS의 결합뿐만 아니라 여러 다른 모델(DNS, GPT)을 추가로 결합하여 성능을 높이는 방향으로 연구하였다.
  
 
===관련 기술의 현황===
 
===관련 기술의 현황===
 
====관련 기술의 현황 및 분석(State of art)====
 
====관련 기술의 현황 및 분석(State of art)====
 
*전 세계적인 기술현황
 
*전 세계적인 기술현황
내용
+
** STT 모델에는 Wav2Vec2.0, Whisper 모델 등이 있는데, 그 중 Whisper 모델은 한국어에서 가장 좋은 성능을 보여주는 모델이다. Whisper 모델은 대량의 한국어 데이터가 포함된 데이터셋으로 학습하여 높은 성능을 보여주고 있다.
 
*특허조사 및 특허 전략 분석
 
*특허조사 및 특허 전략 분석
내용
+
** 본 기술에 대한 특허가 별도로 존재하지 않는 것으로 확인된다.
 
*기술 로드맵
 
*기술 로드맵
내용
+
** DNS(Deep Noise Suppression): DNS(Deep Noise Suppression)는 딥러닝 또는 심층 신경망을 활용하여 주변 소음을 탐지하고 제거하거나 억제하는 소음 제거 방식이다. 대표적으로 ICASSP 2021 DNS Challenge에서 최상위 순위를 차지한 TSCN(Two-Stage Convolutional Network)[1] 모델이 있다.
 +
** STT(Speech To Text): STT(Speech To Text)는 음성을 텍스트로 변환하는 기술이다. 딥러닝을 이용한 대표적인 STT 모델에는 Facebook AI에서 개발한 wav2vec 2.0과 Open AI에서 개발한 Whisper 모델이 있다. Whisper 모델은 간단한 Transformer 구조를 가지면서도 대량의 데이터로 학습하여 높은 성능을 보여주고 있다.
 +
** TTS(Text To Speech): TTS는 STT와 반대로 텍스트로부터 음성을 합성하는 기술이다. 딥러닝을 이용하여 구현한 TTS 모델에는 WaveNet, Tacotron, Glow-TTS 등이 있다. 최근에는 Google의 Cloud Text-to-Speech API 또는 Naver의 CLOVA Voice API 등과 같이 여러 기업에서 TTS API를 제공하고 있으며, 이러한 TTS는 사람처럼 다양하고 자연스러운 음성을 생성한다.
  
 
====시장상황에 대한 분석====
 
====시장상황에 대한 분석====
 
*경쟁제품 조사 비교
 
*경쟁제품 조사 비교
내용
+
** Voice Conversion에서는 TTS와 STT를 결합하려는 시도가 몇몇 보였으나, 소음 제거를 위해 STT와 TTS를 결합하려는 시도가 있던 논문은 발견하지 못했다.
 
*마케팅 전략 제시
 
*마케팅 전략 제시
내용
+
** 최종 모델을 구축하는 것이 목표이기 때문에 따로 소프트웨어로 출시할 예정은 없다. 그러나 만약 출시하게 된다면 인터넷 통화나 실제 통화에 관여하고 있는 다양한 어플리케이션에 접목할 수 있도록 시스템을 제공하는 것이 바람직해 보인다.
  
 
===개발과제의 기대효과===
 
===개발과제의 기대효과===
 
====기술적 기대효과====
 
====기술적 기대효과====
내용
+
* 자연스러운 음성 생성 및 텍스트 이해의 향상: STT와 TTS의 통합은 음성 입력에서 텍스트로의 변환과 이를 토대로 한 자연스러운 음성 생성 간의 일관성을 증가시킬 수 있다. 또한 모델이 소음을 제거하면서 정확한 텍스트를 추출하고, TTS가 해당 텍스트를 자연스럽게 음성으로 변환할 때 불필요한 소음이나 왜곡이 줄어들게 된다.
 
====경제적, 사회적 기대 및 파급효과====
 
====경제적, 사회적 기대 및 파급효과====
내용
+
* 산업 성장과 혁신: 음성 처리 기술의 발전은 새로운 비즈니스 모델과 서비스의 등장을 촉진할 수 있다. 새로운 음성 기반 서비스 및 제품이 등장하면서 관련 산업이 성장할 수 있다.
  
 
===기술개발 일정 및 추진체계===
 
===기술개발 일정 및 추진체계===

2023년 12월 25일 (월) 12:43 판

프로젝트 개요

기술개발 과제

국문 : STT와 TTS를 결합한 소음 제거 딥러닝 모델

영문 : Noise Reduction Model Combining STT and TTS

과제 팀명

Pure Sound

지도교수

유하진 교수님

개발기간

2023년 9월 ~ 2023년 12월 (총 4개월)

구성원 소개

서울시립대학교 수학과 20195400** 황*연(팀장)

서울시립대학교 수학과 20185400** 채*석

서울시립대학교 컴퓨터과학부 20189200** 고*정

서론

개발 과제의 개요

개발 과제 요약

  • 통화 서비스에서 소음을 줄이고 사용자의 목소리를 명확하게 전달하는 것은 중요하다. 그러나 소음 제거 기술을 발전시키는 데에는 상당한 시간이 소요된다. 이에 따라 본 연구에서는 STT(Speech-to-Text)와 TTS(Text-to-Speech)를 결합하여 근본적인 소음 제거 방법을 제안한다.

개발 과제의 배경

  • 최근 블루투스 이어폰을 사용이 증가함에 따라 이어폰을 착용하여 통화하는 사람들이 늘어났다. 블루투스 이어폰을 사용하면 주변 통화 소음이 크게 포함되기에 사람들간의 의사소통에 방해 요소가 될 수 있다. 블루투스 이어폰뿐만 아니라 노인과 어린아이와의 통화 시에도 목소리가 명확하게 전달되지 않는 경우가 종종 발생하는 어려움도 있다.

개발 과제의 목표 및 내용

  • 최종 개발 목표는 소음을 제거하여 명료한 목소리를 전달하는 모델을 만드는 것이다. STT와 TTS의 결합뿐만 아니라 여러 다른 모델(DNS, GPT)을 추가로 결합하여 성능을 높이는 방향으로 연구하였다.

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

  • 전 세계적인 기술현황
    • STT 모델에는 Wav2Vec2.0, Whisper 모델 등이 있는데, 그 중 Whisper 모델은 한국어에서 가장 좋은 성능을 보여주는 모델이다. Whisper 모델은 대량의 한국어 데이터가 포함된 데이터셋으로 학습하여 높은 성능을 보여주고 있다.
  • 특허조사 및 특허 전략 분석
    • 본 기술에 대한 특허가 별도로 존재하지 않는 것으로 확인된다.
  • 기술 로드맵
    • DNS(Deep Noise Suppression): DNS(Deep Noise Suppression)는 딥러닝 또는 심층 신경망을 활용하여 주변 소음을 탐지하고 제거하거나 억제하는 소음 제거 방식이다. 대표적으로 ICASSP 2021 DNS Challenge에서 최상위 순위를 차지한 TSCN(Two-Stage Convolutional Network)[1] 모델이 있다.
    • STT(Speech To Text): STT(Speech To Text)는 음성을 텍스트로 변환하는 기술이다. 딥러닝을 이용한 대표적인 STT 모델에는 Facebook AI에서 개발한 wav2vec 2.0과 Open AI에서 개발한 Whisper 모델이 있다. Whisper 모델은 간단한 Transformer 구조를 가지면서도 대량의 데이터로 학습하여 높은 성능을 보여주고 있다.
    • TTS(Text To Speech): TTS는 STT와 반대로 텍스트로부터 음성을 합성하는 기술이다. 딥러닝을 이용하여 구현한 TTS 모델에는 WaveNet, Tacotron, Glow-TTS 등이 있다. 최근에는 Google의 Cloud Text-to-Speech API 또는 Naver의 CLOVA Voice API 등과 같이 여러 기업에서 TTS API를 제공하고 있으며, 이러한 TTS는 사람처럼 다양하고 자연스러운 음성을 생성한다.

시장상황에 대한 분석

  • 경쟁제품 조사 비교
    • Voice Conversion에서는 TTS와 STT를 결합하려는 시도가 몇몇 보였으나, 소음 제거를 위해 STT와 TTS를 결합하려는 시도가 있던 논문은 발견하지 못했다.
  • 마케팅 전략 제시
    • 최종 모델을 구축하는 것이 목표이기 때문에 따로 소프트웨어로 출시할 예정은 없다. 그러나 만약 출시하게 된다면 인터넷 통화나 실제 통화에 관여하고 있는 다양한 어플리케이션에 접목할 수 있도록 시스템을 제공하는 것이 바람직해 보인다.

개발과제의 기대효과

기술적 기대효과

  • 자연스러운 음성 생성 및 텍스트 이해의 향상: STT와 TTS의 통합은 음성 입력에서 텍스트로의 변환과 이를 토대로 한 자연스러운 음성 생성 간의 일관성을 증가시킬 수 있다. 또한 모델이 소음을 제거하면서 정확한 텍스트를 추출하고, TTS가 해당 텍스트를 자연스럽게 음성으로 변환할 때 불필요한 소음이나 왜곡이 줄어들게 된다.

경제적, 사회적 기대 및 파급효과

  • 산업 성장과 혁신: 음성 처리 기술의 발전은 새로운 비즈니스 모델과 서비스의 등장을 촉진할 수 있다. 새로운 음성 기반 서비스 및 제품이 등장하면서 관련 산업이 성장할 수 있다.

기술개발 일정 및 추진체계

개발 일정

내용

구성원 및 추진체계

내용

설계

설계사양

제품의 요구사항

내용

설계 사양

내용

개념설계안

내용

이론적 계산 및 시뮬레이션

내용

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

관련사업비 내역서

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용