"에이아이조"의 두 판 사이의 차이

cdc wiki
이동: 둘러보기, 검색
(기술개발 과제)
(개발 과제 요약)
22번째 줄: 22번째 줄:
 
===개발 과제의 개요===
 
===개발 과제의 개요===
 
====개발 과제 요약====
 
====개발 과제 요약====
내용
+
화자 인식의 고질적인 문제점인 짧은 발성에 대해 정확도가 낮다는 문제점을 해결하기 위해 2가지 방법을 적용한다.
 +
 
 +
 
 +
⓵ 짧은 발성을 보상(compensation)하기 위한 Teacher-Student Learning(TSL) 방법을 사용한다.
 +
 
 +
- Teacher-Student Learning(TSL)은 신경망 모델 압축(neural network compression)을 위해 2018년에 제안된 방법이다. 신경망이 커질수록 네트워크에 필요한 연산 및 메모리가 크게 필요해 하드웨어 리소스가 부족한 문제가 발생한다. 여기서 압축(compressiong)은 훈련된 DNN 모델에서 기존 성능을 떨어뜨리지 않고 네트워크의 중복성을 제거하기 위해 사용된다.
 +
 
 +
- 최근에는 신경망 모델 압축(compression)을 위한 방법이 음성 인식 보상(compensation)기법에 적용되고 있다. 모델 압축의 방법은 기존의 좋은 성능을 보이는 Teacher 모델을 이용해 파라미터가 적은 Student 모델의 성능을 Teacher와 비슷하게 만드는 방식이다. 이러한 알고리즘을 사용해 기존에 성능이 좋은 긴 발성의 화자 인식 모델을 통하여 짧은 발성의 화자 인식 모델의 성능을 최적화시키는 것이 목적이다. 이러한 방식으로 Teacher-Student Learning(TSL)을 화자 인식에서 짧은 발성을 보상하는 방법으로 적절하게 변형시켜 사용한다.
 +
 
 +
 
 +
 
 +
⓶ 화자 인식에서 사용하는 화자 특징(Speaker Embedding)은 DNN에서 추출하는 고정된 은닉층 벡터(d-vector)를 사용한다.
 +
 
 +
- 음성이 입력되면 그 화자의 음성 특징을 추출한다. 음성은 똑같은 언어라 할지라도 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징 검출이 중요하다. 즉, 특징 추출 과정에서는 불필요하게 중복되는 음성정보를 없애고 동일 음성 신호 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 특징 벡터 또는 화자 특징(Speaker Embedding)이라고 한다.
 +
 
 
====개발 과제의 배경====
 
====개발 과제의 배경====
 
내용
 
내용

2019년 6월 19일 (수) 23:31 판

프로젝트 개요

기술개발 과제

국문 : 화자 검증에서 DNN(Deep Neural Network) 모델상의 화자 특징을 이용한 TSL(Teacher-Student Learning) 방법의 짧은 발성 보상 시스템

영문 : Short Utterance Compensation System of Teacher-Student Learning(TSL) Using Speaker Embedding on Deep Neural Network(DNN)

과제 팀명

에이아이

지도교수

이병정 교수님

개발기간

2019년 3월 ~ 2019년 6월 (총 4개월)

구성원 소개

서울시립대학교 컴퓨터과학부·과 2014920003 김승빈(팀장)

서론

개발 과제의 개요

개발 과제 요약

화자 인식의 고질적인 문제점인 짧은 발성에 대해 정확도가 낮다는 문제점을 해결하기 위해 2가지 방법을 적용한다.


⓵ 짧은 발성을 보상(compensation)하기 위한 Teacher-Student Learning(TSL) 방법을 사용한다.

- Teacher-Student Learning(TSL)은 신경망 모델 압축(neural network compression)을 위해 2018년에 제안된 방법이다. 신경망이 커질수록 네트워크에 필요한 연산 및 메모리가 크게 필요해 하드웨어 리소스가 부족한 문제가 발생한다. 여기서 압축(compressiong)은 훈련된 DNN 모델에서 기존 성능을 떨어뜨리지 않고 네트워크의 중복성을 제거하기 위해 사용된다.

- 최근에는 신경망 모델 압축(compression)을 위한 방법이 음성 인식 보상(compensation)기법에 적용되고 있다. 모델 압축의 방법은 기존의 좋은 성능을 보이는 Teacher 모델을 이용해 파라미터가 적은 Student 모델의 성능을 Teacher와 비슷하게 만드는 방식이다. 이러한 알고리즘을 사용해 기존에 성능이 좋은 긴 발성의 화자 인식 모델을 통하여 짧은 발성의 화자 인식 모델의 성능을 최적화시키는 것이 목적이다. 이러한 방식으로 Teacher-Student Learning(TSL)을 화자 인식에서 짧은 발성을 보상하는 방법으로 적절하게 변형시켜 사용한다.


⓶ 화자 인식에서 사용하는 화자 특징(Speaker Embedding)은 DNN에서 추출하는 고정된 은닉층 벡터(d-vector)를 사용한다.

- 음성이 입력되면 그 화자의 음성 특징을 추출한다. 음성은 똑같은 언어라 할지라도 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징 검출이 중요하다. 즉, 특징 추출 과정에서는 불필요하게 중복되는 음성정보를 없애고 동일 음성 신호 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 특징 벡터 또는 화자 특징(Speaker Embedding)이라고 한다.

개발 과제의 배경

내용

개발 과제의 목표 및 내용

내용

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

  • 전 세계적인 기술현황

내용

  • 특허조사 및 특허 전략 분석

내용

  • 기술 로드맵

내용

시장상황에 대한 분석

  • 경쟁제품 조사 비교

내용

  • 마케팅 전략 제시

내용

개발과제의 기대효과

기술적 기대효과

내용

경제적, 사회적 기대 및 파급효과

내용

기술개발 일정 및 추진체계

개발 일정

내용

구성원 및 추진체계

내용

설계

설계사양

제품의 요구사항

내용

설계 사양

내용

개념설계안

내용

이론적 계산 및 시뮬레이션

내용

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

관련사업비 내역서

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용