"Auditory Reality조"의 두 판 사이의 차이

cdc wiki
이동: 둘러보기, 검색
(관련 기술의 현황 및 분석(State of art))
(기술개발 과제)
 
(같은 사용자의 중간 판 47개는 보이지 않습니다)
3번째 줄: 3번째 줄:
 
==프로젝트 개요==
 
==프로젝트 개요==
 
=== 기술개발 과제 ===
 
=== 기술개발 과제 ===
''' 국문 : ''' 청각장애인을 위한 AR
+
-''' 국문 : ''' 청각장애인을 위한 AR<br>
 
+
-''' 영문 : ''' AR Service for the Deaf
''' 영문 : ''' AR Service for the Deaf
 
  
 
===과제 팀명===
 
===과제 팀명===
Auditory Reality
+
- Auditory Reality
  
 
===지도교수===
 
===지도교수===
김민호 교수님
+
- 김민호 교수
  
 
===개발기간===
 
===개발기간===
2019년 9월 ~ 2019년 12월 (총 4개월)
+
- 2019년 9월 ~ 2019년 12월 (총 4개월)
  
 
===구성원 소개===
 
===구성원 소개===
서울시립대학교 컴퓨터과학부 2013920018 김윤기(팀장)
+
- 서울시립대학교 컴퓨터과학부 2013920018 김윤기(팀장)<br>
 
+
- 서울시립대학교 컴퓨터과학부 2014920067 허재진<br>
서울시립대학교 컴퓨터과학부 2014920067 허재진
+
- 서울시립대학교 컴퓨터과학부 2015920072 장재은
 
 
서울시립대학교 컴퓨터과학부 2015920072 장재은
 
  
 
==서론==
 
==서론==
27번째 줄: 24번째 줄:
 
====개발 과제 요약====
 
====개발 과제 요약====
 
   
 
   
◇ 음성인식을 통한 자막 출력
+
◇ 음성인식을 통한 자막 출력
  
 
  - 대화 시 화자의 음성을 자막으로 출력<br />
 
  - 대화 시 화자의 음성을 자막으로 출력<br />
35번째 줄: 32번째 줄:
 
  - 영어 혹은 한국어, 숫자 구분 가능
 
  - 영어 혹은 한국어, 숫자 구분 가능
  
◇ 주변 소음 인식으로 자신 주변의 위험 경보
+
◇ 주변 소음 인식으로 자신 주변의 위험 경보
  
 
  - 화면 인식을 통해 환경 구분<br />
 
  - 화면 인식을 통해 환경 구분<br />
42번째 줄: 39번째 줄:
 
  - 소음이 들리는 방향 쪽으로 확인 할 수 있도록 방향 탐지<br />
 
  - 소음이 들리는 방향 쪽으로 확인 할 수 있도록 방향 탐지<br />
  
◇ 한국 영화 시청 시 기기에 자막 출력
+
◇ 한국 영화 시청 시 기기에 자막 출력
  
 
  - 영화 시작과 동시에 싱크에 맞춰 자막 생성<br />
 
  - 영화 시작과 동시에 싱크에 맞춰 자막 생성<br />
48번째 줄: 45번째 줄:
 
  - 영화와 자막을 동시에 볼 수 있게 해줌<br />
 
  - 영화와 자막을 동시에 볼 수 있게 해줌<br />
  
◇ 동영상 녹화 후 동영상 자막 생성
+
◇ 동영상 녹화 후 동영상 자막 생성
  
 
  - 청각장애인은 소리를 들을 수 없음<br />
 
  - 청각장애인은 소리를 들을 수 없음<br />
54번째 줄: 51번째 줄:
 
  - 분리된 소리를 분석해 자막 생성<br />
 
  - 분리된 소리를 분석해 자막 생성<br />
  
  ◇ 위험 상황 시 수화 경보
+
◇ 위험 상황 시 수화 경보
  
 
  - 위 주변 소음 인식 방법 응용<br />
 
  - 위 주변 소음 인식 방법 응용<br />
61번째 줄: 58번째 줄:
 
  - 주의 / 위험에 따라 수화를 다르게 하여 아바타에 적용<br />
 
  - 주의 / 위험에 따라 수화를 다르게 하여 아바타에 적용<br />
  
  ◇ 수화 모션 캡처
+
◇ 수화 모션 캡처
  
 
  - 간단한 수화 동작들을 측정함<br />
 
  - 간단한 수화 동작들을 측정함<br />
67번째 줄: 64번째 줄:
  
 
====개발 과제의 배경====
 
====개발 과제의 배경====
◇ 사회, 문화적 필요성
+
◇ 사회, 문화적 필요성
  
 
  - 2014년 기준 대한민국 청각 장애인 수는 25만명이며, 이는 춘천의 인구가 26만명인 것을 감안하면 굉장히 높은 수치라고 할 수 있음.<br />
 
  - 2014년 기준 대한민국 청각 장애인 수는 25만명이며, 이는 춘천의 인구가 26만명인 것을 감안하면 굉장히 높은 수치라고 할 수 있음.<br />
79번째 줄: 76번째 줄:
 
  - 청각장애인의 일반적인 소통 방법은 수화나 독순술<br />
 
  - 청각장애인의 일반적인 소통 방법은 수화나 독순술<br />
 
  - 독순술이란 말하기를 입술, 얼굴, 혀의 움직임으로 아는 것<br />
 
  - 독순술이란 말하기를 입술, 얼굴, 혀의 움직임으로 아는 것<br />
  - 독순술로는 단지 30 ~ 40% 정도의 이해만 가능<br />
+
  - 독순술로는 단지 30 ~ 40% 정도의 이해만 가능
 
   
 
   
 +
◇ 법적인 필요성
  
  ◇ 법적인 필요성
+
  - 국가는 장애인차별금지 및 권리구제 등에 관한 법률」에 정당한 편의제공 의무가 있고, 장애인의 특성을 고려하지 않은 의사소통 양식을 강요하여서는 아니 된다고 하고 있음에도 불구하고 현실적으론 미약한 형편임.
  
- 국가는 장애인차별금지 및 권리구제 등에 관한 법률」에 정당한 편의제공 의무가 있고, 장애인의 특성을 고려하지 않은 의사소통 양식을 강요하여서는 아니 된다고 하고 있음에도 불구하고 현실적으론 미약한 형편임.<br />
+
◇ 기술적 필요성
  
  ◇ 기술적 필요성
+
  - IT 기술 및 사용자 환경에 급변함에 따라서 사용자의 환경은 시각/청각/이동 제한이 발생할 수 있으며, 이와 같은 상황극복을 위해 사용자에 대한 지원 정보는 변경이 되어야 함. <br />
 
+
- 또한, 이를 통해 최근 이슈가 되고 있는 증강기술에 대한 기술로 사용자 환경에서 발생할 수 있는 돌발 상황을 시각화하여 전달함으로써 유사시 발생하는 위기 상황에 대한 인지를 도움<br />
  - IT 기술 및 사용자 환경에 급변함에 따라서 사용자의 환경은 시각/청각/이동 제한이 발생할 수 있으며, 이와 같은 상황극복을 위해 사용자에 대한 지원 정보는 변경이 되어야 함. 또한, 이를 통해 최근 이슈가 되고 있는 증강기술에 대한 기술로 사용자 환경에서 발생할 수 있는 돌발 상황을 시각화하여 전달함으로써 유사시 발생하는 위기 상황에 대한 인지를 도움<br />
 
 
  - 수화의 사용 인원이 굉장히 제한적<br />
 
  - 수화의 사용 인원이 굉장히 제한적<br />
 
  - 현재 한국수어사전에는 10,000개 이상의 단어가 존재<br />
 
  - 현재 한국수어사전에는 10,000개 이상의 단어가 존재<br />
 
  - 일일이 모션 모델링을 하는데 있어서 한계가 존재<br />
 
  - 일일이 모션 모델링을 하는데 있어서 한계가 존재<br />
 
  - 자막을 통해 구현할 경우 간단한 구현이 가능<br />
 
  - 자막을 통해 구현할 경우 간단한 구현이 가능<br />
  - 수화에 비해 접근성이 뛰어나 자막 위주로 개발하는 것이 현실적<br />
+
  - 수화에 비해 접근성이 뛰어나 자막 위주로 개발하는 것이 현실적
  
 
===관련 기술의 현황===
 
===관련 기술의 현황===
 
====관련 기술의 현황 및 분석(State of art)====
 
====관련 기술의 현황 및 분석(State of art)====
 
*전 세계적인 기술현황
 
*전 세계적인 기술현황
◇ 현재 다양한 공모전 대회에서 출품되고 있음 <br />
+
 
 +
 
 +
◇ 현재 다양한 공모전 대회에서 출품되고 있음
 +
 
 
  - 청각장애인용 소리 시각화 안경<br />
 
  - 청각장애인용 소리 시각화 안경<br />
 
  - Deep Learning 기술 활용<br />
 
  - Deep Learning 기술 활용<br />
  - 주변에서 들을 수 있는 8000개의 소리를 데이터베이스화해서 제작<br />
+
  - 주변에서 들을 수 있는 8000개의 소리를 데이터베이스화해서 제작
 
    
 
    
◇ 국외에선 활발한 연구가 진행 중 <br />
+
◇ 국외에선 활발한 연구가 진행 중
 +
 
 
  - 화웨이 AI 기술<br />
 
  - 화웨이 AI 기술<br />
  - 어린 청각 장애 아이들로 하여금 읽는데 도움을 줌<br />
+
  - 어린 청각 장애 아이들로 하여금 읽는데 도움을 줌
  
 
◇ 국외에 관련 다양한 기술 및 제품이 출시되고 있음
 
◇ 국외에 관련 다양한 기술 및 제품이 출시되고 있음
  
*특허조사 및 특허 전략 분석
+
 
  ◇ 특허 조사를 위해 키프리스(한국)와 uspto(미국특허상표청)에서 관련 키워드 검색
+
*특허조사 및 특허 전략 분석<br />
  ◇ 제일 기본이 되는 ‘음성인식’ 키워드 검색
+
  ◇ 특허 조사를 위해 키프리스(한국)와 uspto(미국특허상표청)에서 관련 키워드 검색<br />
 +
  ◇ 제일 기본이 되는 ‘음성인식’ 키워드 검색<br />
 
  ◇ 음성인식을 주로 사용하는 ‘인공지능’, ‘사물 인터넷’ 분야 검색
 
  ◇ 음성인식을 주로 사용하는 ‘인공지능’, ‘사물 인터넷’ 분야 검색
  
  
 
*기술 로드맵
 
*기술 로드맵
  ◇ 구글(음성검색)<br />
+
 
 +
  ◇ 구글(음성검색)
 +
 
 
   
 
   
  1.롱테일 키워드<br />
+
1.롱테일 키워드
 +
 
 
  - 음성 검색에서 더 긴 검색어가 나오면 웹 사이트에서도 롱테일 키워드를 타겟팅.<br />
 
  - 음성 검색에서 더 긴 검색어가 나오면 웹 사이트에서도 롱테일 키워드를 타겟팅.<br />
  - 콘텐츠가 사용자의 의도를 포괄적으로 다루고 심층적인 내용과 긴 형식의 콘텐츠가 있는지 확인 및 제공.<br />
+
  - 콘텐츠가 사용자의 의도를 포괄적으로 다루고 심층적인 내용과 긴 형식의 콘텐츠가 있는지 확인 및 제공.
 +
 
 +
2. FAQ 전략 / 콘텐츠 인간화
  
  2. FAQ 전략 / 콘텐츠 인간화<br />
 
 
  - 고객은“누가, 무엇을, 어디서, 왜, 어떻게”를 사용하여 질문.<br />
 
  - 고객은“누가, 무엇을, 어디서, 왜, 어떻게”를 사용하여 질문.<br />
  - 효과적인 콘텐츠 마케팅 전략을 위해 웹 페이지, 블로그 및 소셜 미디어 게시물에서 이러한 유형을 사용 할 것.<br />
+
  - 효과적인 콘텐츠 마케팅 전략을 위해 웹 페이지, 블로그 및 소셜 미디어 게시물에서 이러한 유형을 사용 할 것.
 
   
 
   
  3. 스키마 마크 업<br />
+
3. 스키마 마크 업
  - 가능한 모든 기회 (웹 사이트의 모든 '엔티티'를 설명하기 위해)에서 스키마를 구현 하면 웹 사이트의 HTML 코딩 구조를 향상시켜 페이지가 정확히 무엇에 대한 정보인지 검색 엔진에 철저한 정보를 제공.<br />
+
  - 가능한 모든 기회 (웹 사이트의 모든 '엔티티'를 설명하기 위해)에서 스키마를 구현 하면 웹 사이트의 HTML 코딩 구조를 향상시켜 페이지가 정확히 무엇에 대한 정보인지 검색 엔진에 철저한 정보를 제공.
  
  
  ◇구글(구글 어시스턴트)<br />
+
  ◇구글(구글 어시스턴트)
  1. 구글 어시스턴트 생태계 조성<br />
+
 
 +
1. 구글 어시스턴트 생태계 조성
 +
 
 
  - 구글 어시스턴트를 탑재한 스마트 TV, 스마트 스피커 등의 출시를 통한 가전제품으로 확대<br />
 
  - 구글 어시스턴트를 탑재한 스마트 TV, 스마트 스피커 등의 출시를 통한 가전제품으로 확대<br />
 
  - 안드로이드 오토를 활용하는 자동차에 소프트웨어 업데이트만으로 구글 어시스턴트를 갖출 수 있게 함<br />
 
  - 안드로이드 오토를 활용하는 자동차에 소프트웨어 업데이트만으로 구글 어시스턴트를 갖출 수 있게 함<br />
  - 사람들의 일상생활에 ‘헤이 구글’(구글 어시스턴트 호출 명령어)를 생활 전반의 공용어로 삼겠다는 취지<br />
+
  - 사람들의 일상생활에 ‘헤이 구글’(구글 어시스턴트 호출 명령어)를 생활 전반의 공용어로 삼겠다는 취지
 +
 
 +
2. 더욱 상호적인 콘텐츠 제공 수단을 제공
  
  2. 더욱 상호적인 콘텐츠 제공 수단을 제공<br />
 
 
  - 개발자들이 어시스턴트 중심의 기기에서 더욱 상호적인 콘텐츠를 제공할 수 있는 새로운 앱(인터렉티브 캔버스 프로젝트)개발<br />
 
  - 개발자들이 어시스턴트 중심의 기기에서 더욱 상호적인 콘텐츠를 제공할 수 있는 새로운 앱(인터렉티브 캔버스 프로젝트)개발<br />
 
  - 구글 어시스턴트를 자체적인 플랫폼으로 바꾸기 위한 작업<br />
 
  - 구글 어시스턴트를 자체적인 플랫폼으로 바꾸기 위한 작업<br />
  - 개발자들이 “음성, 시각화, 터치를 조합한 전체 화면 경험을 창조”할 수 있도록 설계<br />
+
  - 개발자들이 “음성, 시각화, 터치를 조합한 전체 화면 경험을 창조”할 수 있도록 설계
 +
 
 +
3. 인터넷 없이 전화만으로도 동작
  
  3. 인터넷 없이 전화만으로도 동작<br />
 
 
  - 인터넷 연결 없이 전화선을 통해 지정된 번호(000-800-9191-000)으로 전화해 구글 어시스턴트를 사용<br />
 
  - 인터넷 연결 없이 전화선을 통해 지정된 번호(000-800-9191-000)으로 전화해 구글 어시스턴트를 사용<br />
  - 보급형 스마트폰과 같은 저렴한 장치나 데이터가 수신률이 좋지 못한 지역에서도 고 성능의 활동이 가능하도록 함 <br />
+
  - 보급형 스마트폰과 같은 저렴한 장치나 데이터가 수신률이 좋지 못한 지역에서도 고 성능의 활동이 가능하도록 함
 +
 
 +
4. 제공 언어 확장
  
  4. 제공 언어 확장<br />
 
 
  - 주로 사용되는 30개의 언어가 전 세계 안드로이드 스마트폰의 95%를 차지하고 있기 때문에 8개에서 30개 이상으로 확장<br />
 
  - 주로 사용되는 30개의 언어가 전 세계 안드로이드 스마트폰의 95%를 차지하고 있기 때문에 8개에서 30개 이상으로 확장<br />
  - 하나의 환경에서 다국어를 지원해 둘 이상의 언어를 사용하는 가족이나 개인이 구글 어시스턴트에게 자연스럽게 말할 수 있도록 지원<br />
+
  - 하나의 환경에서 다국어를 지원해 둘 이상의 언어를 사용하는 가족이나 개인이 구글 어시스턴트에게 자연스럽게 말할 수 있도록 지원
  
 
====시장상황에 대한 분석====
 
====시장상황에 대한 분석====
 +
 
*경쟁제품 조사 비교
 
*경쟁제품 조사 비교
  ◇ 경쟁제품
+
 
  - LTCSS (Live Time Captioning System)
+
 
  - Speech To Text 기술과 AR 기술의 접목
+
◇ 경쟁제품
  - 상대방의 대화를 AR처럼 보여줌
+
 
  - 라즈베리파이 이용
+
  - LTCSS (Live Time Captioning System)<br />
 +
  - Speech To Text 기술과 AR 기술의 접목<br />
 +
  - 상대방의 대화를 AR처럼 보여줌<br />
 +
  - 라즈베리파이 이용<br />
 
  - 안경에 디스플레이 장착
 
  - 안경에 디스플레이 장착
  
 
*마케팅 전략 제시
 
*마케팅 전략 제시
  ◇ SWOT 분석
+
 
  - S (Strength,  강점) :  국내 관련 서비스 없음
+
 
  - W (Weakness, 약점) : 사용자 수가 제한적
+
◇ SWOT 분석
  - O (Opportunity, 기회) : 관련 정부 지원 풍부
+
 
  - T (Threat, 위협) : 다양한 기업의 진출 가능성
+
  - S (Strength,  강점) :  국내 관련 서비스 없음<br />
  - S (강점) 과 O (기회)를 이용할 예정
+
  - W (Weakness, 약점) : 사용자 수가 제한적<br />
  - 이외의 전략들은 사용하지 않을 예정
+
  - O (Opportunity, 기회) : 관련 정부 지원 풍부<br />
  - 국내 관련 서비스가 없고 정부 지원이 풍부
+
  - T (Threat, 위협) : 다양한 기업의 진출 가능성<br />
  - 적은 자본으로 서비스를 선점할 수 있음
+
  - S (강점) 과 O (기회)를 이용할 예정<br />
  - 일종의 틈새 시장
+
  - 이외의 전략들은 사용하지 않을 예정<br />
 +
  - 국내 관련 서비스가 없고 정부 지원이 풍부<br />
 +
  - 적은 자본으로 서비스를 선점할 수 있음<br />
 +
  - 일종의 틈새 시장<br />
 
  - 강점과 기회만을 최우선적으로 생각
 
  - 강점과 기회만을 최우선적으로 생각
  
  ◇ 고객의 니즈를 만족시킬 다양한 기능을 구현하였음을 홍보
+
◇ 고객의 니즈를 만족시킬 다양한 기능을 구현하였음을 홍보<br />
  - 전에는 존재하지 않았던 새로운 종류의 서비스
+
  - 전에는 존재하지 않았던 새로운 종류의 서비스<br />
 
  - 신기술이 적용되었으므로 고객의 관심 증가 가능성
 
  - 신기술이 적용되었으므로 고객의 관심 증가 가능성
  
  ◇ 온라인 마케팅뿐만 아니라 각종 청각 장애인 행사에 참여하고 앱을 홍보
+
◇ 온라인 마케팅뿐만 아니라 각종 청각 장애인 행사에 참여하고 앱을 홍보<br />
  - 오프라인보다 온라인이 타겟층을 찾는 게 더 쉬움
+
  - 오프라인보다 온라인이 타겟층을 찾는 게 더 쉬움<br />
 
  - 온라인 광고 대행사를 이용할 수도 있음
 
  - 온라인 광고 대행사를 이용할 수도 있음
  
  ◇ 관련 기관 및 정부 기관에 우선토록 홍보함
+
◇ 관련 기관 및 정부 기관에 우선토록 홍보함<br />
  - 정부의 복지 정책의 일환으로 사용될 가능성이 농후
+
  - 정부의 복지 정책의 일환으로 사용될 가능성이 농후<br />
 
  - 정부의 지원을 쉽게 받을 수 있음
 
  - 정부의 지원을 쉽게 받을 수 있음
  
  ◇ 청각 장애 관련 정보 검색 시 배너 및 홍보가 뜨도록 타겟 마케팅을 함
+
◇ 청각 장애 관련 정보 검색 시 배너 및 홍보가 뜨도록 타겟 마케팅을 함<br />
  - 최근 인터넷 검색 기록 바탕으로 마케팅 가능
+
  - 최근 인터넷 검색 기록 바탕으로 마케팅 가능<br />
 
  - 배너 및 홍보를 위 기술을 사용
 
  - 배너 및 홍보를 위 기술을 사용
  
◇ SWOT 분석 결과 일종의 블루 오션
+
◇ SWOT 분석 결과 일종의 블루 오션<br />
  - 블루오션이란 경쟁자가 적고 시장성이 있는 것을 말함
+
  - 블루오션이란 경쟁자가 적고 시장성이 있는 것을 말함<br />
 
  - 사용자 수가 제한적이어도 잠재적으로 30만 명의 고객이 존재
 
  - 사용자 수가 제한적이어도 잠재적으로 30만 명의 고객이 존재
  
 
===개발과제의 기대효과===
 
===개발과제의 기대효과===
 
====기술적 기대효과====
 
====기술적 기대효과====
내용
+
 
 +
◇ 청각장애인이 일반인과 의사소통하는데 있어서 문제가 없어짐<br />
 +
◇ 안내 방송 및 강연 등 자막을 제공하지 않는 곳에서 자막을 제공<br />
 +
◇ 각종 위급 상황에 있어서 빠른 대처 가능
 +
 
 
====경제적, 사회적 기대 및 파급효과====
 
====경제적, 사회적 기대 및 파급효과====
내용
+
◇ 청각 장애인으로 하여금 다양한 여가 활동을 즐길 수 있게 함<br />
 +
◇ 청각장애인이 보다 편리한 생활을 가능하도록 함<br />
 +
◇ 청각장애인으로 하여금 사회에 참여할 기회를 넓혀줌
  
 
===기술개발 일정 및 추진체계===
 
===기술개발 일정 및 추진체계===
====개발 일정====
+
 
내용
+
        '''단계별 세부개발 내용             담당자      개발기간(월 단위)      비 고
 +
                                                          '''9  10  11  12'''''<br>
 +
요구사항 분석, 오픈소스 선정, 자료수집    장재은        V    V<br>
 +
      음성인식 및 자막 출력                김윤기            V    V<br>
 +
  주변 소음 수집 및 소음 크기 분석        허재진            V<br>
 +
  영화 자막 생성 및 싱크 조절              장재은                  V    V<br>
 +
    동영상 녹화 시 자막 생성              김윤기                  V    V<br>
 +
      위급 상황시 수화 경보                허재진                  V    V<br>
 +
            UI/UX설계                      장재은            V    V<br>
 +
        소프트웨어 테스트                  김윤기                  V    V<br>
 +
  소프트웨어 유지보수, 관리                허재진                      V
 +
 
 
====구성원 및 추진체계====
 
====구성원 및 추진체계====
  
◇ 김*기
+
◇ 김*기
 
+
  - 음성인식 및 자막 출력<br />
  - 음성인식 및 자막 출력
+
  - 동영상 녹화 시 자막 생성<br />
  - 동영상 녹화 시 자막 생성
 
 
  - 소프트웨어 테스트
 
  - 소프트웨어 테스트
  
◇ 허*진
+
◇ 허*진
 
+
  - 주변 소음 수집 및 소음 크기 분석<br />
  - 주변 소음 수집 및 소음 크기 분석
+
  - 위급 상황시 수화 경보<br />
  - 위급 상황시 수화 경보
 
 
  - 소프트웨어 유지보수, 관리
 
  - 소프트웨어 유지보수, 관리
  
◇ 장*은
+
◇ 장*은
 
+
  - 요구사항 분석/오픈소스 선정/자료수집<br />
  - 요구사항 분석/오픈소스 선정/자료수집
+
  - 영화 자막 생성 및 싱크조절<br />
  - 영화 자막 생성 및 싱크조절
 
 
  - UI/UX 설계
 
  - UI/UX 설계
  
223번째 줄: 255번째 줄:
 
===설계사양===
 
===설계사양===
 
====제품의 요구사항====
 
====제품의 요구사항====
 
+
◇ 음성인식을 통한 자막 출력<br>
====설계 사양====
+
◇ 주변 소음 인식으로 자신 주변의 위험 경보<br>
내용
+
◇ 한국 영화 시청 시 기기에 자막 출력<br>
 +
◇ 위험 상황 시 수화 경보
  
 
===개념설계안===
 
===개념설계안===
내용
+
  ◇ 음성인식을 이용한 자막으로 상대방과 대화한다.<br>
 
+
  ◇ 주변 소음을 인식해으로 소음의 크기로 자신 주변의 위험을 알린다.<br>
===이론적 계산 및 시뮬레이션===
+
  ◇ 동영상을 업로드해 음원을 추출하고, 추출한 음원에 맞춰 동영상에 자막을 만든다.
내용
 
  
 
===상세설계 내용===
 
===상세설계 내용===
내용
+
◇ 개인 모듈에서 회원가입과 로그인에 필요한 정보를 서버에서 가지고 있으며, 소셜로그인 API도 활용한다.<br>
 +
 +
◇ 위험 알림에서는 위험 알림이 된 횟수를 데이터베이스에 저장해 주변 위험도를 판단 할 수 있다.<br>
 +
 +
◇ 단어 모듈에서 사용자는 자신이 주로 듣는 고유명사를 추가 및 삭제할 수 있고, 서버에서 자주 사용되는 고유명사를 받아올 수 있다.<br>
 +
 +
◇ 업로드 하려는 동영상을 음원 추출후 서버에 보내 나온 텍스트들을 자막으로 묶어 저장하고, 저장된 자막을 읽어 수정할 수 있다.
  
 
==결과 및 평가==
 
==결과 및 평가==
247번째 줄: 285번째 줄:
 
가. 어려웠던 내용들
 
가. 어려웠던 내용들
 
   
 
   
  ◇ 각자 기능별로 담당해 구현하다 보니 코드를 하나로 합치는데서 발생하는 오류가 많았음
+
  ◇ 각자 기능별로 담당해 구현하다 보니 코드를 하나로 합치는데서 발생하는 오류가 많았음<br>
  ◇ 쓰레드가 많아 잠깐 동작하고 꺼지거나 모두 동작을 안 하는 경우가 있어 쓰레드의 내용을 살펴보며 최대한 리소스를 덜 잡아먹게 조절하는 것
+
  ◇ 쓰레드가 많아 잠깐 동작하고 꺼지거나 모두 동작을 안 하는 경우가 있어 쓰레드의 내용을 살펴보며 최대한 리소스를 덜 잡아먹게 조절하는 것<br>
  ◇ 음성인식 결과물을 받아오는데 있어서 비용 발생을 조절하기 위해 한 번의 테스트에 최대한 많은 기능을 테스트하는 것
+
  ◇ 음성인식 결과물을 받아오는데 있어서 비용 발생을 조절하기 위해 한 번의 테스트에 최대한 많은 기능을 테스트하는 것<br>
  ◇ 자료를 조사하는데 상용화 된 기술이 적어 폭넓은 조사를 할 수 없던 것  
+
  ◇ 자료를 조사하는데 상용화 된 기술이 적어 폭넓은 조사를 할 수 없던 것 <br>
  ◇ 마이크에 위치에 따른 물리적인 한계로 정확한 측정이 어려운 것
+
  ◇ 마이크에 위치에 따른 물리적인 한계로 정확한 측정이 어려운 것<br>
  
 
나. 작품 평가
 
나. 작품 평가
  ◇ 주요 기능들의 정확도가 부족함
+
  ◇ 주요 기능들의 정확도가 부족함<br>
  ◇ 줄이긴 했지만 많은 쓰레드로 인한 느린 동작의 아쉬움
+
  ◇ 줄이긴 했지만 많은 쓰레드로 인한 느린 동작의 아쉬움<br>
  
 
===향후계획===
 
===향후계획===
  ◇ 사용자의 위치를 GPS를 통해 받고 해당 지역에서의 평균 소음 값을 확인하고 맞춰 설정할 수 있도록 도와주는 기능   
+
  ◇ 사용자의 위치를 GPS를 통해 받고 해당 지역에서의 평균 소음 값을 확인하고 맞춰 설정할 수 있도록 도와주는 기능<br>  
  ◇ 사용자의 요청에 따라 강제로 음성인식을 실행 할 수 있는 기능
+
  ◇ 사용자의 요청에 따라 강제로 음성인식을 실행 할 수 있는 기능<br>
  ◇ 영화의 대사의 일부분을 인식 후 자막파일에서 검색을 통해 영화의 자막을 띄우는 기능
+
  ◇ 영화의 대사의 일부분을 인식 후 자막파일에서 검색을 통해 영화의 자막을 띄우는 기능<br>
 
  ◇ (돈이 된다면)동영상 자막 생성
 
  ◇ (돈이 된다면)동영상 자막 생성
  
 
===특허 출원 내용===
 
===특허 출원 내용===
 
내용
 
내용

2019년 12월 20일 (금) 03:30 기준 최신판

프로젝트 개요

기술개발 과제

- 국문 :  청각장애인을 위한 AR
- 영문 : AR Service for the Deaf

과제 팀명

- Auditory Reality

지도교수

- 김민호 교수

개발기간

- 2019년 9월 ~ 2019년 12월 (총 4개월)

구성원 소개

- 서울시립대학교 컴퓨터과학부 2013920018 김윤기(팀장)
- 서울시립대학교 컴퓨터과학부 2014920067 허재진
- 서울시립대학교 컴퓨터과학부 2015920072 장재은

서론

개발 과제의 개요

개발 과제 요약

◇ 음성인식을 통한 자막 출력

- 대화 시 화자의 음성을 자막으로 출력
- 공공장소 및 공적인 장소에서도 사용 가능
- 스마트폰 혹은 스마트 글래스에 자막 출력
- 실시간 대화가 가능하도록 빠른 자막 출력
- 영어 혹은 한국어, 숫자 구분 가능

◇ 주변 소음 인식으로 자신 주변의 위험 경보

- 화면 인식을 통해 환경 구분
- 현재 측정된 데시벨과 주변 환경 평균 소음 비교
- 특정 값이 넘어가면 위험 상황임을 감지
- 소음이 들리는 방향 쪽으로 확인 할 수 있도록 방향 탐지

◇ 한국 영화 시청 시 기기에 자막 출력

- 영화 시작과 동시에 싱크에 맞춰 자막 생성
- 작은 스마트 글래스를 이용
- 영화와 자막을 동시에 볼 수 있게 해줌

◇ 동영상 녹화 후 동영상 자막 생성

- 청각장애인은 소리를 들을 수 없음
- 동영상에서 소리를 따로 분리
- 분리된 소리를 분석해 자막 생성

◇ 위험 상황 시 수화 경보

- 위 주변 소음 인식 방법 응용
- 측정 소음 값과 과 주변 환경 평균 소음을 제외하여 값 계산
- 계산된 값에 따라 주의 / 위험 구분
- 주의 / 위험에 따라 수화를 다르게 하여 아바타에 적용

◇ 수화 모션 캡처

- 간단한 수화 동작들을 측정함
- 디지털화해서 출력함

개발 과제의 배경

◇ 사회, 문화적 필요성

- 2014년 기준 대한민국 청각 장애인 수는 25만명이며, 이는 춘천의 인구가 26만명인 것을 감안하면 굉장히 높은 수치라고 할 수 있음.
- WTO 통계 자료에 의하면 전세계 3억 6천만명의 청각장애인이 있으며, 일상 생활에 있어서 어려움을 겪고 있음.
- 청각장애인을 위한 앱 개발은 그에 반해 상당히 저조한 수준
- 기술의 발전에 의해 청력 손상의 경로도 다양해짐
- 청력 손상의 경우 노인 뿐만 아니라 청년 및 중장년층에서도 나타남
- 다양한 사회 친화적 기업 활동 및 정부활동을 통해 일부나마 배리어프리를 위한 기술 및 콘텐츠가 개발됨
- 그러나 콘텐츠의 수가 절대적으로 부족.
- 배리어프리 친화적 기업 활동의 예 (현대 오토에버)
- 청각장애인의 일반적인 소통 방법은 수화나 독순술
- 독순술이란 말하기를 입술, 얼굴, 혀의 움직임으로 아는 것
- 독순술로는 단지 30 ~ 40% 정도의 이해만 가능

◇ 법적인 필요성

- 국가는 장애인차별금지 및 권리구제 등에 관한 법률」에 정당한 편의제공 의무가 있고, 장애인의 특성을 고려하지 않은 의사소통 양식을 강요하여서는 아니 된다고 하고 있음에도 불구하고 현실적으론 미약한 형편임.				

◇ 기술적 필요성

- IT 기술 및 사용자 환경에 급변함에 따라서 사용자의 환경은 시각/청각/이동 제한이 발생할 수 있으며, 이와 같은 상황극복을 위해 사용자에 대한 지원 정보는 변경이 되어야 함. 
- 또한, 이를 통해 최근 이슈가 되고 있는 증강기술에 대한 기술로 사용자 환경에서 발생할 수 있는 돌발 상황을 시각화하여 전달함으로써 유사시 발생하는 위기 상황에 대한 인지를 도움
- 수화의 사용 인원이 굉장히 제한적
- 현재 한국수어사전에는 10,000개 이상의 단어가 존재
- 일일이 모션 모델링을 하는데 있어서 한계가 존재
- 자막을 통해 구현할 경우 간단한 구현이 가능
- 수화에 비해 접근성이 뛰어나 자막 위주로 개발하는 것이 현실적

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

  • 전 세계적인 기술현황


◇ 현재 다양한 공모전 대회에서 출품되고 있음

- 청각장애인용 소리 시각화 안경
- Deep Learning 기술 활용
- 주변에서 들을 수 있는 8000개의 소리를 데이터베이스화해서 제작

◇ 국외에선 활발한 연구가 진행 중

- 화웨이 AI 기술
- 어린 청각 장애 아이들로 하여금 읽는데 도움을 줌

◇ 국외에 관련 다양한 기술 및 제품이 출시되고 있음


  • 특허조사 및 특허 전략 분석
◇ 특허 조사를 위해 키프리스(한국)와 uspto(미국특허상표청)에서 관련 키워드 검색
◇ 제일 기본이 되는 ‘음성인식’ 키워드 검색
◇ 음성인식을 주로 사용하는 ‘인공지능’, ‘사물 인터넷’ 분야 검색


  • 기술 로드맵
◇ 구글(음성검색)


1.롱테일 키워드

- 음성 검색에서 더 긴 검색어가 나오면 웹 사이트에서도 롱테일 키워드를 타겟팅.
- 콘텐츠가 사용자의 의도를 포괄적으로 다루고 심층적인 내용과 긴 형식의 콘텐츠가 있는지 확인 및 제공.

2. FAQ 전략 / 콘텐츠 인간화

- 고객은“누가, 무엇을, 어디서, 왜, 어떻게”를 사용하여 질문.
- 효과적인 콘텐츠 마케팅 전략을 위해 웹 페이지, 블로그 및 소셜 미디어 게시물에서 이러한 유형을 사용 할 것.

3. 스키마 마크 업

- 가능한 모든 기회 (웹 사이트의 모든 '엔티티'를 설명하기 위해)에서 스키마를 구현 하면 웹 사이트의 HTML 코딩 구조를 향상시켜 페이지가 정확히 무엇에 대한 정보인지 검색 엔진에 철저한 정보를 제공.


◇구글(구글 어시스턴트)

1. 구글 어시스턴트 생태계 조성

- 구글 어시스턴트를 탑재한 스마트 TV, 스마트 스피커 등의 출시를 통한 가전제품으로 확대
- 안드로이드 오토를 활용하는 자동차에 소프트웨어 업데이트만으로 구글 어시스턴트를 갖출 수 있게 함
- 사람들의 일상생활에 ‘헤이 구글’(구글 어시스턴트 호출 명령어)를 생활 전반의 공용어로 삼겠다는 취지

2. 더욱 상호적인 콘텐츠 제공 수단을 제공

- 개발자들이 어시스턴트 중심의 기기에서 더욱 상호적인 콘텐츠를 제공할 수 있는 새로운 앱(인터렉티브 캔버스 프로젝트)개발
- 구글 어시스턴트를 자체적인 플랫폼으로 바꾸기 위한 작업
- 개발자들이 “음성, 시각화, 터치를 조합한 전체 화면 경험을 창조”할 수 있도록 설계

3. 인터넷 없이 전화만으로도 동작

- 인터넷 연결 없이 전화선을 통해 지정된 번호(000-800-9191-000)으로 전화해 구글 어시스턴트를 사용
- 보급형 스마트폰과 같은 저렴한 장치나 데이터가 수신률이 좋지 못한 지역에서도 고 성능의 활동이 가능하도록 함

4. 제공 언어 확장

- 주로 사용되는 30개의 언어가 전 세계 안드로이드 스마트폰의 95%를 차지하고 있기 때문에 8개에서 30개 이상으로 확장
- 하나의 환경에서 다국어를 지원해 둘 이상의 언어를 사용하는 가족이나 개인이 구글 어시스턴트에게 자연스럽게 말할 수 있도록 지원

시장상황에 대한 분석

  • 경쟁제품 조사 비교


◇ 경쟁제품

- LTCSS (Live Time Captioning System)
- Speech To Text 기술과 AR 기술의 접목
- 상대방의 대화를 AR처럼 보여줌
- 라즈베리파이 이용
- 안경에 디스플레이 장착
  • 마케팅 전략 제시


◇ SWOT 분석

- S (Strength,  강점) :  국내 관련 서비스 없음
- W (Weakness, 약점) : 사용자 수가 제한적
- O (Opportunity, 기회) : 관련 정부 지원 풍부
- T (Threat, 위협) : 다양한 기업의 진출 가능성
- S (강점) 과 O (기회)를 이용할 예정
- 이외의 전략들은 사용하지 않을 예정
- 국내 관련 서비스가 없고 정부 지원이 풍부
- 적은 자본으로 서비스를 선점할 수 있음
- 일종의 틈새 시장
- 강점과 기회만을 최우선적으로 생각

◇ 고객의 니즈를 만족시킬 다양한 기능을 구현하였음을 홍보

- 전에는 존재하지 않았던 새로운 종류의 서비스
- 신기술이 적용되었으므로 고객의 관심 증가 가능성

◇ 온라인 마케팅뿐만 아니라 각종 청각 장애인 행사에 참여하고 앱을 홍보

- 오프라인보다 온라인이 타겟층을 찾는 게 더 쉬움
- 온라인 광고 대행사를 이용할 수도 있음

◇ 관련 기관 및 정부 기관에 우선토록 홍보함

- 정부의 복지 정책의 일환으로 사용될 가능성이 농후
- 정부의 지원을 쉽게 받을 수 있음

◇ 청각 장애 관련 정보 검색 시 배너 및 홍보가 뜨도록 타겟 마케팅을 함

- 최근 인터넷 검색 기록 바탕으로 마케팅 가능
- 배너 및 홍보를 위 기술을 사용

◇ SWOT 분석 결과 일종의 블루 오션

- 블루오션이란 경쟁자가 적고 시장성이 있는 것을 말함
- 사용자 수가 제한적이어도 잠재적으로 30만 명의 고객이 존재

개발과제의 기대효과

기술적 기대효과

◇ 청각장애인이 일반인과 의사소통하는데 있어서 문제가 없어짐
◇ 안내 방송 및 강연 등 자막을 제공하지 않는 곳에서 자막을 제공
◇ 각종 위급 상황에 있어서 빠른 대처 가능

경제적, 사회적 기대 및 파급효과

◇ 청각 장애인으로 하여금 다양한 여가 활동을 즐길 수 있게 함
◇ 청각장애인이 보다 편리한 생활을 가능하도록 함
◇ 청각장애인으로 하여금 사회에 참여할 기회를 넓혀줌

기술개발 일정 및 추진체계

        단계별 세부개발 내용             담당자      개발기간(월 단위)       비 고
                                                         9   10   11   12
요구사항 분석, 오픈소스 선정, 자료수집 장재은 V V
음성인식 및 자막 출력 김윤기 V V
주변 소음 수집 및 소음 크기 분석 허재진 V
영화 자막 생성 및 싱크 조절 장재은 V V
동영상 녹화 시 자막 생성 김윤기 V V
위급 상황시 수화 경보 허재진 V V
UI/UX설계 장재은 V V
소프트웨어 테스트 김윤기 V V
소프트웨어 유지보수, 관리 허재진 V

구성원 및 추진체계

◇ 김*기

- 음성인식 및 자막 출력
- 동영상 녹화 시 자막 생성
- 소프트웨어 테스트

◇ 허*진

- 주변 소음 수집 및 소음 크기 분석
- 위급 상황시 수화 경보
- 소프트웨어 유지보수, 관리

◇ 장*은

- 요구사항 분석/오픈소스 선정/자료수집
- 영화 자막 생성 및 싱크조절
- UI/UX 설계

설계

설계사양

제품의 요구사항

◇ 음성인식을 통한 자막 출력
◇ 주변 소음 인식으로 자신 주변의 위험 경보
◇ 한국 영화 시청 시 기기에 자막 출력
◇ 위험 상황 시 수화 경보

개념설계안

 ◇ 음성인식을 이용한 자막으로 상대방과 대화한다.
◇ 주변 소음을 인식해으로 소음의 크기로 자신 주변의 위험을 알린다.
◇ 동영상을 업로드해 음원을 추출하고, 추출한 음원에 맞춰 동영상에 자막을 만든다.

상세설계 내용

◇ 개인 모듈에서 회원가입과 로그인에 필요한 정보를 서버에서 가지고 있으며, 소셜로그인 API도 활용한다.
◇ 위험 알림에서는 위험 알림이 된 횟수를 데이터베이스에 저장해 주변 위험도를 판단 할 수 있다.
◇ 단어 모듈에서 사용자는 자신이 주로 듣는 고유명사를 추가 및 삭제할 수 있고, 서버에서 자주 사용되는 고유명사를 받아올 수 있다.
◇ 업로드 하려는 동영상을 음원 추출후 서버에 보내 나온 텍스트들을 자막으로 묶어 저장하고, 저장된 자막을 읽어 수정할 수 있다.

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

동작화면 1번.jpeg

관련사업비 내역서

없음

완료작품의 평가

가. 어려웠던 내용들

◇ 각자 기능별로 담당해 구현하다 보니 코드를 하나로 합치는데서 발생하는 오류가 많았음
◇ 쓰레드가 많아 잠깐 동작하고 꺼지거나 모두 동작을 안 하는 경우가 있어 쓰레드의 내용을 살펴보며 최대한 리소스를 덜 잡아먹게 조절하는 것
◇ 음성인식 결과물을 받아오는데 있어서 비용 발생을 조절하기 위해 한 번의 테스트에 최대한 많은 기능을 테스트하는 것
◇ 자료를 조사하는데 상용화 된 기술이 적어 폭넓은 조사를 할 수 없던 것
◇ 마이크에 위치에 따른 물리적인 한계로 정확한 측정이 어려운 것

나. 작품 평가

◇ 주요 기능들의 정확도가 부족함
◇ 줄이긴 했지만 많은 쓰레드로 인한 느린 동작의 아쉬움

향후계획

◇ 사용자의 위치를 GPS를 통해 받고 해당 지역에서의 평균 소음 값을 확인하고 맞춰 설정할 수 있도록 도와주는 기능
◇ 사용자의 요청에 따라 강제로 음성인식을 실행 할 수 있는 기능
◇ 영화의 대사의 일부분을 인식 후 자막파일에서 검색을 통해 영화의 자막을 띄우는 기능
◇ (돈이 된다면)동영상 자막 생성

특허 출원 내용

내용