"미네르바"의 두 판 사이의 차이

cdc wiki
이동: 둘러보기, 검색
(시장상황에 대한 분석)
(시장상황에 대한 분석)
128번째 줄: 128번째 줄:
 
'''국외'''
 
'''국외'''
  
1. BERT - 2018.11 Google 발표. Transformer 신경망 기반. 양방향성 학습 모델
+
1. Apple 'Siri'
 +
- 음성인식 형태의 자연어 처리 시스템
 +
- 사용자의 단어, 말투를 프로파일링. 축적한 음성 정보를 통해 사용자의 신원 확인 후 정보 제공
 +
- 최근 인공지능 음성 인식 기술을 보유한 스타트업 'PullString'을 인수하며 엔터테인먼트, 금융, 헬스케어를 위한 솔루션 도입 전망
  
2. GPT-2 - 2019.02 OpenAI 발표. Transformer 신경망 기반. 최대 규모 오픈소스 모델
 
  
3. T5 - 2019.10 Google 발표. Transformer 신경망 기반. '전이학습' 이용한 학습 모델
+
2. Amazon 'Amazon Comprehend'
 +
- 언어 해석을 중심으로 한 자연어 처리 시스템
 +
- 고객의 이메일, 제품 후기, SNS에 게재된 기업 평가 등을 해석하여 기업이 제공하는 서비스 및 제품에 대한 고객 심리 분석
 +
- 언어 해석을 넘어 비정형 데이터 분석 또한 뛰어나다는 평가를 받음.
 +
 
 +
3. IBM 'Watson Analytics(Cognos Analytics)'
 +
- 자연어 처리 소프트웨어
 +
- 특정 문서가 내포하는 전반적인 정서 및 감정 또는 키워드 속의 감정을 파악하여 심층 분석
  
  
 
'''국내'''
 
'''국내'''
  
1. KoBERT - 2019.10 SK T-Brain 발표. 데이터 기반 토큰화 기법 통해 한국어 성능 극복
+
1. ETRI 'KorBERT'
 +
- 혁신성장동력 프로젝트인 '엑소브레인' 사업에서 공개된 국가 주도형 한국어 언어 모델
 +
- 두 종류의 모델 공개 (구글의 기존 언어표현 모델, 한국어의 교착어 특성을 반영한 모델)
  
2. KoGPT2 - 2020.04 SK + AWS 발표. GPT-2 Small(117M)을 기반으로 함.
+
2. Kakao 'Khaiii'
 +
- CNN 기반 형태소 분석 모델
 +
- '세종 Corpus'를 기반으로 데이터 오류 수정 및 자체 구축 데이터로 학습(85만 문장, 1003만 어절)
 +
- 딥러닝에 C++ 를 적용하여 일반적인 방식인 GPU 를 사용하지 않고도 빠른 분석 속도 구현
  
3. KorBERT - 2019.06 한국전자통신연구원(ETRI)발표. 형태소 기반 언어 모델로 한국어 성능 극복
+
 
<br>
+
 
 +
3. Naver
 +
- AI 기술 기반 검색어 교정 시스템인 'AIQSpell'로 기존 교정 시스템 대체
 +
- 홍콩 학회 <EMNLP-IJCNLP 2019> '다국어 읽기 이해도를 위한 제한된 데이터 학습으로 충분한 학습데이터가 존재하지 않는 언어에 대해 기계번역 및 자동 레이블링을 통해 데이터를 자동으로 구축하는 방법' 발표
 +
- 자연어 처리 분야에 있어 업계 가장 선도적으로 개발과 투자를 진행 중인 기업
 
<br>
 
<br>
 
<br>
 
<br>
 +
  
 
'''2. 마케팅 전략 제시'''
 
'''2. 마케팅 전략 제시'''

2020년 6월 28일 (일) 06:27 판

프로젝트 개요

기술개발 과제

국문 : <MINE-POST> 인공지능의 보조를 통한 가짜뉴스 사이트

영문 : <MINE-POST> Fake news site with the help of artificial intelligence

과제 팀명

미네르바

지도교수

김민호 교수님

개발기간

2020년 3월 ~ 2020년 6월 (총 4개월)

구성원 소개

서울시립대학교 컴퓨터과학부 20159200** 소*진(팀장)

서울시립대학교 컴퓨터과학부 20169200** 정*희

서울시립대학교 컴퓨터과학부 20159200** 박*원

서울시립대학교 컴퓨터과학부 20159200** 이*구

서울시립대학교 컴퓨터과학부 20159200** 지*원

서론

개발 과제의 개요

개발 과제 요약

MINE-POST는 인공지능의 보조를 통한 가짜뉴스 사이트이다. 핵심 기능은 다음과 같다.

  1. Fine-Tuning을 통해 구현된 다양한 글 스타일 모델(뉴스, 소설, 노래)을 사용할 수 있다.
  2. 기사 제목을 입력하면 이후에 올 적합한 단어들을 Ajax를 통해 실시간으로 추천한다.
  3. 사용자가 문장을 입력하면 인공지능이 맥락에 맞는 한 단락의 문장을 완성한다.
  4. 완성된 기사는 TextRank 알고리즘을 통해 3줄 요약하여 기사 상단에 보여준다
  5. 기사에 어울리는 이미지들을 Selenium을 통해 크롤링하여 제공한다.


개발 과제의 배경

- 가짜뉴스는 진짜뉴스를 뛰어넘을 만큼 많이 존재하며 이로 인한 국가, 경제적 피해가 심각하다.

- 하지만 미국 증권가의 AI Journalism은 속도나 객관성에서 사람을 뛰어넘을 만큼 큰 잠재력을 가졌다.

- 양날의 검인 글쓰기 모델을 올바르게만 사용한다면 훌륭한 글쓰기 보조도구가 될 것이다.

- 그래서 우리는 인공지능이 뉴스 작성을 보조해주는 기계+인간 협업 형태의 새로운 뉴스 사이트를 제시한다.

개발 과제의 목표 및 내용

- Pre-Traning상태인 GPT-2 모델에 대하여 Fine-Tuning을 거쳐 뉴스 사이트에 적합한 형태로 학습 시킨다.

- 아래 제시한 인공지능의 핵심 보조 기능들에 대하여 구현한다.

1. 다양한 글 스타일 모델(뉴스, 소설, 노래) 사용
2. 실시간 제목 추천
3. 인공지능 자동 글쓰기
4. Text-Rank 기사 3줄 요약
5. 크롤링을 통한 이미지 추천


관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

1. 전 세계적인 기술현황

국외

1. BERT - 2018.11 Google 발표. Transformer 신경망 기반. 양방향성 학습 모델

2. GPT-2 - 2019.02 OpenAI 발표. Transformer 신경망 기반. 최대 규모 오픈소스 모델

3. T5 - 2019.10 Google 발표. Transformer 신경망 기반. '전이학습' 이용한 학습 모델


국내

1. KoBERT - 2019.10 SK T-Brain 발표. 데이터 기반 토큰화 기법 통해 한국어 성능 극복

2. KoGPT2 - 2020.04 SK + AWS 발표. GPT-2 Small(117M)을 기반으로 함.

3. KorBERT - 2019.06 한국전자통신연구원(ETRI)발표. 형태소 기반 언어 모델로 한국어 성능 극복


2. 특허조사 및 특허 전략 분석

특허조사

- 자연어처리를 위한 완성형 한글코드 음소정보 추출 방법 (KT, 2003년 출원, 2009년 등록)

- 기사 요약 서비스 서버 및 방법(KaKao, 2015년 출원, 2015년 등록)

- 한국뉴스 요약 시스템 및 방법 (울산과학기술원 산학협력단. 2013년 출원, 2015년 등록)

- 빅데이터 분석 기반의 인공지능 실시간 스포츠 기사 자동 작성 시스템 및 방법(에이피케이어플킹, 2018년 출원, 2019년 등록)

- 작성자 맞춤형 기사 작성 방법(이명환, 2015 출원, 2017년 등록)

- 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템(NAVER, 2015년 출원, 2017년 등록)

- 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 (미디어젠, 2019년 출원, 2019년 등록)

특허 분석

- 인공지능 글쓰기 보조 웹사이트라는 측면에서 신규성을 갖출 수 있다.

- 오픈 소스로 공개하여 사용, 재포, 개작, 개작 후 재배포를 보장한다.

- 웹 컨텐츠의 경우, 단순한 데이터의 축적에 불과하다면 특허출원이 곤란하지만, 웹 컨텐츠를 운영하는 방식이나 알고리즘의 특이성이 인정된다면 그 부분에 대해서는 출원이 가능하다.


3. 기술 로드맵

Example.jpg

시장상황에 대한 분석

1. 경쟁제품 조사 비교

국외

1. Apple 'Siri' - 음성인식 형태의 자연어 처리 시스템 - 사용자의 단어, 말투를 프로파일링. 축적한 음성 정보를 통해 사용자의 신원 확인 후 정보 제공 - 최근 인공지능 음성 인식 기술을 보유한 스타트업 'PullString'을 인수하며 엔터테인먼트, 금융, 헬스케어를 위한 솔루션 도입 전망


2. Amazon 'Amazon Comprehend' - 언어 해석을 중심으로 한 자연어 처리 시스템 - 고객의 이메일, 제품 후기, SNS에 게재된 기업 평가 등을 해석하여 기업이 제공하는 서비스 및 제품에 대한 고객 심리 분석 - 언어 해석을 넘어 비정형 데이터 분석 또한 뛰어나다는 평가를 받음.

3. IBM 'Watson Analytics(Cognos Analytics)' - 자연어 처리 소프트웨어 - 특정 문서가 내포하는 전반적인 정서 및 감정 또는 키워드 속의 감정을 파악하여 심층 분석


국내

1. ETRI 'KorBERT' - 혁신성장동력 프로젝트인 '엑소브레인' 사업에서 공개된 국가 주도형 한국어 언어 모델 - 두 종류의 모델 공개 (구글의 기존 언어표현 모델, 한국어의 교착어 특성을 반영한 모델)

2. Kakao 'Khaiii' - CNN 기반 형태소 분석 모델 - '세종 Corpus'를 기반으로 데이터 오류 수정 및 자체 구축 데이터로 학습(85만 문장, 1003만 어절) - 딥러닝에 C++ 를 적용하여 일반적인 방식인 GPU 를 사용하지 않고도 빠른 분석 속도 구현


3. Naver - AI 기술 기반 검색어 교정 시스템인 'AIQSpell'로 기존 교정 시스템 대체 - 홍콩 학회 <EMNLP-IJCNLP 2019> '다국어 읽기 이해도를 위한 제한된 데이터 학습으로 충분한 학습데이터가 존재하지 않는 언어에 대해 기계번역 및 자동 레이블링을 통해 데이터를 자동으로 구축하는 방법' 발표 - 자연어 처리 분야에 있어 업계 가장 선도적으로 개발과 투자를 진행 중인 기업


2. 마케팅 전략 제시

내용

개발과제의 기대효과

기술적 기대효과

내용

경제적, 사회적 기대 및 파급효과

내용

기술개발 일정 및 추진체계

개발 일정

내용

구성원 및 추진체계

내용

설계

설계사양

제품의 요구사항

내용

설계 사양

내용

개념설계안

내용

이론적 계산 및 시뮬레이션

내용

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

관련사업비 내역서

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용