미네르바

cdc wiki
미네르바 (토론 | 기여)님의 2020년 6월 28일 (일) 03:01 판 (시장상황에 대한 분석)
이동: 둘러보기, 검색

프로젝트 개요

기술개발 과제

국문 : <MINE-POST> 인공지능의 보조를 통한 가짜뉴스 사이트

영문 : <MINE-POST> Fake news site with the help of artificial intelligence

과제 팀명

미네르바

지도교수

김민호 교수님

개발기간

2020년 3월 ~ 2020년 6월 (총 4개월)

구성원 소개

서울시립대학교 컴퓨터과학부 20159200** 소*진(팀장)

서울시립대학교 컴퓨터과학부 20169200** 정*희

서울시립대학교 컴퓨터과학부 20159200** 박*원

서울시립대학교 컴퓨터과학부 20159200** 이*구

서울시립대학교 컴퓨터과학부 20159200** 지*원

서론

개발 과제의 개요

개발 과제 요약

MINE-POST는 인공지능의 보조를 통한 가짜뉴스 사이트이다. 핵심 기능은 다음과 같다.

  1. Fine-Tuning을 통해 구현된 다양한 글 스타일 모델(뉴스, 소설, 노래)을 사용할 수 있다.
  2. 기사 제목을 입력하면 이후에 올 적합한 단어들을 Ajax를 통해 실시간으로 추천한다.
  3. 사용자가 문장을 입력하면 인공지능이 맥락에 맞는 한 단락의 문장을 완성한다.
  4. 완성된 기사는 TextRank 알고리즘을 통해 3줄 요약하여 기사 상단에 보여준다
  5. 기사에 어울리는 이미지들을 Selenium을 통해 크롤링하여 제공한다.


개발 과제의 배경

- 가짜뉴스는 진짜뉴스를 뛰어넘을 만큼 많이 존재하며 이로 인한 국가, 경제적 피해가 심각하다.

- 하지만 미국 증권가의 AI Journalism은 속도나 객관성에서 사람을 뛰어넘을 만큼 큰 잠재력을 가졌다.

- 양날의 검인 글쓰기 모델을 올바르게만 사용한다면 훌륭한 글쓰기 보조도구가 될 것이다.

- 그래서 우리는 인공지능이 뉴스 작성을 보조해주는 기계+인간 협업 형태의 새로운 뉴스 사이트를 제시한다.

개발 과제의 목표 및 내용

- Pre-Traning상태인 GPT-2 모델에 대하여 Fine-Tuning을 거쳐 뉴스 사이트에 적합한 형태로 학습 시킨다.

- 아래 제시한 인공지능의 핵심 보조 기능들에 대하여 구현한다.

1. 다양한 글 스타일 모델(뉴스, 소설, 노래) 사용
2. 실시간 제목 추천
3. 인공지능 자동 글쓰기
4. Text-Rank 기사 3줄 요약
5. 크롤링을 통한 이미지 추천


관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

1. 전 세계적인 기술현황

국외

1. BERT - 2018.11 Google 발표. Transformer 신경망 기반. 양방향성 학습 모델

2. GPT-2 - 2019.02 OpenAI 발표. Transformer 신경망 기반. 최대 규모 오픈소스 모델

3. T5 - 2019.10 Google 발표. Transformer 신경망 기반. '전이학습' 이용한 학습 모델


국내

1. KoBERT - 2019.10 SK T-Brain 발표. 데이터 기반 토큰화 기법 통해 한국어 성능 극복

2. KoGPT2 - 2020.04 SK + AWS 발표. GPT-2 Small(117M)을 기반으로 함.

3. KorBERT - 2019.06 한국전자통신연구원(ETRI)발표. 형태소 기반 언어 모델로 한국어 성능 극복


2. 특허조사 및 특허 전략 분석

특허조사

- 자연어처리를 위한 완성형 한글코드 음소정보 추출 방법 (KT, 2003년 출원, 2009년 등록)

- 기사 요약 서비스 서버 및 방법(KaKao, 2015년 출원, 2015년 등록)

- 한국뉴스 요약 시스템 및 방법 (울산과학기술원 산학협력단. 2013년 출원, 2015년 등록)

- 빅데이터 분석 기반의 인공지능 실시간 스포츠 기사 자동 작성 시스템 및 방법(에이피케이어플킹, 2018년 출원, 2019년 등록)

- 작성자 맞춤형 기사 작성 방법(이명환, 2015 출원, 2017년 등록)

- 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템(NAVER, 2015년 출원, 2017년 등록)

- 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 (미디어젠, 2019년 출원, 2019년 등록)

특허 분석

- 인공지능 글쓰기 보조 웹사이트라는 측면에서 신규성을 갖출 수 있다.

- 오픈 소스로 공개하여 사용, 재포, 개작, 개작 후 재배포를 보장한다.

- 웹 컨텐츠의 경우, 단순한 데이터의 축적에 불과하다면 특허출원이 곤란하지만, 웹 컨텐츠를 운영하는 방식이나 알고리즘의 특이성이 인정된다면 그 부분에 대해서는 출원이 가능하다.


3. 기술 로드맵

Example.jpg

시장상황에 대한 분석

1. 경쟁제품 조사 비교

국외

1. BERT - 2018.11 Google 발표. Transformer 신경망 기반. 양방향성 학습 모델

2. GPT-2 - 2019.02 OpenAI 발표. Transformer 신경망 기반. 최대 규모 오픈소스 모델

3. T5 - 2019.10 Google 발표. Transformer 신경망 기반. '전이학습' 이용한 학습 모델


국내

1. KoBERT - 2019.10 SK T-Brain 발표. 데이터 기반 토큰화 기법 통해 한국어 성능 극복

2. KoGPT2 - 2020.04 SK + AWS 발표. GPT-2 Small(117M)을 기반으로 함.

3. KorBERT - 2019.06 한국전자통신연구원(ETRI)발표. 형태소 기반 언어 모델로 한국어 성능 극복


2. 마케팅 전략 제시

내용

개발과제의 기대효과

기술적 기대효과

내용

경제적, 사회적 기대 및 파급효과

내용

기술개발 일정 및 추진체계

개발 일정

내용

구성원 및 추진체계

내용

설계

설계사양

제품의 요구사항

내용

설계 사양

내용

개념설계안

내용

이론적 계산 및 시뮬레이션

내용

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

관련사업비 내역서

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용