"미네르바"의 두 판 사이의 차이
(→개발 과제의 배경) |
(→개발 과제의 목표 및 내용) |
||
59번째 줄: | 59번째 줄: | ||
4. Text-Rank 기사 3줄 요약 | 4. Text-Rank 기사 3줄 요약 | ||
5. 크롤링을 통한 이미지 추천 | 5. 크롤링을 통한 이미지 추천 | ||
+ | <br> | ||
===관련 기술의 현황=== | ===관련 기술의 현황=== |
2020년 6월 28일 (일) 02:57 판
프로젝트 개요
기술개발 과제
국문 : <MINE-POST> 인공지능의 보조를 통한 가짜뉴스 사이트
영문 : <MINE-POST> Fake news site with the help of artificial intelligence
과제 팀명
미네르바
지도교수
김민호 교수님
개발기간
2020년 3월 ~ 2020년 6월 (총 4개월)
구성원 소개
서울시립대학교 컴퓨터과학부 20159200** 소*진(팀장)
서울시립대학교 컴퓨터과학부 20169200** 정*희
서울시립대학교 컴퓨터과학부 20159200** 박*원
서울시립대학교 컴퓨터과학부 20159200** 이*구
서울시립대학교 컴퓨터과학부 20159200** 지*원
서론
개발 과제의 개요
개발 과제 요약
MINE-POST는 인공지능의 보조를 통한 가짜뉴스 사이트이다. 핵심 기능은 다음과 같다.
1. Fine-Tuning을 통해 구현된 다양한 글 스타일 모델(뉴스, 소설, 노래)을 사용할 수 있다. 2. 기사 제목을 입력하면 이후에 올 적합한 단어들을 Ajax를 통해 실시간으로 추천한다. 3. 사용자가 문장을 입력하면 인공지능이 맥락에 맞는 한 단락의 문장을 완성한다. 4. 완성된 기사는 TextRank 알고리즘을 통해 3줄 요약하여 기사 상단에 보여준다 5. 기사에 어울리는 이미지들을 Selenium을 통해 크롤링하여 제공한다.
개발 과제의 배경
- 가짜뉴스는 진짜뉴스를 뛰어넘을 만큼 많이 존재하며 이로 인한 국가, 경제적 피해가 심각하다.
- 하지만 미국 증권가의 AI Journalism은 속도나 객관성에서 사람을 뛰어넘을 만큼 큰 잠재력을 가졌다.
- 양날의 검인 글쓰기 모델을 올바르게만 사용한다면 훌륭한 글쓰기 보조도구가 될 것이다.
- 그래서 우리는 인공지능이 뉴스 작성을 보조해주는 기계+인간 협업 형태의 새로운 뉴스 사이트를 제시한다.
개발 과제의 목표 및 내용
- Pre-Traning상태인 GPT-2 모델에 대하여 Fine-Tuning을 거쳐 뉴스 사이트에 적합한 형태로 학습 시킨다.
- 아래 제시한 인공지능의 핵심 보조 기능들에 대하여 구현한다.
1. 다양한 글 스타일 모델(뉴스, 소설, 노래) 사용 2. 실시간 제목 추천 3. 인공지능 자동 글쓰기 4. Text-Rank 기사 3줄 요약 5. 크롤링을 통한 이미지 추천
관련 기술의 현황
관련 기술의 현황 및 분석(State of art)
1. 전 세계적인 기술현황
국외
1. BERT - 2018.11 Google 발표. Transformer 신경망 기반. 양방향성 학습 모델
2. GPT-2 - 2019.02 OpenAI 발표. Transformer 신경망 기반. 최대 규모 오픈소스 모델
3. T5 - 2019.10 Google 발표. Transformer 신경망 기반. '전이학습' 이용한 학습 모델
국내
1. KoBERT - 2019.10 SK T-Brain 발표. 데이터 기반 토큰화 기법 통해 한국어 성능 극복
2. KoGPT2 - 2020.04 SK + AWS 발표. GPT-2 Small(117M)을 기반으로 함.
3. KorBERT - 2019.06 한국전자통신연구원(ETRI)발표. 형태소 기반 언어 모델로 한국어 성능 극복
2. 특허조사 및 특허 전략 분석
특허조사
- 자연어처리를 위한 완성형 한글코드 음소정보 추출 방법 (KT, 2003년 출원, 2009년 등록)
- 기사 요약 서비스 서버 및 방법(KaKao, 2015년 출원, 2015년 등록)
- 한국뉴스 요약 시스템 및 방법 (울산과학기술원 산학협력단. 2013년 출원, 2015년 등록)
- 빅데이터 분석 기반의 인공지능 실시간 스포츠 기사 자동 작성 시스템 및 방법(에이피케이어플킹, 2018년 출원, 2019년 등록)
- 작성자 맞춤형 기사 작성 방법(이명환, 2015 출원, 2017년 등록)
- 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템(NAVER, 2015년 출원, 2017년 등록)
- 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 (미디어젠, 2019년 출원, 2019년 등록)
특허 분석
- 인공지능 글쓰기 보조 웹사이트라는 측면에서 신규성을 갖출 수 있다.
- 오픈 소스로 공개하여 사용, 재포, 개작, 개작 후 재배포를 보장한다.
- 웹 컨텐츠의 경우, 단순한 데이터의 축적에 불과하다면 특허출원이 곤란하지만, 웹 컨텐츠를 운영하는 방식이나 알고리즘의 특이성이 인정된다면 그 부분에 대해서는 출원이 가능하다.
3. 기술 로드맵
내용
시장상황에 대한 분석
- 경쟁제품 조사 비교
내용
- 마케팅 전략 제시
내용
개발과제의 기대효과
기술적 기대효과
내용
경제적, 사회적 기대 및 파급효과
내용
기술개발 일정 및 추진체계
개발 일정
내용
구성원 및 추진체계
내용
설계
설계사양
제품의 요구사항
내용
설계 사양
내용
개념설계안
내용
이론적 계산 및 시뮬레이션
내용
상세설계 내용
내용
결과 및 평가
완료 작품의 소개
프로토타입 사진 혹은 작동 장면
내용
포스터
내용
관련사업비 내역서
내용
완료작품의 평가
내용
향후계획
내용
특허 출원 내용
내용