"미네르바"의 두 판 사이의 차이

2020년 6월 28일 (일) 10:36 기준 최신판

프로젝트 개요

기술개발 과제

국문 : <MINE-POST> 인공지능의 보조를 통한 가짜뉴스 사이트

영문 : <MINE-POST> Fake news site with the help of artificial intelligence

과제 팀명

미네르바

지도교수

김민호 교수님

개발기간

2020년 3월 ~ 2020년 6월 (총 4개월)

구성원 소개

서울시립대학교 컴퓨터과학부 20159200** 소*진(팀장)

서울시립대학교 컴퓨터과학부 20169200** 정*희

서울시립대학교 컴퓨터과학부 20159200** 박*원

서울시립대학교 컴퓨터과학부 20159200** 이*구

서울시립대학교 컴퓨터과학부 20159200** 지*원

서론

개발 과제의 개요

개발 과제 요약

MINE-POST는 인공지능의 보조를 통한 가짜뉴스 사이트이다. 핵심 기능은 다음과 같다.

  1. Fine-Tuning을 통해 구현된 다양한 글 스타일 모델(뉴스, 소설, 노래)을 사용할 수 있다.
  2. 기사 제목을 입력하면 이후에 올 적합한 단어들을 Ajax를 통해 실시간으로 추천한다.
  3. 사용자가 문장을 입력하면 인공지능이 맥락에 맞는 한 단락의 문장을 완성한다.
  4. 완성된 기사는 TextRank 알고리즘을 통해 3줄 요약하여 기사 상단에 보여준다
  5. 기사에 어울리는 이미지들을 Selenium을 통해 크롤링하여 제공한다.

개발 과제의 배경

- 가짜뉴스는 진짜뉴스를 뛰어넘을 만큼 많이 존재하며 이로 인한 국가, 경제적 피해가 심각하다.

- 하지만 미국 증권가의 AI Journalism은 속도나 객관성에서 사람을 뛰어넘을 만큼 큰 잠재력을 가졌다.

- 양날의 검인 글쓰기 모델을 올바르게만 사용한다면 훌륭한 글쓰기 보조도구가 될 것이다.

- 그래서 우리는 인공지능이 뉴스 작성을 보조해주는 기계+인간 협업 형태의 새로운 뉴스 사이트를 제시한다.

개발 과제의 목표 및 내용

- Pre-Traning상태인 GPT-2 모델에 대하여 Fine-Tuning을 거쳐 뉴스 사이트에 적합한 형태로 학습 시킨다.

- 아래 제시한 인공지능의 핵심 보조 기능들에 대하여 구현한다.

1. 다양한 글 스타일 모델(뉴스, 소설, 노래) 사용
2. 실시간 제목 추천
3. 인공지능 자동 글쓰기
4. Text-Rank 기사 3줄 요약
5. 크롤링을 통한 이미지 추천

mxnet == 1.6.0

sentencepiece >= 0.1.85

torch == 1.5.0

transformers == 2.11.0

django_extensions==2.2.9

selenium==3.141.0

Django==3.0.7

minegpt2

개념설계안

1. 웹 클라이언트가 Django에서 제공하는 웹 서버(Django WSGI)에 HTTP 프로토콜로 요청하게 된다.

2. CSS, JS, Img파일 등은 ‘static’ 폴더에 따로 관리되어 html이나 Python 코드와 달리 Django를 거치지 않고서도 서버가 바로 처리할 수 있다.

3. 동적인 부분은 웹 서버가 처리 불가능하기 때문에 HTTP 프로토콜 요청을 Python 요청으로 변환하여 Django에 전달한다.

4. Django는 사용자가 Python으로 작성한 어플리케이션 코드를 실행하거나 DB에서 데이터를 불러온다.

상세설계 내용

1. 모델 학습 및 적용

1.1 KoGPT2 사용

- SKT-AI가 Git Open source로 공개한 KoGPT2 모델 사용 (https://github.com/SKT-AI/KoGPT2)

- 2500만 뉴스 데이터로 Pre-Training 상태이기 때문에 "..한다", "..하다" 형태의 기사 문체 및 맥락 없는 문장 생성하는 문제점 발생

- Fine-Tuning 필요 (이미 학습된 모델 Weights를 목적에 맞게 변형하는 2차 학습 과정)

1.2 Fine-Tuning

- PyTorch 사용

- Google 'Colab' GPU 환경에서 진행

- Object Function: Cross Entropy Loss

- Optimizer: Adam

1) 학습 데이터 준비

- 인터넷에서 무료로 제공하는 김동인 작가의 단편 소설을 사용

2) 파일 경로 설정

- cache_dir : SK에서 제공하는 모델 경로

- save_path : 학습을 마친 후 결과물인 tar파일을 저장할 경로

- data_file_path : 학습할 데이터 경로 (다운 받은 소설이나 기타 등등)

3) 변수 설정

- SK에서 제공하는 모델로 model과 vocab 변수를 설정한다.

- 이 부분은 Fine-Tuning을 진행하지 않고 문장만 생성하려 할 때도 필요한 부분이다.

- epoch, learning_rate, batch_size를 설정한다.(바꿔보면서 할 수 있음)

4) 학습 진행

1. 소설 파일 등에 공백인 줄이 있는 경우엔 학습이 진행되지 않아 설정

2. Count가 10의 배수가 될 때마다 현재 진행 중인 epoch, train no, loss를 출력

3. Count가 100의 배수가 되거나 일정 조건에서 학습한 내용을 저장

4. 짧은 문장들이 많은 경우(노래 가사) 또는 학습할 데이터의 크기가 너무 큰 경우 RuntimeError 발생

GPU가 아닌 CPU로 진행 할 경우 문제 해결이 가능하나 그러기엔 학습 속도가 너무 느림

짧은 문장들을 합쳐 긴 문장들로 바꾼 후 학습을 진행했을 때 loss가 잘 줄어드는 것을 확인 후 문제 해결

1.3 Multi-Model 구축

1) Fine-Tuning 완료시 약 1~2GB의 tar 파일 생성

2) 해당 모델의 경로를 변수를 통해 설정하면 정상적으로 적용 가능

2. 이미지 크롤링

목적

- 제목 값을 입력으로 받아 Selenium을 통해 구글 이미지 크롤링 시스템을 구현한다.

요구사항 및 구현

- txt 값을 입력으로 받을 수 있게 한다.

- 이미지 URL을 이용하여 사진을 받을 수 있게 한다.

- 이미지를 긁어와 개별적인 폴더를 구성할 수 있게 한다.

- 이미 존재하는 폴더가 있는 경우 선택적으로 재검색을 수행할 수 있게 한다.

주요 함수

class CollectLinks

- def get_scroll(self) : 자동 스크롤 기능

- def wait_and_click(self, xpath) : 오류 발생 시 2초 간 sleep

- def highlight(self, element) : google_full에서 이미지가 체크된 곳에 하이라이트 표시

- def remove_duplicates(_list) : 중복 제거

- def google(self, keyword, add_url=””) : 썸네일 가져오기

- def google_full(self, keyword, add_rurl) : 원본 사진 가져오기

실행 결과

- 키워드를 입력 받으면 OS를 탐지하고, 구글에서 이미지를 검색한다.

- 스크롤은 4페이지 이내만 수행하고, 최대 10장의 사진만 저장하도록 동작한다.

- robotx.txt에서 크롤링을 허가하지 않은 홈페이지에 게재된 파일의 경우 스크롤을 진행하지 않는다.

- 열 장의 사진에서 URL을 입력 받아 원본 사진을 크롤링 한다.

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

1. 메인 페이지

헤드라인 뉴스
- 전체 뉴스 최신순

카테고리별 뉴스
- 카테고리별 최신순

투데이 랭킹
- 스크랩 기반 순위
- 우측 사이드바 위치

2. 글쓰기 페이지

글 스타일 (핵심 1)
- 다양한 스타일의 멀티모델 사용 가능

실시간 단어 추천 (핵심 2)
- 더 나은 제목을 위한 단어 추천

기사 자동 완성 (핵심 3)
- 첫 문장과 연결되는 문장 완성

이미지 추천 (핵심 4)
- 구글 이미지 크롤링을 통해 제공

3. 카테고리별 페이지

핫이슈
- 카테고리 최다 스크랩 기사

뉴스 리스트
- 10개 단위 페이지네이션

4. 스크랩 페이지

스크랩 글 조회

스크랩 삭제
- 체크박스 통한 복수 삭제 가능

5. 뉴스 상세 페이지

요약 봇 (핵심 5)
- Text-Rank 통한 기사 3줄 요약

스크랩
- 스크랩 페이지에 추가

댓글
- Disqus API 사용

포스터

완료작품의 평가

향후계획

- React 라이브러리를 통한 반응형 웹 제작

- 안드로이드 어플리케이션 형태로 이식

- 웹 호스팅 서비스

- 키워드 자동 크롤링을 통하여 자동으로 기사 쓰기

- 사용자가 직접 학습시킬 수 있는 웹 기반 머신러닝

- SNS 기반 로그인 API

- 자유게시판을 통한 유저간의 소통 및 글쓰기 모델 체험

- GPT-2보다 향상된 성능의 NLP 모델 사용하기

@@ 280번째 줄: / 280번째 줄: @@
 ====개발 일정====
-[[파일:Example.jpg]]
+[[파일:미네르바 개발일정.JPG|600픽셀]]
 <br>
 <br>
@@ 286번째 줄: / 286번째 줄: @@
 ====구성원 및 추진체계====
-[[파일:Example.jpg]]
+[[파일:미네르바 역할분담.JPG|600픽셀]]
 <br>
 <br>
@@ 294번째 줄: / 294번째 줄: @@
 ====제품의 요구사항====
-[[파일:Example.jpg]]
+[[파일:미네르바 요구사항.JPG|700픽셀]]
 <br>
 <br>
@@ 326번째 줄: / 326번째 줄: @@
 ===개념설계안===
-[[파일:Example.jpg]]
+[[파일:미네르바 시스템구조.JPG|700픽셀]]
 . 웹 클라이언트가 Django에서 제공하는 웹 서버(Django WSGI)에 HTTP 프로토콜로 요청하게 된다.
@@ 349번째 줄: / 349번째 줄: @@
 - 2500만 뉴스 데이터로 Pre-Training 상태이기 때문에 "..한다", "..하다" 형태의 기사 문체 및 맥락 없는 문장 생성하는 문제점 발생
-- Fine-Tuning이 필요
+- Fine-Tuning 필요 (이미 학습된 모델 Weights를 목적에 맞게 변형하는 2차 학습 과정)
 <br>
 <br>
@@ 356번째 줄: / 356번째 줄: @@
 - PyTorch 사용
+- Google 'Colab' GPU 환경에서 진행
 - Object Function: Cross Entropy Loss
 - Optimizer: Adam
+<br>
+<br>
+'''1) 학습 데이터 준비'''
+- 인터넷에서 무료로 제공하는 김동인 작가의 단편 소설을 사용
+'''2) 파일 경로 설정'''
+[[파일:미네르바 상세1.JPG]]
+- cache_dir : SK에서 제공하는 모델 경로
+- save_path : 학습을 마친 후 결과물인 tar파일을 저장할 경로
+- data_file_path : 학습할 데이터 경로 (다운 받은 소설이나 기타 등등)
+'''3) 변수 설정'''
+[[파일:미네르바 상세2.JPG]]
+- SK에서 제공하는 모델로 model과 vocab 변수를 설정한다.
+- 이 부분은 Fine-Tuning을 진행하지 않고 문장만 생성하려 할 때도 필요한 부분이다.
+- epoch, learning_rate, batch_size를 설정한다.(바꿔보면서 할 수 있음)
+'''4) 학습 진행'''
-[[파일:Example.jpg]]
+[[파일:미네르바 상세3.JPG]]
-- 소설에 대한 학습은 정상 진행. 그러나 버스커
+. 소설 파일 등에 공백인 줄이 있는 경우엔 학습이 진행되지 않아 설정
-- 문제점 4개
+. Count가 10의 배수가 될 때마다 현재 진행 중인 epoch, train no, loss를 출력
-- 문제점 4개
+. Count가 100의 배수가 되거나 일정 조건에서 학습한 내용을 저장
-- 문제점3
+. 짧은 문장들이 많은 경우(노래 가사) 또는 학습할 데이터의 크기가 너무 큰 경우 RuntimeError 발생
-- 문제점 4
+GPU가 아닌 CPU로 진행 할 경우 문제 해결이 가능하나 그러기엔 학습 속도가 너무 느림
+짧은 문장들을 합쳐 긴 문장들로 바꾼 후 학습을 진행했을 때 loss가 잘 줄어드는 것을 확인 후 문제 해결
+<br>
+<br>
+[[파일:미네르바 상세4.JPG]]
+<br>
 <br>
 <br>
@@ 377번째 줄: / 418번째 줄: @@
 '''1.3 Multi-Model 구축'''
-- ㅇㅇ
+[[파일:미네르바 상세5.JPG]]
-- ㅇㅇ
+) Fine-Tuning 완료시 약 1~2GB의 tar 파일 생성
-- ㅇㅇ
+) 해당 모델의 경로를 변수를 통해 설정하면 정상적으로 적용 가능
 <br>
 <br>
-'''2. 기사 3줄 요약'''
-'''2.1 Text-Rank 알고리즘 기반'''
+'''2. 이미지 크롤링'''
-<br>
-<br>
+'''목적'''
+- 제목 값을 입력으로 받아 Selenium을 통해 구글 이미지 크롤링 시스템을 구현한다.
+'''요구사항 및 구현'''
+- txt 값을 입력으로 받을 수 있게 한다.
+- 이미지 URL을 이용하여 사진을 받을 수 있게 한다.
+- 이미지를 긁어와 개별적인 폴더를 구성할 수 있게 한다.
+- 이미 존재하는 폴더가 있는 경우 선택적으로 재검색을 수행할 수 있게 한다.
+'''주요 함수'''
+class CollectLinks
+- def get_scroll(self) : 자동 스크롤 기능
+- def wait_and_click(self, xpath) : 오류 발생 시 2초 간 sleep
+- def highlight(self, element) : google_full에서 이미지가 체크된 곳에 하이라이트 표시
+- def remove_duplicates(_list) : 중복 제거
+- def google(self, keyword,   add_url=””) : 썸네일 가져오기
+- def google_full(self, keyword,   add_rurl) : 원본 사진 가져오기
-'''3. 이미지 크롤링'''
-'''1.1 KoGPT2 사용'''
+'''실행 결과'''
-==결과 및 평가==
+[[파일:미네르바 상세6.JPG]]
-===완료 작품의 소개===
-====프로토타입 사진 혹은 작동 장면====
-'''1. 메인페이지'''
-[[파일:Example.jpg]]
+[[파일:미네르바 상세7.JPG]]
-- ㅇㅇㅇ
+- 키워드를 입력 받으면 OS를 탐지하고, 구글에서 이미지를 검색한다.
-ㅇㅇㅇㅇㅇㅇ
+- 스크롤은 4페이지 이내만 수행하고, 최대 10장의 사진만 저장하도록 동작한다.
-- ㅇㅇㅇ
+- robotx.txt에서 크롤링을 허가하지 않은 홈페이지에 게재된 파일의 경우 스크롤을 진행하지 않는다.
-ㅇㅇㅇㅇㅇㅇ
+- 열 장의 사진에서 URL을 입력 받아 원본 사진을 크롤링 한다.
-- ㅇㅇㅇ
+==결과 및 평가==
+===완료 작품의 소개===
-ㅇㅇㅇㅇㅇㅇ
+====프로토타입 사진 혹은 작동 장면====
-<br>
 <br>
-'''1. 메인페이지'''
+'''1. 메인 페이지'''
-[[파일:Example.jpg]]
+[[파일:미네르바 메인페이지.JPG|800픽셀]]
-- ㅇㅇㅇ
+* '''헤드라인 뉴스'''
-ㅇㅇㅇㅇㅇㅇ
+** 전체 뉴스 최신순
-- ㅇㅇㅇ
+* '''카테고리별 뉴스'''
-ㅇㅇㅇㅇㅇㅇ
+** 카테고리별 최신순
-- ㅇㅇㅇ
+* '''투데이 랭킹'''
-ㅇㅇㅇㅇㅇㅇ
+** 스크랩 기반 순위
+** 우측 사이드바 위치
 <br>
 <br>
-'''1. 메인페이지'''
+'''2. 글쓰기 페이지'''
+[[파일:미네르바 글쓰기상단.JPG|800픽셀]]
+[[파일:미네르바 글쓰기하단.JPG|800픽셀]]
-[[파일:Example.jpg]]
+* '''글 스타일 (핵심 1)'''
+** 다양한 스타일의 멀티모델 사용 가능
-- ㅇㅇㅇ
+* '''실시간 단어 추천 (핵심 2)'''
-ㅇㅇㅇㅇㅇㅇ
+** 더 나은 제목을 위한 단어 추천
-- ㅇㅇㅇ
+* '''기사 자동 완성 (핵심 3)'''
-ㅇㅇㅇㅇㅇㅇ
+** 첫 문장과 연결되는 문장 완성
-- ㅇㅇㅇ
+* '''이미지 추천 (핵심 4)'''
-ㅇㅇㅇㅇㅇㅇ
+** 구글 이미지 크롤링을 통해 제공
 <br>
 <br>
-'''1. 메인페이지'''
+'''3. 카테고리별 페이지'''
-[[파일:Example.jpg]]
-- ㅇㅇㅇ
+[[파일:미네르바 카테고리별.JPG|800픽셀]]
-ㅇㅇㅇㅇㅇㅇ
-- ㅇㅇㅇ
+* '''핫이슈'''
-ㅇㅇㅇㅇㅇㅇ
+** 카테고리 최다 스크랩 기사
-- ㅇㅇㅇ
+* '''뉴스 리스트'''
-ㅇㅇㅇㅇㅇㅇ
+** 10개 단위 페이지네이션
 <br>
 <br>
-'''1. 메인페이지'''
+'''4. 스크랩 페이지'''
-[[파일:Example.jpg]]
+[[파일:미네르바 스크랩페이지.JPG|800픽셀]]
-- ㅇㅇㅇ
+* '''스크랩 글 조회'''
-ㅇㅇㅇㅇㅇㅇ
-- ㅇㅇㅇ
+* '''스크랩 삭제'''
-ㅇㅇㅇㅇㅇㅇ
+** 체크박스 통한 복수 삭제 가능
-- ㅇㅇㅇ
-ㅇㅇㅇㅇㅇㅇ
 <br>
 <br>
-'''1. 메인페이지'''
+'''5. 뉴스 상세 페이지'''
-[[파일:Example.jpg]]
+[[파일:미네르바 뉴스상세.JPG|800픽셀]]
-- ㅇㅇㅇ
+* '''요약 봇 (핵심 5)'''
-ㅇㅇㅇㅇㅇㅇ
+** Text-Rank 통한 기사 3줄 요약
-- ㅇㅇㅇ
+* '''스크랩'''
-ㅇㅇㅇㅇㅇㅇ
+** 스크랩 페이지에 추가
-- ㅇㅇㅇ
+* '''댓글'''
-ㅇㅇㅇㅇㅇㅇ
+** Disqus API 사용
 <br>
 <br>
@@ 494번째 줄: / 560번째 줄: @@
 ====포스터====
-[[파일:Example.jpg]]
+[[파일:미네르바 포스트.JPG|600픽셀]]
+<br>
+<br>
 ===완료작품의 평가===
-내용
+[[파일:미네르바 완료작품평가.JPG|800픽셀]]
+<br>
+<br>
 ===향후계획===

"미네르바"의 두 판 사이의 차이

2020년 6월 28일 (일) 10:36 기준 최신판

목차

프로젝트 개요

기술개발 과제

과제 팀명

지도교수

개발기간

구성원 소개

서론

개발 과제의 개요

개발 과제 요약

개발 과제의 배경

개발 과제의 목표 및 내용

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

시장상황에 대한 분석

개발과제의 기대효과

기술적 기대효과

경제적, 사회적 기대 및 파급효과

기술개발 일정 및 추진체계

개발 일정

구성원 및 추진체계

설계

설계사양

제품의 요구사항

설계 사양