살아서나가자

cdc wiki
살아서나가자 (토론 | 기여)님의 2020년 6월 24일 (수) 21:59 판
이동: 둘러보기, 검색

프로젝트 개요

기술개발 과제

국문 : 머신러닝을 이용한 실시간 주식 추천 서비스

영문 : Real-time Stock Recommendation System with Machine Learning

과제 팀명

살아서나가자

지도교수

김진석 교수님

개발기간

2020년 3월 ~ 2020년 6월 (총 4개월)

구성원 소개

서울시립대학교 컴퓨터과학부 2016920022 안*(팀장)

서울시립대학교 컴퓨터과학부 2016920004 권*진

서울시립대학교 컴퓨터과학부 2012920024 박*진

서론

개발 과제의 개요

개발 과제 요약

  • 실시간으로 뉴스 자료를 수집하고, 머신러닝 기반으로 데이터를 분석한다.
  • 데이터를 분석한 결과를 활용하여 인기있는 상승주와 유사한 종목을 추천한다.

개발 과제의 배경

기계학습의 빠른 발전 아래 오늘날 기계 학습은 우리 주변의 모든 곳에 존재한다. 구글홈을 통해 전등과 TV를 끄고 페이스북에서 사진을 올렸을 때 플랫폼은 우리의 얼굴에 태그를 붙일 것을 제안한다. 기계 학습은 비단 기술 기기에만 국한 되는 것이 아니다. 최근 몇 년 사이 금융업계 내에서 기계학습이 주류가 되었다. 특히 개인의 투자 전략에 맞춰 주식 종목을 추천하거나 자동으로 주식을 매매하는 서비스 등 주식시장에서의 사용이 증가하고 있다. 주식 거래 과정은 거래자들이 결정을 내리기 위해 기술적 지표부터 기초적 정보를 바탕으로 한다. 이처럼 복잡한 과정을 기계학습을 통해 대량의 데이터를 분석하여 유의한 패턴을 찾아내고 거래자들을 탐색하여 예측 자산 가격을 측정하는 등의 과정을 대신할 수 있기 때문에 주식 투자분야에서의 잠재력은 크다고 할 수 있다. 하지만 주식 투자 경험이 부족한 사람의 경우 맞춤형 서비스를 이용하는 것에 종목에 대한 이해와 배경 지식의 부족 등으로 많은 어려움을 겪게 된다. 따라서 본 프로젝트에서는 주식 종목에 대한 설명과 종목별 뉴스 자료를 수집 및 가공하여 필요한 정보를 제공하는 프로그램을 개발한다. 서비스 이용자의 주 고객은 초보 투자자이며, 직접 종목에 대한 자료를 조사하지 않고 자동으로 추천된 결과물로 주식 투자를 할 수 있을 것으로 기대된다.

개발 과제의 목표 및 내용

  • 초보 주식 투자자들의 시선에 맞는 서비스를 제공하는 것을 목표로 한다.
  • 주식 용어, 상승주, 태그를 이용한 실시간 주식 추천 기능을 포함한 웹 사이트를 만든다
  • 주식 종목을 선택해서 해당 종목의 세부 정보를 확인할 수 있으며, 해당 페이지에서는 유사한 종목들이 추천된다.

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

  • 전 세계적인 기술현황

자연어처리 NLP, natural language processing) 시장의 분류

1. 정보추출

포털사이트에서 사용자가 검색하는 행위는 사실 시스템에 데이터를 제공하는 것이다. 또한 검색 결과 중 하나를 클릭하면 시스템은 이 정보를 이용해 향후 검색에 사용하여 검색 정확도를 높인다.

[그림1]

2019년 10월 25일 공개된 딥러닝 알고리즘으로 광범위한 자연어 처리잡업에서 단어의 뉘앙스와 문맥을 이해하여 유용한 검색결과를 보인다. 또한 특정 검색어가 포함되어도 편향성이 증가하지 않도록 설계했다고 구글은 밝혔다. BERT 알고리즘을 사용한 구글의 검색 서비스는 미국, 영어를 시작으로 지난해 24개 국가의 다양한 언어 및 지역에서 텍스트 발췌를 통해 개선진행 중이다. 한국어, 힌두어, 포르투갈어에서 지난 서비스보다 상당히 향상되었다고 밝혔다.

2. 질문답변

SLACK, Microsoft messenger, 기타 언어를 읽을 수 있는 챗 프로그램과 결합한 후 키워드를 말하면 챗봇이 활성화 된다. 예를 들어 기가지니의 경우 키워드는 ‘기가지니’로, 챗봇에는 자연어 처리 프로그램이 뒤에 숨어 상시 구동되며 키워드를 기다리고 있다.

[그림2]

- 챗봇의 종류

- 탈라: 회사 내규를 자체 검색하여 직장 관련 질문에 답한다. 예를 들어 이때까지 사용한 연차의 수나, 경리과의 전화번호 등을 질문할 수 있다.
- 세컨드마인드: 음성 검색 신생벤처로 통화 도중 음성 검색을 가능하게 하여 회계 업무 및 고객 리소스 콜 시간을 약 10배 감소시켰다고 한다.

3. 감정 분석 및 기타 (스팸인식 및 언어감지)

- 맞춤법 검사 기능: 타이핑한 단어와 사전에 등록된 단어를 대조하여 맞춤법을 검사한다.

- 메일 분류: Gmail 혹은 Outlook 과 같은 앱들은 NLP기술을 이용해 특정 발신자로부터의 이메일을 지정된 폴더에 자동으로 옮겨준다.

- 정서분석(sentiment analysis): 인스타그램, 페이스북 등의 소셜미디어에 올라온 기업관련 글들을 파악해 정서를 분석해준다. 단순 단어로부터 긍정 부정을 분류하는 것이 아니라 맥락을 고려하여 슬픔, 화, 공포와 같은 구체적인 감정을 파악함으로써 고객의 요구사항 처리를 돕는다.

[그림3]

감정분석은 그림에서와 같이 classification 과정으로 분류될 수 있다. 분류 단계로는 Document-level, sentence-level, aspect-level가 있다. Document-level에서는 문서가 긍정 혹은 부정적 의견 혹은 감정을 포함하고 있는 지를 분석해 내는 것을 목표로 한다. 이는 문서 전체를 하나의 정보 유닛으로 간주한다. sentence-level 에서는 각 문장의 감정을 분석한다. 먼저 문장이 객관적인지 주관적인지를 분석해서, 주관적일 경우 긍정 인지 부정인지를 결정한다. 하지만 문장 또한 짧은 문서이므로 Document-level 과 sentence-level에는 근본적으로 차이점이 없다. Aspect-level은 한 개체( 핸드폰, 카메라 등) 의 다양한 특징과 특성에 대한 의견 혹은 감정을 예측한다.

국내 시장 상황

1. 코버트 (KorBERT)

한국전자통신연구원이 공개한 한국어 언어모델로, 언어처리를 위해 구글의 언어모델 버트(BERT)를 사용하였다. 이는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 한국어 처리 태스크에서 구글이 배포한 한국어 언어모델과 비교 평가한 결과 평균 4.5% 성능 우수하다.

[그림4]

2. 카이 (khaiii)

카카오가 제공하는 딥러닝(CNN) 기반 형태소분석기 오픈소스이다. 2개 이상의 글자로 이뤄진 단어 혹은 문장을 입력할 경우 형태소 단위로 자동으로 분리하는 기술이다. 예를 들면 '학교에 간다'라고 입력하면 '학교/명사+ 에/조사+ 가/동사+ ㄴ다/어미' 로 형태소 단위와 품사를 파악해 분류한다. 딥러닝 과정에서 C++를 적용해 일반적으로 딥러닝에 쓰이는 GPU(그래픽처리장치)를 사용하지 않고도 빠른 분석 속도를 구현했다.

[그림5]

3. AIQSpell

네이버가 제공하는 검색어 교정 시스템으로 오타가 발생했을 가능성, 순서가 뒤집혔을 가능성, 그리고 사용자가 많이 찾는 검색어일 가능성 등을 조합해 추천 검색어 후보들의 최종 점수를 계산하여 적절한 검색어를 제공한다.

4. 코쿼드 2.0 (KorQuAD 2.0)

LG CNS가 국내 최초로 국내AI업계에 무료로 개방한 AI학습용 표준데이터이다. 한국어 표준데이터를 7만개에서 10개로 확대하여 장문의 답변이 가능하도록 데이터를 강화한 것이다.


  • 특허조사 및 특허 전략 분석
- 특허조사
◇ 신용진, 사주 정보를 기반으로 한 주식 종목 추천 시스템 (Stock recommendation system based on stock information)  1020233670000.  2018.01.26. , 2019.09.16. 
◇ 주식회사 코스콤, 유사 성향 고객의 투자 패턴을 이용한 주식 종목 추천 방법 및 이를 이용한 시스템 (A method of recommending stock items using investment patterns of clients having similar tendency and system thereof) 1020005190000.  2017.10.27. , 2019.07.10.
◇ 유안타증권 주식회사, 주식 종목 추천 시스템 (Stock Recommandation System)  1015995760000  2013.03.12. , 2016.02.25.
◇ 오영주, 야구용어, 기술분석 및 기본분석을 이용한 주식종목 선정 시스템 및 방법 (Stocks selection system using baseball terms, technical and fundamental analysis, and method thereof)  1020180010154 2017.07.18. , 2018.01.30.
- 특허전략
◇ 관련 분야 특허시장에서는 현재 빅데이터 활용 사례가 많다. 이때 비교적 적은 규모의 자연어처리시장을 공략한다.
◇ 특허 출원 된 자연어처리를 활용한 유사 소프트웨어의 기술을 선행 조사한다.
◇ 유사 소프트웨어와의 차별점을 특정하여 특허 출원을 할 수 있다.
◇ 제공하는 서비스에 있어 선택과 집중을 통해 질적 성장을 최우선으로 한다.
  • 기술 로드맵

[그림6]

시장상황에 대한 분석

  • 경쟁제품 조사 비교

내용

  • 마케팅 전략 제시

내용

개발과제의 기대효과

기술적 기대효과

내용

경제적, 사회적 기대 및 파급효과

내용

기술개발 일정 및 추진체계

개발 일정

내용

구성원 및 추진체계

내용

설계

설계사양

제품의 요구사항

내용

설계 사양

내용

개념설계안

내용

이론적 계산 및 시뮬레이션

내용

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

관련사업비 내역서

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용