"집단이기주의"의 두 판 사이의 차이
(→개발 과제 요약) |
(→관련 기술의 현황 및 분석(State of art)) |
||
42번째 줄: | 42번째 줄: | ||
====관련 기술의 현황 및 분석(State of art)==== | ====관련 기술의 현황 및 분석(State of art)==== | ||
*전 세계적인 기술현황 | *전 세계적인 기술현황 | ||
− | + | 1.Augmented Analytics(증강 분석) | |
+ | 증강 분석은 통계 및 언어 기술을 사용해 데이터 분석에서 데이터 공유 및 Business Intelligence에 이르기까지의 데이터 관리 성능을 향상시킨다. 이 기능은 빅데이터를 좀 더 유용한 Data set으로 변환해 주는 능력과 같은 맥락이다. 데이터 분석 소프트웨어는 머신 러닝과 NLP를 사용하여 사람이 하는 것처럼 대규모로 데이터를 분석해 상호 작용한다. 이러한 작업은 데이터 수집 및 준비에 대부분의 시간이 소비된다. 증강 분석의 목표는 시간 절약을 위해 데이터 수집 및 데이터 준비 프로세스를 자동화하는 것이긴 하나, 증강 분석의 실제 궁극적 목표는 데이터 과학 팀을 AI로 완전히 대체하여 일반인들도 쉽게 이용 가능하게 하는 것이다. | ||
+ | |||
+ | 2. Continuous intelligence(지속적 지능화) | ||
+ | 실시간 분석이 비즈니스 운영에 통합되는 설계 패턴으로, 현재와 과거의 데이터를 처리해 사건에 대응하는 행동을 정한다. 이는 의사 결정을 자동화하거나 지원한다. CI는 사물 인터넷 장치와 함께 사용하면 기업이 IoT 분석을 사용하는 방식을 크게 변화시킬 것이라고 언급되고 있다. CI는 IoT 분석 시장에서 통합되어 실시간으로 고급 분석을 수행할 수 있게 한다. 스트리밍 분석 및 스트리밍 기술의 등장 및 확장으로 인해 IoT 데이터에서 지속적으로 가치를 분석하고 추출 할 수 있는 능력이 커지고 있다. CI는 의사 결정 자동화 또는 의사 결정 지원을 제공한다. CI는 증강 분석, 이벤트 스트림 처리, 최적화 등 여러 기술을 활용한다. CI는 의사 결정 알고리즘에서보다 관련성 높은 실시간 데이터를 포함하기 때문에 광범위한 운영 의사 결정에서보다 더 나은 결과를 제공한다. 개인은 ms단위로 대량의 데이터를 이해할 수 있으므로 더 많은 대안을 보다 자세하게 평가할 수 있다. | ||
+ | |||
+ | 3. Federal Machine Learning (연합 기계 학습) | ||
+ | 분산된 환경에서 사용자의 데이터를 중앙 서버에서 학습하지 않고 개인의 휴대폰에서 모델을 학습한다. 그리고 학습된 결과를 중앙 서버에서 취합한 후, 개선된 공통 모델을 생성하는 기술이다. 연산 속도 증가뿐만 아니라 정보 보안 측면에서 우수한 성능을 보인다. 개인의 데이터를 중앙 서버에 업로드 시키는 과정에서 개인 정보가 유출되고 이를 악용할 수 있기 때문이다. 스마트폰은 사용량에 따라 기계학습 모델을 개인의 휴대폰에서 사용자의 특성에 맞게 학습하고, 이후 많은 사용자의 학습 내용이 중앙 서버에 저장된다. 서버에서는 개인들이 학습한 모델을 바탕으로 더 정교한 학습 모형을 만드는 방향으로 진행된다. | ||
+ | |||
*특허조사 및 특허 전략 분석 | *특허조사 및 특허 전략 분석 | ||
− | + | 1. 양방향 LSTM-ATTENTION 기반 한국어 게시글 분류 방법 (국제특허분류 G06F 40/20) | |
+ | |||
+ | -‘단어의 흐름’을 바탕으로 카테고리 분류를 하기에 적합한 알고리즘인 LSTM을 기준으로 양방향 LSTM과 Attention을 활용한 한국어 게시글 분류 모델을 이용하여 한국어 게시글 등의 한국어 문서 분류에 적합한 게시글 분류 방법을 제공한다. | ||
+ | |||
+ | -한국어 비정형 데이터의 카테고리 자동 분류 방법 | ||
+ | ① 인터넷 게시판에 게시된 게시물로부터 비정형 데이터의 문자열을 수집하는 단계 | ||
+ | ② 수집된 비정형 데이터의 문자열에 대해 정보 추출 및 문자열 처리와, 문자 토큰과 처리를 포함하는 전처리를 수행하는 단계 | ||
+ | ③ 전처리된 벡터 표현을 양방향 LSTM 기반 분류기(또는 LSTM-Attention 결합 분류기)에 입력하는 단계 | ||
+ | ④ 양방향 LSTM 기반 분류기(또는 LSTM-Attention 결합 분류기)에 의해 게시물의 카테고리를 자동으로 분류하는 단계 | ||
+ | |||
+ | - 전처리 방법 | ||
+ | ① 텍스트 문서를 파싱하여 본문, 범주 정보를 추출하는 단계 | ||
+ | ② 문자열 내의 줄바꿈 문자, 특수 문자, 영어를 제외한 외국어 문자를 삭제하는 단계 | ||
+ | ③ 자동 띄어쓰기 및 WPM(Word Piece Model)을 적용하는 단계 | ||
+ | ③ Word2Vec 라이브러리를 활용하여 단어의 벡터 표현으로 변환하는 단계 | ||
+ | |||
+ | - 양방향 LSTM 분류기: 2개의 BasicLSTMCell(순방향, 역방향)을 이용하고, 순방향 BasicLSTMCell의 마지막 출력 값과 역방향 BasicLSTMCell의 마지막 출력 값을 결합하여 최종 카테고리 분 | ||
+ | 류에 사용하도록 구성된다. | ||
+ | |||
+ | - 양방향 LSTM-Attention 결합 분류기: 양방향 LSTM모델의 순방향 BasicLSTMCell의 출력 값들과 역방향 BasicLSTMCell의 출력 값들을 Attention 알고리즘에 넣어 가중치가 높은 정보들을 통해 나온 출력값을 최종 카테고리 분류에 활용하도록 구성된다. | ||
+ | |||
+ | 2. 다중 스레드 방식의 웹 크롤링 시스템 (국제특허분류 G06F 16/00) | ||
+ | - JCA(Java Client Application), JSA(Java Server Application), DB 서버, 웹서버로 구성되며, JCA와 JSA에 각자의 독립된 스레드를 세 개 이상 나뉘어 작업을 실행함으로써, 독립된 환경에서의 클라이언트가 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공하는 다중 스레드 방식의 웹 크롤링 시스템을 제공한다. | ||
+ | |||
+ | - 구성원의 역할 | ||
+ | ◾ JCA: 인터넷에서 URL 정보를 탐색, 수집한 데이터를 정형화된 정보로 가공한 후, JSA에게 전송한다. | ||
+ | ◾ JSA: JCA들을 관리하고, JCA로부터 받은 정보를 DB 서버에 전송하는 역할을 한다. | ||
+ | ◾ DB 서버: JSA로부터 받은 정보를 저장하고 웹 서버로부터 요청받은 정보를 전송한다. | ||
+ | ◾ 웹 서버: 사용자가 필요한 정보를 DB 서버에게 요청하고 응답받은 정보를 가공하여 사용자에게 보여준다. | ||
+ | |||
+ | - JCA는 스레드 1B, 스레드 1C를 생성하고, JSA에 연결을 요청하여 연결되면 스레드 1A를 생성한다. 스레드 1A는 전송받은 Topic URL로 접속하여 수집할 데이터의 URL을 생성하고 URL Queue Table에 저장한다. 스레드 1B는 URL Queue Table로부터 Data URL을 로드하여 탐색‧수집‧가공 후 Data Queue Table에 저장한다. 스레드 1C는 Data Queue Table을 체크하여 null이 아닐 경우 암호화하여 JSA에게 전송한다. | ||
+ | |||
+ | - JSA는 스레드 2A, 스레드 2B, 스레드 2C를 생성한다. 스레드 2A는 Root URL을 탐색하여 Topic URL을 생성하고, 생성한 Topic URL을 URL Queue Table에 저장한다. 스레드 2B는 Data Queue Table을 체크하여 null이 아닌 경우 데이터를 로드 후 DB 서버에 전송한다. 스레드 2C는 JSA가 접속하면 스레드 2D를 생성한다. 스레드 2D는 JSA를 관리하고 데이터를 송/수신하며 JSA로부터 수신받은 데이터가 암호문일 경우 복호화하여 Data Queue Table에 저장한다. | ||
+ | |||
*기술 로드맵 | *기술 로드맵 | ||
− | |||
====시장상황에 대한 분석==== | ====시장상황에 대한 분석==== |
2020년 6월 26일 (금) 03:40 판
프로젝트 개요
기술개발 과제
국문 : 의료 정보 제공 어플, 핸디 메디
영문 : Handy-Medi
과제 팀명
집단이기주의
지도교수
이병정 교수님
개발기간
2020년 3월 ~ 2020년 6월 (총 4개월)
구성원 소개
서울시립대학교 컴퓨터과학부 20**9200** 문상화
서울시립대학교 컴퓨터과학부 20**9200** 안나현
서울시립대학교 컴퓨터과학부 20**9200** 정수정
서론
개발 과제의 개요
개발 과제 요약
- 의료 정보를 쉽게 얻을 수 있는 application을 제작하고자 한다. 핸디메디(Handy-medi)는 내 손 안의 의료 정보라는 의미를 담아 결정된 개발 과제 및 application의 이름이다. 개발 과제에서 추구하는 바는 쉽고 편리하게 의료 정보를 볼 수 있게 하는 것, 신뢰할 수 있는 의료 관련 정보를 최대한 많이 제공하는 것이다. 현대인이 가장 자주 들여다보는 것이 스마트폰이므로 application으로 서비스를 제공하여 접근의 편리성을 높인다. 또한 공공데이터나 병원 사이트 등 신뢰할 수 있는 출처에서 데이터를 수집함으로써 데이터의 질과 양을 높인다. 궁극적으로 사용자들이 질병이나 복용하는 약에 대해 쉽게 알게 하고, 진료를 받거나 약을 처방받을 때 의문을 던지거나 불안감을 덜어낼 수 있도록 한다. 의약품, 질병, 병원정보 등의 지식을 알게 되고 스스로 확인해봄으로써 건강한 삶을 유지할 수 있다.
개발 과제의 배경
- 집단이기주의 팀 구성원들은 공통적으로 의료 사고나 부작용에 대한 걱정과 경각심을 가지고 있다. 이러한 불안감은 발생 가능한 부작용에 대해 충분히 전달받지 못했거나 진료한 의사가 병명을 정확히 알려주지 않아 처방받은 약품을 검색하여 알아본 경험 등에서 비롯된 것이다. 또한 팀 구성원들은 의료기사를 지나치지 않고 읽어본다. 의료기사를 읽으면서 느꼈던 것은 의료 정책, 관련 법, 보험 등에 대한 무지함이다. 결론적으로 의료 정보에 대해 모르는 것이 많고, 궁금한 것은 직접 검색하여 알아보는 것이 불편하다는 생각에서 개발 과제를 선정하게 되었다.
- 과거에 비해 인터넷에 존재하는 의료 정보가 증가하였지만 이 정보들은 하나의 페이지로 관리되지 않는다. 병원마다 자신들이 제공하고 싶은 질병, 증상, 치료법 등의 정보를 제공한다. 의료 정보들이 인터넷에 흩어져 있어서 검색 시 불편함이 존재하기 때문에 필요하다. 이렇게 흩어진 정보들을 수집하여 핸디메디에 집약시킨 후 사용자에게 제공한다. 사용자는 검색어를 달리하며 여러 페이지를 돌아다니지 않고 의료정보를 검색할 수 있다.
- 의약품, 질병, 증상 등의 의료 정보를 제공할 때 가장 중요한 것은 신뢰성이다. 즉, 사용자가 신뢰할 수 있는 데이터를 얻어서 제공하는 것이 중요한 과제이다. 이를 위해 관련 정보를 제공하는 페이지들을 둘러본 결과, 최초에 데이터가 개방된 이후 갱신 주기를 지키지 않아 최신 데이터가 아닐 수 있고, 공공데이터 포털에서 제공하는 의료 데이터들은 대부분이 서울, 경기도와 같은 주요지역 내의 현황으로 치우쳐져 있고, 질병과 같은 의료 전문 데이터를 제공하는 병원 페이지들은 이를 외부에서 가져다 사용할 수 없게 하는 등의 문제가 있었다. 의료 지식 접근의 불편함, 어려움이 개발 과제의 배경에도 개발에도 영향을 끼치는 것이다. 이러한 문제의 개선점은 정보 제공자에게 있다. 공공데이터 포털은 갱신 주기를 지키고, 작은 지역이라도 정보를 제공해야 하며, 병원이나 의학전문사이트들은 의료 정보를 보여 주는 것뿐만 아니라 가져다 쓸 수 있게 제공해야 한다.
개발 과제의 목표 및 내용
- 다양한 페이지에 존재하는 의료 정보를 최대한 많이 모아서 제공한다. 이때 신뢰할 수 있는 페이지들의 데이터만 수집한다. 의약품, 부작용, 증상, 질병, 병원 등의 질의 조건으로 사용자가 검색하면 수집한 데이터에서 관련된 내용을 찾아 사용자가 보기 편한 형태로 제공하는 기능을 개발한다.
- 사용자의 병원이나 약국 선택에 도움을 준다. 지도 상에서 위치 기반으로 사용자 주변의 병원이나 약국을 검색하는 기능, 같은 동네의 회원이 평가한 병원을 보여주는 기능, 회원들간 정보 공유 게시판을 개발한다.
- 사용자가 제시간에 약을 복용할 수 있도록 약품과 시간 설정이 가능한 복용 알람을 개발한다.
- 의료기사를 카테고리별로 분류하여 사용자가 관심있는 의료 기사만 선택해 볼 수 있는 기능을 개발한다.
관련 기술의 현황
관련 기술의 현황 및 분석(State of art)
- 전 세계적인 기술현황
1.Augmented Analytics(증강 분석) 증강 분석은 통계 및 언어 기술을 사용해 데이터 분석에서 데이터 공유 및 Business Intelligence에 이르기까지의 데이터 관리 성능을 향상시킨다. 이 기능은 빅데이터를 좀 더 유용한 Data set으로 변환해 주는 능력과 같은 맥락이다. 데이터 분석 소프트웨어는 머신 러닝과 NLP를 사용하여 사람이 하는 것처럼 대규모로 데이터를 분석해 상호 작용한다. 이러한 작업은 데이터 수집 및 준비에 대부분의 시간이 소비된다. 증강 분석의 목표는 시간 절약을 위해 데이터 수집 및 데이터 준비 프로세스를 자동화하는 것이긴 하나, 증강 분석의 실제 궁극적 목표는 데이터 과학 팀을 AI로 완전히 대체하여 일반인들도 쉽게 이용 가능하게 하는 것이다.
2. Continuous intelligence(지속적 지능화) 실시간 분석이 비즈니스 운영에 통합되는 설계 패턴으로, 현재와 과거의 데이터를 처리해 사건에 대응하는 행동을 정한다. 이는 의사 결정을 자동화하거나 지원한다. CI는 사물 인터넷 장치와 함께 사용하면 기업이 IoT 분석을 사용하는 방식을 크게 변화시킬 것이라고 언급되고 있다. CI는 IoT 분석 시장에서 통합되어 실시간으로 고급 분석을 수행할 수 있게 한다. 스트리밍 분석 및 스트리밍 기술의 등장 및 확장으로 인해 IoT 데이터에서 지속적으로 가치를 분석하고 추출 할 수 있는 능력이 커지고 있다. CI는 의사 결정 자동화 또는 의사 결정 지원을 제공한다. CI는 증강 분석, 이벤트 스트림 처리, 최적화 등 여러 기술을 활용한다. CI는 의사 결정 알고리즘에서보다 관련성 높은 실시간 데이터를 포함하기 때문에 광범위한 운영 의사 결정에서보다 더 나은 결과를 제공한다. 개인은 ms단위로 대량의 데이터를 이해할 수 있으므로 더 많은 대안을 보다 자세하게 평가할 수 있다.
3. Federal Machine Learning (연합 기계 학습) 분산된 환경에서 사용자의 데이터를 중앙 서버에서 학습하지 않고 개인의 휴대폰에서 모델을 학습한다. 그리고 학습된 결과를 중앙 서버에서 취합한 후, 개선된 공통 모델을 생성하는 기술이다. 연산 속도 증가뿐만 아니라 정보 보안 측면에서 우수한 성능을 보인다. 개인의 데이터를 중앙 서버에 업로드 시키는 과정에서 개인 정보가 유출되고 이를 악용할 수 있기 때문이다. 스마트폰은 사용량에 따라 기계학습 모델을 개인의 휴대폰에서 사용자의 특성에 맞게 학습하고, 이후 많은 사용자의 학습 내용이 중앙 서버에 저장된다. 서버에서는 개인들이 학습한 모델을 바탕으로 더 정교한 학습 모형을 만드는 방향으로 진행된다.
- 특허조사 및 특허 전략 분석
1. 양방향 LSTM-ATTENTION 기반 한국어 게시글 분류 방법 (국제특허분류 G06F 40/20)
-‘단어의 흐름’을 바탕으로 카테고리 분류를 하기에 적합한 알고리즘인 LSTM을 기준으로 양방향 LSTM과 Attention을 활용한 한국어 게시글 분류 모델을 이용하여 한국어 게시글 등의 한국어 문서 분류에 적합한 게시글 분류 방법을 제공한다.
-한국어 비정형 데이터의 카테고리 자동 분류 방법 ① 인터넷 게시판에 게시된 게시물로부터 비정형 데이터의 문자열을 수집하는 단계 ② 수집된 비정형 데이터의 문자열에 대해 정보 추출 및 문자열 처리와, 문자 토큰과 처리를 포함하는 전처리를 수행하는 단계 ③ 전처리된 벡터 표현을 양방향 LSTM 기반 분류기(또는 LSTM-Attention 결합 분류기)에 입력하는 단계 ④ 양방향 LSTM 기반 분류기(또는 LSTM-Attention 결합 분류기)에 의해 게시물의 카테고리를 자동으로 분류하는 단계
- 전처리 방법 ① 텍스트 문서를 파싱하여 본문, 범주 정보를 추출하는 단계 ② 문자열 내의 줄바꿈 문자, 특수 문자, 영어를 제외한 외국어 문자를 삭제하는 단계 ③ 자동 띄어쓰기 및 WPM(Word Piece Model)을 적용하는 단계 ③ Word2Vec 라이브러리를 활용하여 단어의 벡터 표현으로 변환하는 단계
- 양방향 LSTM 분류기: 2개의 BasicLSTMCell(순방향, 역방향)을 이용하고, 순방향 BasicLSTMCell의 마지막 출력 값과 역방향 BasicLSTMCell의 마지막 출력 값을 결합하여 최종 카테고리 분 류에 사용하도록 구성된다.
- 양방향 LSTM-Attention 결합 분류기: 양방향 LSTM모델의 순방향 BasicLSTMCell의 출력 값들과 역방향 BasicLSTMCell의 출력 값들을 Attention 알고리즘에 넣어 가중치가 높은 정보들을 통해 나온 출력값을 최종 카테고리 분류에 활용하도록 구성된다.
2. 다중 스레드 방식의 웹 크롤링 시스템 (국제특허분류 G06F 16/00) - JCA(Java Client Application), JSA(Java Server Application), DB 서버, 웹서버로 구성되며, JCA와 JSA에 각자의 독립된 스레드를 세 개 이상 나뉘어 작업을 실행함으로써, 독립된 환경에서의 클라이언트가 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공하는 다중 스레드 방식의 웹 크롤링 시스템을 제공한다.
- 구성원의 역할 ◾ JCA: 인터넷에서 URL 정보를 탐색, 수집한 데이터를 정형화된 정보로 가공한 후, JSA에게 전송한다. ◾ JSA: JCA들을 관리하고, JCA로부터 받은 정보를 DB 서버에 전송하는 역할을 한다. ◾ DB 서버: JSA로부터 받은 정보를 저장하고 웹 서버로부터 요청받은 정보를 전송한다. ◾ 웹 서버: 사용자가 필요한 정보를 DB 서버에게 요청하고 응답받은 정보를 가공하여 사용자에게 보여준다.
- JCA는 스레드 1B, 스레드 1C를 생성하고, JSA에 연결을 요청하여 연결되면 스레드 1A를 생성한다. 스레드 1A는 전송받은 Topic URL로 접속하여 수집할 데이터의 URL을 생성하고 URL Queue Table에 저장한다. 스레드 1B는 URL Queue Table로부터 Data URL을 로드하여 탐색‧수집‧가공 후 Data Queue Table에 저장한다. 스레드 1C는 Data Queue Table을 체크하여 null이 아닐 경우 암호화하여 JSA에게 전송한다.
- JSA는 스레드 2A, 스레드 2B, 스레드 2C를 생성한다. 스레드 2A는 Root URL을 탐색하여 Topic URL을 생성하고, 생성한 Topic URL을 URL Queue Table에 저장한다. 스레드 2B는 Data Queue Table을 체크하여 null이 아닌 경우 데이터를 로드 후 DB 서버에 전송한다. 스레드 2C는 JSA가 접속하면 스레드 2D를 생성한다. 스레드 2D는 JSA를 관리하고 데이터를 송/수신하며 JSA로부터 수신받은 데이터가 암호문일 경우 복호화하여 Data Queue Table에 저장한다.
- 기술 로드맵
시장상황에 대한 분석
- 경쟁제품 조사 비교
내용
- 마케팅 전략 제시
내용
개발과제의 기대효과
기술적 기대효과
내용
경제적, 사회적 기대 및 파급효과
내용
기술개발 일정 및 추진체계
개발 일정
내용
구성원 및 추진체계
내용
설계
설계사양
제품의 요구사항
내용
설계 사양
내용
개념설계안
내용
이론적 계산 및 시뮬레이션
내용
상세설계 내용
내용
결과 및 평가
완료 작품의 소개
프로토타입 사진 혹은 작동 장면
내용
포스터
내용
관련사업비 내역서
내용
완료작품의 평가
내용
향후계획
내용
특허 출원 내용
내용