"FINT조"의 두 판 사이의 차이
(→개발 과제의 개요) |
(→시장상황에 대한 분석) |
||
81번째 줄: | 81번째 줄: | ||
====시장상황에 대한 분석==== | ====시장상황에 대한 분석==== | ||
*경쟁제품 조사 비교 | *경쟁제품 조사 비교 | ||
− | + | ◇ WhatTheFont | |
+ | |||
+ | WhatTheFont는 미국 디지털 폰트 유통 업체인 MyFonts에서 제공하는 폰트 인식 서비스이다. 사용자가 글자가 있는 PNG나 JPG 파일을 업로드하면, 문자인식(OCR) 기술을 이용해 글자를 인식한다. 인식된 글자가 출력되고 사용자가 식별하려는 문자를 클릭하면, WhatTheFont는 딥러닝을 이용해 133,000여 개의 폰트 중 유사도가 높은 폰트들을 찾아주는 서비스를 제공한다. 현재 다른 언어는 지원하지 않고, 영어만 지원하고 있다. | ||
+ | |||
+ | ◇ 한글마을 | ||
+ | |||
+ | 한글마을은 우리나라 최초의 한글 글꼴 등록시스템으로, 현존하는 모든 한글 글꼴을 등록 및 검색할 수 있는 서비스이다. 2019년 3월 기준으로 1700개의 한글 폰트를 검색할 수 있고, 원하는 글자를 입력하면 입력된 글자를 1700개의 폰트로 보여주며 사용자는 그중 원하는 폰트를 선택해 구매 및 다운로드할 수 있다. | ||
+ | |||
+ | ◇ Adobe Photoshop CC 글꼴인식 | ||
+ | |||
+ | Adobe사 이미지 편집 프로그램인 Photoshop의 CC 2015.5 버전부터 추가된 기능이다. 이미지를 불러온 뒤 글꼴 인식 기능을 실행하여 인식하려는 글자가 있는 이미지의 일부분을 선택한다. 머신러닝 기술을 이용해 Photoshop에 내장된 글꼴과 Adobe Typekit에서 제공되는 글꼴 중 유사한 글꼴을 찾아 사용자에게 보여준다. 아직은 한글은 지원되지 않고 로마어/라틴어 및 일본어만 지원하고 있다. | ||
+ | |||
+ | ◇ GitHub – GAN을 활용한 한글 폰트 제작 프로젝트 | ||
+ | |||
+ | GitHub의 periannath라는 유저가 개발한 한글 폰트 제작 프로젝트이다. 제공된 폰트 템플릿에 맞춰 글자를 작성한 뒤 스캔하여 학습 데이터로 이용한다. 템플릿에는 399자만 있기 때문에 완성형 한글 글자 수인 11172자를 생성하기에 input 개수가 부족하다. 이를 해결하기 위해 여러 개의 Copyleft 폰트로 학습된 모델을 생성한 뒤 transfer learning을 통해 399자를 학습시키고 그 모델을 통해 폰트를 생성하는 프로젝트이다. | ||
+ | |||
+ | ◇ University of California, Berkeley AI Research LAB – MC-GAN for Font Style Transfer | ||
+ | |||
+ | BAIR(Berkeley Artificial Intelligence Research) Lab의 블로그에 발표된 영어 폰트 제작 기술이다. BAIR 연구진은 multi-content GAN(MC-GAN)이라는 새로운 종류의 GAN 모델을 디자인했다. MC-GAN은 아래 이미지와 같이 7~8자의 알파벳을 input으로 이용하면, 폰트를 만들어내 한 문장을 만들 수 있다. | ||
+ | |||
+ | [[파일:fint003.png]] | ||
+ | |||
+ | 다만, 26개의 알파벳으로 구성된 영어와 달리 11172자의 한글에 이 기술을 적용하면 사용자가 원하는 폰트 제작이 불가능할 것이라 기대된다. | ||
+ | |||
*마케팅 전략 제시 | *마케팅 전략 제시 | ||
내용 | 내용 |
2019년 6월 18일 (화) 10:08 판
프로젝트 개요
기술개발 과제
국문 : CNN을 이용하여 한글 폰트를 식별하고 GAN을 이용하여 폰트를 생성
영문 : Discriminate Hangeul(Korean) font in image using CNN and create New Hangeul(Korean) Font using GAN
과제 팀명
FINT (Find Font)
지도교수
김민호 교수님
개발기간
2019년 3월 ~ 2019년 6월 (총 4개월)
구성원 소개
서울시립대학교 컴퓨터과학부 2013920012 김범수(팀장)
서울시립대학교 컴퓨터과학부 2013920041 윤재상
서울시립대학교 컴퓨터과학부 2013920059 정희탁
서울시립대학교 컴퓨터과학부 2013920068 황두욱
서론
개발 과제의 개요
개발 과제 요약
◇ OCR(광학 문자 인식)을 이용하여 글자를 인식하고, CNN(Convolutional Neural Networks) 모델을 사용하여 해당 글자의 폰트를 식별한다.
◇ 사용자가 찾고 싶은 폰트의 이미지를 페이지에 업로드 한다.
◇ 서버에서 OCR을 이용하여 글자를 인식하고, 전처리 작업을 통하여 적절하게 이미지를 자른다.
◇ 학습한 CNN 모델을 기반으로 이미지에서 폰트를 식별한다.
◇ Accuracy가 높은 상위 5개 폰트에 대해 화면에 출력한다.
개발 과제의 배경
◇ 과거에는 데이터간의 관계를 분석하고 모델식을 만드는 데이터 마이닝 기법 중 하나인 회귀분석(Regression Analysis)을 주로 사용했다. 이는 정확성이 상대적으로 떨어지고 모델 정교화를 위해 분석가의 노력이 많이 필요했고, 그래서 등장한 것이 인공신경망(Artificial Nerual Network)이다. 인공신경망은 사람의 뇌를 모방한 방법으로 데이터를 입력하면 자동으로 복잡한 수학식을 기반으로 모델링을 하는 방법이다. 인공신경망을 가지고 이미지를 분석하는 경우 방법은 Single Linear Classifiers, K-Nearest Neighbors, SVMs, Multi Layer Classifiers, Convolutional Neural Network(CNN) 등이 있다. 숫자 필기 데이터셋인 Mnist를 이용한 Performance를 측정해보면 아래와 같이 CNN은 우수한 성능을 보여준다.
◇ 최근에는 두 개의 인공신경망을 사용하여 보다 정교한 결과물을 생성하는 GAN 모델링에 대한 연구가 활발하게 진행되고 있다. GAN의 A는 Adversarial의 약자로 ‘적대적인’ 이라는 뜻을 가지고 있는데, 하나의 인공신경망에는 Fake data를 생성하고, 다른 하나의 인공신경망에는 Real data를 가지고 가짜 데이터와 진짜 데이터를 구별할 수 있는 파라미터를 찾고, 이를 기반으로 Fake data가 fake인지 real인지를 식별한다. 최종적으로 Fake data가 Real data로 식별이 될 때 까지 적대적 학습(Adversarial Training)을 진행하여 그럴듯한 가짜를 만들어 낼 수 있다.
◇ 알파벳은 소문자와 대문자를 합쳐 52개로 학습이 용이하지만 한글의 경우 유니코드 2.0에 등록된 개수만 11,172개가 되기 때문에 학습에 어려움이 있으며 이러한 이유로 인해 한글폰트를 찾아주는 서비스는 제공되지 않고 있다.
◇ 이미 존재하는 폰트와 대조하는 방식의 OCR(Optical character recognition)은 알파벳의 경우 높은 인식률을 보이지만 한글의 경우에는 높은 해상도로 스캔하지 않으면 인식률이 떨어지며, 필기체의 경우 매우 낮은 인식률을 보여준다. OCR을 기반으로 사용하되 전처리에 대한 부분은 따로 알고리즘을 구현하여 Performance를 향상시켜 차별화를 둔다.
◇ 현재 한글폰트를 찾는 경우에는 ‘한글마을’을 이용하여 원하는 문구의 가장 비슷한 폰트를 직접 찾는 번거로움이 있다. 이 문제는 딥러닝을 이용하여 이를 해결하여 가장 비슷한 폰트를 찾아 해결하며 Youtube, 개인방송, 지상파 방송의 영상편집에 이용할 수 있다.
◇ CNN을 사용하여 폰트를 식별하는 것에 그치지 않고 식별하지 못한 데이터셋을 기반으로 GAN 모델을 이용하여 학습시켜 새로운 폰트를 만들어 새로운 가치를 창출한다.
개발 과제의 목표 및 내용
◇ OCR을 이용하여 글자를 인식하고, 전처리 작업을 통하여 적절하게 이미지를 잘라준다.
◇ 가공된 이미지 세트에 여러 노이즈를 발생시켜 학습의 효율을 높여준다.
◇ CNN 모델을 기반으로 학습하여 폰트를 식별하여 최적의 파라미터를 찾는다.
◇ 최적화된 파라미터를 이용하여 사용자가 요청한 폰트와 가장 근접한 상위 5개의 폰트를 출력한다.
◇ 유료 폰트와 제휴하여 구매 대행을 하는 등 찾을 수 있는 폰트의 개수를 늘려간다.
관련 기술의 현황
관련 기술의 현황 및 분석(State of art)
- 전 세계적인 기술현황
내용
- 특허조사 및 특허 전략 분석
내용
- 기술 로드맵
내용
시장상황에 대한 분석
- 경쟁제품 조사 비교
◇ WhatTheFont
WhatTheFont는 미국 디지털 폰트 유통 업체인 MyFonts에서 제공하는 폰트 인식 서비스이다. 사용자가 글자가 있는 PNG나 JPG 파일을 업로드하면, 문자인식(OCR) 기술을 이용해 글자를 인식한다. 인식된 글자가 출력되고 사용자가 식별하려는 문자를 클릭하면, WhatTheFont는 딥러닝을 이용해 133,000여 개의 폰트 중 유사도가 높은 폰트들을 찾아주는 서비스를 제공한다. 현재 다른 언어는 지원하지 않고, 영어만 지원하고 있다.
◇ 한글마을
한글마을은 우리나라 최초의 한글 글꼴 등록시스템으로, 현존하는 모든 한글 글꼴을 등록 및 검색할 수 있는 서비스이다. 2019년 3월 기준으로 1700개의 한글 폰트를 검색할 수 있고, 원하는 글자를 입력하면 입력된 글자를 1700개의 폰트로 보여주며 사용자는 그중 원하는 폰트를 선택해 구매 및 다운로드할 수 있다.
◇ Adobe Photoshop CC 글꼴인식
Adobe사 이미지 편집 프로그램인 Photoshop의 CC 2015.5 버전부터 추가된 기능이다. 이미지를 불러온 뒤 글꼴 인식 기능을 실행하여 인식하려는 글자가 있는 이미지의 일부분을 선택한다. 머신러닝 기술을 이용해 Photoshop에 내장된 글꼴과 Adobe Typekit에서 제공되는 글꼴 중 유사한 글꼴을 찾아 사용자에게 보여준다. 아직은 한글은 지원되지 않고 로마어/라틴어 및 일본어만 지원하고 있다.
◇ GitHub – GAN을 활용한 한글 폰트 제작 프로젝트
GitHub의 periannath라는 유저가 개발한 한글 폰트 제작 프로젝트이다. 제공된 폰트 템플릿에 맞춰 글자를 작성한 뒤 스캔하여 학습 데이터로 이용한다. 템플릿에는 399자만 있기 때문에 완성형 한글 글자 수인 11172자를 생성하기에 input 개수가 부족하다. 이를 해결하기 위해 여러 개의 Copyleft 폰트로 학습된 모델을 생성한 뒤 transfer learning을 통해 399자를 학습시키고 그 모델을 통해 폰트를 생성하는 프로젝트이다.
◇ University of California, Berkeley AI Research LAB – MC-GAN for Font Style Transfer
BAIR(Berkeley Artificial Intelligence Research) Lab의 블로그에 발표된 영어 폰트 제작 기술이다. BAIR 연구진은 multi-content GAN(MC-GAN)이라는 새로운 종류의 GAN 모델을 디자인했다. MC-GAN은 아래 이미지와 같이 7~8자의 알파벳을 input으로 이용하면, 폰트를 만들어내 한 문장을 만들 수 있다.
다만, 26개의 알파벳으로 구성된 영어와 달리 11172자의 한글에 이 기술을 적용하면 사용자가 원하는 폰트 제작이 불가능할 것이라 기대된다.
- 마케팅 전략 제시
내용
개발과제의 기대효과
기술적 기대효과
◇ 고객이 제품을 이용하기 위해 입력한 이미지를, 필요시 추가 표본으로 사용하여 학습시킴으로써 시간이 지날수록 신경망의 정확도 상승을 기대할 수 있다.
◇ 이미지에서 원하는 폰트를 발견했을 때, 2000개에 달하는 한글 폰트를 비교하며 찾아낼 필요가 사라져 이용자의 시간을 절약할 수 있다.
◇ 폰트 검색 기능으로 일치하는 폰트를 식별하지 못하면, 폰트 제작 기능을 통해 새로운 폰트를 제작하여 이용자의 욕구를 충족시킬 수 있다.
◇ 웹 기반 서비스를 이용함으로써 이용자에게 편리한 접근성을 제공할 수 있다.
경제적, 사회적 기대 및 파급효과
◇ 문서 및 발표 자료의 목적에 따른 적절한 폰트 사용으로 이용자의 목표 달성을 도모할 수 있다.
◇ 폰트 검색에 편리함을 제공해 이용자가 많아지면, 국내 유료 폰트 제작자의 매출 상승을 기대할 수 있다.
◇ 유료 폰트 시장의 활성화에 기여하고, 폰트 제작자를 떠오르는 인기 직업군으로 만들 수 있다
◇ 식별에 실패한 폰트를 기반으로 새로운 폰트를 제작하여 이용자가 폰트 제작자가 되고, 뜻밖의 수익창출을 이끌어낼 수 있다.
기술개발 일정 및 추진체계
개발 일정
내용
구성원 및 추진체계
내용
설계
설계사양
제품의 요구사항
내용
설계 사양
내용
개념설계안
내용
이론적 계산 및 시뮬레이션
내용
상세설계 내용
내용
결과 및 평가
완료 작품의 소개
프로토타입 사진 혹은 작동 장면
내용
포스터
내용
관련사업비 내역서
내용
완료작품의 평가
내용
향후계획
내용
특허 출원 내용
내용