"2분반-Chat이루매"의 두 판 사이의 차이

cdc wiki
이동: 둘러보기, 검색
(시장상황에 대한 분석)
(향후계획)
 
(사용자 2명의 중간 판 32개는 보이지 않습니다)
1번째 줄: 1번째 줄:
 
<div>__TOC__</div>
 
<div>__TOC__</div>
  
==프로젝트 개요==
+
==프로젝트 개요==  
=== 기술개발 과제 ===
 
''' 국문 : ''' RAG(Retrieval-Augmented Generation) 구조를 이용한 요리 레시피 챗봇 시스템
 
  
''' 영문 : ''' Cooking Recipe Chatbot System Using Retrieval-Augmented Generation (RAG) Architecture
+
=== 기술개발 과제 ===
 +
''' 국문 : ''' Chat 이루매
  
===과제 팀명===
+
''' 영문 : ''' Chat Irumae
뮤즈
 
  
===지도교수===
+
===과제 팀명===  
유하진 교수님
 
  
===개발기간===
+
컴종설 2조
2025년 9월 ~ 2025년 12월 (총 4개월)
 
  
===구성원 소개===
+
===지도교수===  
서울시립대학교 컴퓨터과학부 20189200** 유*승(팀장)
 
  
서울시립대학교 토목공학과 20208600** 조*진
+
박관용 교수님
  
서울시립대학교 컴퓨터과학부 20199200** 이*민
+
===개발기간===
  
서울시립대학교 컴퓨터과학부 20189200** 고*서
+
2025년 9월 ~ 2025년 12월 (총 3개월)
  
서울시립대학교 컴퓨터과학부 20209200** 이*호
+
===구성원 소개===
 +
 
 +
서울시립대학교 컴퓨터과학과 2019920055 채민관
 +
 
 +
서울시립대학교 컴퓨터과학과 2022920009 김도훈
 +
 
 +
서울시립대학교 컴퓨터과학과 2020920063 최재용
 +
 
 +
서울시립대학교 컴퓨터과학과 2020920057 정윤재
 +
 
 +
서울시립대학교 컴퓨터과학과 2020920050 이학림
  
 
==서론==
 
==서론==
 
===개발 과제의 개요===
 
===개발 과제의 개요===
====개발 과제 요약====
 
◇ 본 과제는 RAG(Retrieval-Augmented Generation) 구조를 기반으로 한 요리 레시피 챗봇 시스템을 개발하는 것을 목표로 하였다.
 
  
◇ 한국어 SBERT 임베딩 모델을 활용하여 레시피 데이터를 벡터화하고, 의미 기반 유사도 검색이 가능한 지능형 정보 검색 기능을 구현하였다.
+
====개발 과제 요약====
  
◇ FAISS 벡터 검색 엔진과 레시피 데이터베이스를 연동하여 대규모 레시피 데이터에 대한 고속 검색이 가능한 시스템 구조를 설계하였다.
+
서울시립대학교 학생들이 학사 규정, 시설, 식단, 행사 등의 학교생활 전반에 대한 정보를 신속하고 정확하게 얻는 것은 학업 효율성과 캠퍼스 생활 만족도를 높이는 중요한 요소입니다. 그러나 현재는 정보가 학사 공지, 포탈, 커뮤니티(에브리타임) 등 여러 곳에 분산되어 있어 학생들이 직접 탐색해야 하는 불편함이 있습니다. 이를 해결하기 위해 Vector DB 기반 RAG 구조와 LLM을 활용한 질의응답 시스템 'Chat 이루매'를 개발하였습니다. 이 시스템은 질문 유형에 따라 최적화된 응답 경로(Path Routing)를 제공하며, LLM의 불확실한 답변 문제를 최소화하기 위해 관련 규정 페이지, 부서 연락처 등 신뢰할 수 있는 출처를 함께 제공합니다. 또한 다국어 지원, 음성 입력, 캠퍼스 공간 인식 기반 경로 안내 기능을 통합하여 접근성을 높였습니다.
  
◇ 프론트엔드 사용자 인터페이스(UI)와 백엔드 RAG 파이프라인을 연동하여, 사용자가 자연어로 질의하면 실시간으로 응답을 제공하는 대화형 챗봇 서비스를 구축하였다.
+
====개발 과제의 배경====
  
====개발 과제의 배경====
+
서울시립대학교는 매년 학사제도 변경, 장학금, 수강 신청 등 다양한 행정 정보를 공지하지만, 학생들은 이를 UOS 포털, 학사 공지, 단과대별 공지 등 분산된 시스템에서 확인해야 합니다. 이 과정에서 정보 누락이나 반복적인 행정실 문의가 발생하여 업무 비효율을 초래하고 있습니다. 또한 대학 구성원의 70% 이상이 모바일 기반으로 정보를 탐색하는 환경임에도, 기존 FAQ 방식은 검색 정확도와 접근성이 낮아 만족도가 떨어지는 문제가 있었습니다. 이러한 문제를 해결하기 위해 자연어 기반 질문을 실시간으로 처리하고, 학사 편람·공지 사항 등 공신력 있는 자료를 기반으로 정확한 답변을 제공하는 서울시립대 전용 RAG 기반 챗봇 시스템이 필요하게 되었습니다.
◇ 기존의 레시피 검색 서비스는 키워드 기반 검색에 의존하여 사용자의 다양한 표현이나 복합적인 요구를 충분히 반영하지 못하는 한계가 존재하였다.
 
  
◇ 최근 대규모 언어모델(LLM)의 발전과 함께, 검색과 생성 기능을 결합한 RAG 구조가 지능형 정보 제공 시스템의 새로운 대안으로 주목받고 있다.
+
====개발 과제의 목표 및 내용====
  
과제는 이러한 기술적 흐름을 반영하여, 의미 기반 검색과 자연어 응답 생성을 결합한 요리 레시피 챗봇을 구현함으로써 사용자 경험을 향상시키고자 하였다.
+
과제의 핵심 목표는 서울시립대학교 학사·행정 정보를 정확하고 신뢰성 있게 제공하는 AI 챗봇을 구축하는 것입니다. 이를 달성하기 위한 주요 개발 내용은 다음과 같습니다.  
  
◇ 이를 통해 사용자는 재료, 조리 시간, 난이도 등 다양한 조건을 자연어로 입력하여 보다 직관적이고 정확한 레시피 추천을 받을 수 있는 효과를 기대할 수 있다.
+
RAG 기반 시스템 구축: 실제 문서에서 근거를 검색하고 답변을 생성하는 구조로, 사용자 질문 파싱, 벡터 DB 기반 문서 검색, LLM 답변 생성, 출처 제시의 4단계 파이프라인을 구성하였습니다
  
====개발 과제의 목표 내용====
+
데이터 처리 저장: 학사편람, 학사공지, 장학제도, 수강신청 안내문 등을 크롤링·전처리하여 ChromaDB에 임베딩하고, MongoDB에 메타데이터를 저장하였습니다.
◇ 한국어 자연어 질의를 효과적으로 처리하기 위해 한국어 SBERT 임베딩 모델을 적용하고, 레시피 데이터의 의미 정보를 벡터 형태로 표현하는 것을 목표로 하였다.
 
  
◇ 벡터화된 레시피 데이터를 FAISS 기반 벡터 검색 엔진에 저장하여, 빠르고 정확한 유사도 검색이 가능한 RAG 파이프라인을 구축하였다.
 
  
◇ 사용자의 입력 질의(재료, 시간, 난이도, 알레르기 정보 등)를 분석하여 조건 기반 필터링과 맞춤형 응답 생성이 가능하도록 시스템을 설계하였다.
+
백엔드 및 최적화: Spring Boot 백엔드가 검색·생성 과정을 제어하며, Redis를 시맨틱 캐시로 활용하여 응답 속도를 높였습니다.
  
◇ 프론트엔드와 백엔드를 연동한 대화형 인터페이스를 구현하여, 실제 서비스 환경에서도 활용 가능한 요리 레시피 챗봇을 완성하는 것을 목표로 하였다.
+
 
 +
사용자 인터페이스: 웹 기반 프론트엔드(React)를 통해 학생이 자연어로 질문하면 즉시 답변을 받을 수 있도록 설계하였으며, 정확도 평가를 위한 테스트 데이터셋을 구축하여 성능을 검증하였습니다.
  
 
===관련 기술의 현황===
 
===관련 기술의 현황===
====관련 기술의 현황 및 분석(State of art)====
 
*전 세계적인 기술현황
 
  
LLM 기반 대화형 AI  
+
====관련 기술의 현황 및 분석(State of art)====
 +
 
 +
-전 세계적인 기술현황 Retrieval-Augmented Generation(RAG)은 대형 언어모델(LLM)의 생성 능력에 문서 검색을 결합해 사실 기반 답변을 만드는 표준 아키텍처로 자리 잡았습니다. 최근 연구들은 검색과 생성을 병렬·적응적으로 결합해 지연(latency)을 줄이고 품질을 높이는 방향(예: PipeRAG)으로 진화하고 있습니다. 검색 기술로는 의미 임베딩 기반의 Dense retrieval과 키워드 기반의 Sparse 검색을 혼합한 Hybrid search가 보편적이며, 정밀도를 높이기 위해 Cross-encoder를 활용한 재랭킹(Reranking) 전략이 널리 채택되고 있습니다. 인프라 측면에서는 Chroma와 같은 벡터 DB와 LangChain 같은 오케스트레이션 툴이 표준 스택으로 활용됩니다.
 +
 
 +
-특허조사 및 특허 전략 분석 본 과제와 관련된 주요 특허로는 US20240346256A1(Response generation using a retrieval augmented AI model)이 있습니다. 이 특허는 쿼리와 관련된 정보를 검색하고 LLM을 통해 답변을 생성하는 시스템에 관한 것으로, 본 프로젝트의 RAG 구조 및 LLM 활용 방식과 유사한 기술적 배경을 가지고 있습니다.
 +
 
 +
-기술 로드맵 기술 개발은 크게 3단계로 진행됩니다. 0–1개월(기초구축)에는 원자료 수집 및 크롤러 완성, 문서 전처리(Chunking), Chroma 컬렉션 구축 및 프로토타입 RAG 파이프라인을 완성합니다. 1–3개월(성능고도화)에는 하이브리드 검색 도입, Reranker(교차 인코더) 추가, Redis 캐싱 및 신뢰성 모듈(출처 표기)을 적용하여 성능을 향상합니다. 3–6개월(운영·확장)에는 멀티턴 대화 관리, 다국어(영·중·일) 확장, 음성 입력 인터페이스 추가 및 데이터 자동 갱신 파이프라인 구축을 목표로 합니다.
 +
 
 +
====시장상황에 대한 분석====
 +
 
 +
-경쟁제품 조사 비교 이화여대, 고려대, 서울시 교육청 등의 기존 챗봇과 비교 분석하였습니다. 타 챗봇들은 주로 단순 키워드 매칭이나 정해진 FAQ 답변을 제공하는 방식(백과사전식)으로, 구체적인 상황에 대한 유연한 답변이 어렵습니다. 예를 들어 정수기와 화장실 위치를 물었을 때 동일하게 단순 지도만 제시하는 식입니다. 반면 Chat 이루매는 Vector DB와 RAG를 활용하여 질문에 대해 구체적이고 자세한 답변을 생성하며, 학교 데이터와 직접 관련이 없는 질문에도 LLM을 활용해 답변할 수 있다는 차별점이 있습니다.
 +
 
 +
-마케팅 전략 제시 마케팅 목표는 학생·교직원 채택률 확대와 행정 문의 감소입니다. 첫째, 학기 초나 오리엔테이션 기간에 파일럿(시범운영)을 배포하여 피드백을 수집하고 즉시 패치합니다. 둘째, 학교 포털, 에브리타임, SNS 채널을 통해 사용법과 FAQ 영상을 배포하는 디지털 통합 마케팅을 진행합니다. 셋째, 행정 부서(장학팀, 교무팀 등)와 협력하여 챗봇의 문의 해결률 지표를 공유하고 운영 개선에 반영합니다. 넷째, 답변에 출처 제시 기능을 강조하는 신뢰성 캠페인을 통해 사용자의 신뢰를 확보합니다.
 +
 
 +
===개발과제의 기대효과===
  
• OpenAI GPT, Anthropic Claude, Google Gemini, Meta LLaMA 등 다양한 대규모 언어 모델이 오픈/상용화되어 있음. 최근 트렌드는 RAG(Retrieval-Augmented Generation) 기법을 통한 신뢰성 강화, 멀티모달 모델(텍스트·이미지·음성 결합), 경량화 모델(온디바이스 실행)으로 발전.
+
====기술적 기대효과====
  
◇ 레시피 AI
+
정확한 학사 정보 제공 및 신뢰성 확보: RAG(Retrieval-Augmented Generation) 구조를 통해 허위 정보 생성(Hallucination) 위험을 최소화하고, 실제 문서 기반 답변을 생성함으로써 챗봇의 신뢰성을 크게 향상했습니다.
  
• Cookpad(일본), Tasty 등 글로벌 서비스에서 AI 기반 레시피 검색·추천 기능을 제공.
+
질문 유형별 Path Routing(정적/동적 분기)을 적용하여 정적 정보는 문서 검색으로, 동적 정보는 API 호출로 처리함으로써 답변의 정확성을 높였습니다.
  
◇ IoT/스마트 키친 연계
+
대학 도메인 특화 AI 모델 구축 역량 확보: 대학 행정 데이터 처리에 필요한 데이터 전처리, 벡터 DB 구축, 검색 알고리즘 최적화 등의 기술적 역량을 확보하였습니다.
  
• LG ThinQ, Samsung SmartThings 등 가전사들이 AI 비서를 주방 환경에 접목 중. 레시피 안내 + IoT 조리기기 제어까지 통합하는 사례는 초기 단계.
+
시스템 확장성 및 모듈화: 현재는 학사 행정 중심이지만, 향후 캠퍼스 시설, 취업 정보, 국제 교류 등으로 서비스 영역을 손쉽게 확장할 수 있도록 모듈형 구조로 설계되었습니다.
  
 +
운영 효율성 및 성능 최적화: Redis 기반의 시맨틱 캐시를 적용하여 LLM API 비용을 절감하고 실시간 응답 성능을 높여, 실제 서비스에 적용 가능한 수준의 운영 효율성을 확보하였습니다.
  
*특허조사 특허 전략 분석
+
====경제적, 사회적 기대 파급효과====
  
◇ 인터넷 식재료 주문정보를 이용한 추천 요리와 그 레시피 제공 장치 (Apparatus for providing recommended food and recipe thereof using internet food material ordering information)
+
행정 업무 효율화 및 비용 절감: 단순 반복적인 행정실 문의가 감소함에 따라, 행정 인력은 보다 전문적이고 고부가가치 업무에 집중할 수 있어 운영 효율성이 향상됩니다.
  
 +
교육 서비스 품질 향상 및 학생 권익 보호: 공지 누락이나 잘못된 정보 전달로 인한 학생들의 학사적 불이익을 예방하고, 정보 탐색 시간을 단축하여 효율적인 학습 환경을 제공합니다.
  
*기술 로드맵
+
접근성 강화 및 글로벌 캠퍼스 조성: 모바일 기반의 24시간 자동 응답 체계를 구축하여 학생들의 접근성을 높였으며 , 다국어 지원을 통해 외국인 학생들도 쉽게 정보에 접근할 수 있어 글로벌 캠퍼스 환경 조성에 이바지합니다.
  
◇ 1. 데이터 수집 및 DB 구축: 레시피 데이터를 수집하고 필요한 정보를 추출하고 틀에 맞춰 정제하여 DB 구축
+
스마트 캠퍼스 이미지 제고: 대학이 AI 기반의 통합 학사 플랫폼을 선도적으로 구축함으로써 대외적으로 스마트 캠퍼스 선도 대학이라는 이미지를 확보할 수 있습니다.
  
◇ 2. 챗봇 생성: RAG과 LLM을 결합하여 구축된 DB를 사용하는 챗봇 구현
+
기술 확산 및 지역 사회 기여: 챗봇 구축 경험은 향후 서울시 및 공공기관과의 협력 기반이 될 수 있어 기술 확산 및 지역 사회 기여도 기대할 수 있습니다.
  
◇ 3. 개인 맞춤형 서비스 개발: 사용자 피드백을 반영하여 사용자 속성 필터를 RAG 검색에 반영 (ex. 갑각류 알레르기 제외, 500kcal 이하 레시피 선호 등)
+
===기술개발 일정 및 추진체계===
  
====시장상황에 대한 분석====
+
====개발 일정====  
*경쟁제품 조사 비교
 
  
◇ Samsung Food
+
2025년 9월부터 12월까지 총 3개월간 진행되었으며, 월별 주요 진행 내용은 다음과 같습니다.
  
• 사용자의 신체, 나이, 운동 정보 등 개인정보를 바탕으로 섭취 목표량 설정, 일주일 식단, 맞춤형 레시피, 영양 섭취 진척도 관리 등을 제공
+
9월 (요구사항 분석 및 데이터 수집): 학사·규정·공지 데이터 수집, 커뮤니티 문서 크롤링 및 정제, 데이터베이스 및 VectorDB 구축(수집 문서 벡터화)을 진행하였습니다.
  
• 추가로 비전 AI 기술 (CLIP/Open AI) 을 활용하여 식재료 사진을 찍고 앱에서 바로 식재료 등록이 가능한 서비스도 제공
+
10월 (백엔드 서버 구축): 서버 환경 구성, API 설계 및 통신 구조를 정의하고 배포 환경을 설정하였습니다.
  
◇ SKT-누구(NUGU) 레시피 서비스
+
11월 (AI 모델 시스템 구현): LangChain 기반 Agent 개발, RAG 구조 구현 및 Path Routing 설계, 출처 제공 및 할루시네이션 보완 로직을 구현하였습니다.
  
• 인공지능 AI 스피커 NUGU에 레시피 추천을 음성으로 요청하면 발화 시각에 어울리는 요리 레시피를 랜덤으로 추천하고, 특정 레시피를 요청하면 필요한 재료부터 단계별로 레시피를 알려주는 서비스 (실제 가전제품과 연계)
+
12월 (프론트엔드 개발 및 통합 테스트): React.js 기반 UI/UX 설계, 다국어 지원 및 음성 입력 기능을 구현하고, 질의응답 정확도와 속도를 측정하며 전체 시스템 연동을 검증하였습니다.
  
• 온라인 서점 잡지 판매 순위 1위 ‘㈜이밥차’와 제휴하여 레시피 제공
+
====구성원 및 추진체계====
  
 +
프로젝트는 서버, 클라이언트, 데이터, AI 모델, 문서화의 5개 파트로 역할을 분담하여 체계적으로 진행되었습니다.
 +
채민관 (서버/배포): 백엔드 API 서버 구축 및 클라우드 배포 환경 설정 담당.
 +
최재용 (클라이언트): 웹(Web) 기반 프론트엔드 개발 및 UI/UX 설계 담당.
 +
정윤재 (데이터 관리): 학사 정보 및 커뮤니티 데이터 크롤링, 전처리, Vector DB 구축 담당.
 +
이학림 (AI 모델 시스템): LangChain 기반 오케스트레이션 설계, RAG 파이프라인 및 Path Routing 로직 구현 담당.
 +
김도훈 (문서화): 프로젝트 산출물 문서화 및 보고서 작성 담당.
  
*마케팅 전략 제시
+
==설계==
 +
===설계사양===
  
◇ 타겟 소비자 세분화
+
====제품의 요구사항====
  
• 1차 타겟: 20~30대 1인 가구, 자취하는 학생 혹은 직장인 (일상생활에서 gpt 등 챗봇과 유사한 서비스를 이미 잘 이용하고 있어서 거부감이 덜 하고 직접 해먹는 요리의 경제성을 어필하기 좋음)
+
사용자(학생 및 교직원)의 니즈와 시스템의 기술적 완성도를 고려하여 다음과 같은 핵심 요구사항을 도출하였습니다.
  
• 2차 타겟: 요리 초보자, 헬스케어 관심층 (1차 타겟보다 좀 더 넓은 타겟으로, 요리에 관심은 있지만 실력이 부족하거나 헬스케어에 관심이 있어 영양성분과 칼로리를 신경쓰는 사람들에게 해당 제품을 어필하기 좋음)
+
즉시성 (응답 속도): 질의 입력 후 첫 답변이 5초 이내에 반환되어야 합니다.
  
◇ 핵심 메시지
+
정확성 (근거 기반 답변): 모든 답변은 규정 문서, 공지사항 링크 등 확실한 출처를 명시하여 사용자가 검증할 수 있어야 합니다. (Hallucination 방지)
  
• “내 냉장고 속 재료만으로 누구나 만들 수 있는 요리 레시피” : 추가 식자재를 대량으로 구매하지 않고도 누구나 쉽게 보고 따라할 수 있는 레시피를 제공한다고 소비자에게 전달하여 직접 요리를 해먹지 않는 커다란 이유 중 식자재 부족, 레시피 모름을 해소시켜 줌
+
정확한 문맥 이해: 다중 턴(Multi-turn) 대화에서 앞선 질문의 맥락을 유지하고 적절한 후속 응답을 제공해야 합니다.
  
◇ 실행 전략
+
다양한 입력 방식: 텍스트 입력을 기본으로 하되, 모바일 환경을 고려한 음성 입력 및 외국인 학생을 위한 다국어(영어 등)를 지원해야 합니다.
• 요리 크리에이터와 협업
 
  
• 온라인 식자재 쇼핑몰, 레시피 제공 사이트 (마켓컬리, 쿠팡프레시, 만개의 레시피 )과 연계
+
실시간 동적 정보 연동: 식단, 행사, 강의 시간표 수시로 변하는 정보는 API 호출을 통해 최신 데이터를 제공해야 합니다.
  
• 사용자 참여 유도 (나만의 레시피 등록, 커뮤니티 활성화)
+
편의성 (UI/UX): 직관적인 웹 인터페이스(React)를 제공하고, 빠른 질의 버튼(FAQ) 및 오류 안내 문구를 포함해야 합니다.
  
• 과금 모델 : 유료 구독한 사용자에게는 식단 계획, 칼로리 자동 계산, 광고 제거 등의 추가 서비스 제공.
+
시스템 안정성 및 확장성: AWS 클라우드 환경에서 Docker/Kubernetes를 기반으로 배포되어 트래픽 증가에 유연하게 대응해야 합니다.
  
===개발과제의 기대효과===
+
====설계 사양====  
====기술적 기대효과====
 
◇ RAG 구조를 적용함으로써 단순 키워드 검색을 넘어, 의미 기반 정보 검색과 자연어 응답 생성이 결합된 고도화된 검색 시스템 구현이 가능하다.
 
  
◇ FAISS를 활용한 벡터 검색 구조는 대규모 데이터 환경에서도 높은 검색 성능과 확장성을 제공할 수 있다.
+
요구사항을 만족하기 위해 선정된 핵심 기술 스택과 설계 사양은 다음과 같습니다.
  
◇ 사용자 조건(알레르기, 선호 재료 등)을 반영한 필터링 로직과 LLM 기반 응답 생성 알고리즘을 통해 개인화된 정보 제공 기술을 확보할 수 있다.
+
데이터 수집 및 전처리: Python 기반 크롤러(BeautifulSoup/Scrapy)를 통해 학사 규정, 공지 등을 수집하고, 의미 단위로 청킹(Chunking)합니다.
  
◇ 사용자 피드백을 반영하는 Feedback RAG 구조를 통해, 시스템 성능을 지속적으로 개선할 수 있는 지능형 학습 기반 서비스로 확장 가능하다.
+
임베딩 및 Vector DB: 텍스트를 벡터로 변환(OpenAI Embedding / Llama)하여 ChromaDB에 저장합니다. 이는 RAG(검색 증강 생성)의 핵심 검색 엔진 역할을 합니다.
  
====경제적, 사회적 기대 파급효과====
+
검색(Retriever) 재랭킹(Reranker): 1차로 코사인 유사도 기반 Top-k 문서를 검색하고, 2차로 Cross-encoder 기반 Reranker를 적용하여 정밀도를 높입니다.
◇ 본 시스템은 요리, 식생활, 헬스케어 등 다양한 분야로 확장 가능한 범용 RAG 기반 챗봇 서비스로 활용될 수 있다.
 
  
◇ 개인 맞춤형 레시피 추천을 통해 식재료 낭비를 줄이고, 건강한 식습관 형성에 기여할 수 있다.
+
LLM 및 오케스트레이션: Llama 3B 또는 GPT 모델을 사용하여 자연스러운 답변을 생성하며, LangChain을 통해 검색과 생성 과정을 제어합니다.
  
◇ 외식업, 밀키트 산업, 식품 유통 서비스 등과 연계하여 새로운 부가가치 창출이 가능하다.
+
캐시 및 성능 최적화: Redis를 활용한 시맨틱 캐싱(Semantic Cache)을 도입하여 반복되는 질문의 응답 속도를 획기적으로 개선합니다.
  
◇ AI 기반 생활 밀착형 서비스 제공을 통해 디지털 기술의 사회적 활용도를 높이고, 사용자 친화적인 AI 서비스 확산에 기여할 수 있다.
+
===개념설계안===
  
===기술개발 일정 및 추진체계===
+
본 시스템의 핵심 개념은 질문의 성격을 파악하여 최적의 경로로 답변을 처리하는 'Path Routing' 구조입니다.
====개발 일정====
 
  
====구성원 및 추진체계====
+
[[파일:이루매1.jpg]]
◇ 팀 역할과 책임
 
  
• 기획(전체): 범위, 일정, 예산 요구사항
+
Path Routing 시스템: 사용자의 질문을 자연어 처리 기반 분류기가 분석하여 두 가지 경로로 분기합니다. ** 정적 정보 (Static): 학사 규정, 장학금 요건 등 자주 변하지 않는 정보는 Vector DB + RAG 방식을 통해 문서를 검색하여 답변합니다. ** 동적 정보 (Dynamic): 오늘의 학식, 도서관 잔여 좌석, 행사 일정 등 실시간 정보는 API 호출을 통해 최신 데이터를 가져와 답변합니다.
  
• 백엔드(유현승): 레시피/영양/기록 API, 데이터 모델, 테스트
+
신뢰성 강화 모듈 (Citation): LLM이 생성한 답변의 신뢰도 점수가 낮거나 근거가 필요한 경우, 관련 공식 문서의 링크나 담당 부서의 연락처(이메일, 전화번호)를 자동으로 함께 제시하여 사용자가 직접 검증할 수 있도록 합니다.
  
• AI·Data(조현진/이문호/고준서): 레시피 RAG, 프롬프트 가드, 영양계산 및 알러지 필터링 로직/검증
+
접근성 강화 시스템: 외국인 학생을 위한 실시간 다국어 번역 모듈과 모바일 사용자를 위한 음성-텍스트 변환(STT) 모듈을 통합하여 정보 접근 장벽을 낮춥니다.
  
• 프론트(이승민): 검색/레시피뷰/타이머/대시보드, 접근성, 성능 최적화
+
===이론적 계산 및 시뮬레이션===
  
• Infra(유현승/이승민): CI/CD, 모니터링, 비용/보안, 배포·롤백
+
[[파일:2.jpg]]
  
◇ 추진체계
+
RAG 시스템의 검색 정확도를 높이기 위해 코사인 유사도(Cosine Similarity) 공식을 핵심 이론으로 적용하였습니다.코사인 유사도: 사용자 질문 벡터($A$)와 저장된 문서 벡터($B$) 사이의 각도를 측정하여 의미적 유사성을 판단합니다. 본 프로젝트에서는 ChromaDB의 검색 알고리즘으로 활용되어 질문과 가장 관련성이 높은 Top-k 문서를 추출하는 데 사용됩니다.
  
• 요청/변경 제안 등록: 노션 티켓(목표/완료기준/마감 포함) 생성
+
===상세설계 내용===
  
• 개발 & PR: 기능 브랜치 → PR 2인 승인 + 테스트 코드 통과
+
소프트웨어 아키텍처는 프론트엔드, 백엔드, AI 파이프라인, 데이터베이스 계층으로 모듈화되어 설계되었습니다.
  
• 배포 & 롤백: 태그 배포, 문제 시 즉시 롤백
+
[이미지: 전체 시스템 아키텍처 다이어그램 (Client - Server - DB/AI 구조도)]
  
==설계==
+
User Interface (Client): React.js 기반의 웹 애플리케이션으로, 채팅창, 추천 질문 패널, 출처 표시 패널로 구성됩니다. 사용자의 편의를 위해 직관적인 UI를 제공합니다.
===설계사양===
 
====제품의 요구사항====
 
내용
 
====설계 사양====
 
내용
 
  
===개념설계안===
+
Back-end (Spring Boot): 전체 시스템의 컨트롤 타워 역할을 수행합니다. ** Routing Service: 사용자 의도를 분류하여 RAG 또는 API로 요청을 전달합니다. ** Task Queue: 크롤링 및 임베딩 작업을 비동기로 처리하여 시스템 부하를 관리합니다.
내용
 
  
===이론적 계산 및 시뮬레이션===
+
RAG Pipeline (AI Logic): ** ChromaDB: 임베딩된 문서 벡터를 저장하고 검색을 수행합니다. ** Reranker: 검색된 문서들의 순위를 재조정하여 가장 적합한 문맥을 LLM에 전달합니다. ** LLM Service: 검색된 정보(Context)와 프롬프트(Prompt)를 결합하여 최종 답변을 생성합니다.
내용
 
  
===상세설계 내용===
+
Data Storage: ** MongoDB: 문서의 원본 URL, 카테고리, 크롤링 날짜 등 메타데이터와 사용자 대화 로그를 저장합니다. ** Redis: 자주 묻는 질문(FAQ)에 대한 답변을 캐싱(TTL 설정)하여 LLM API 비용을 절감하고 응답 지연(Latency)을 최소화합니다.
내용
 
  
 
==결과 및 평가==
 
==결과 및 평가==
 
===완료 작품의 소개===
 
===완료 작품의 소개===
 
====프로토타입 사진 혹은 작동 장면====
 
====프로토타입 사진 혹은 작동 장면====
내용
+
 
 +
[[파일:3.jpg]]
 +
[[파일:이루매4.jpg]]
 +
[[파일:이루매5.jpg]]
 +
 
 
====포스터====
 
====포스터====
 
내용
 
내용
  
 
===관련사업비 내역서===
 
===관련사업비 내역서===
내용
+
 
 +
[[파일:이루매내역서.jpg]]
  
 
===완료작품의 평가===
 
===완료작품의 평가===
내용
+
 
 +
기존 서비스 대비 우수성: 타 대학(이화여대, 고려대) 챗봇이 단순히 키워드에 매칭된 고정된 답변(백과사전식)만 제공하는 것과 달리, Chat 이루매는 RAG 구조를 통해 질문의 맥락을 파악하고 구체적인 답변을 생성합니다. 학교 데이터와 직접 관련이 없는 일상적인 질문에도 LLM을 활용하여 유연하게 답변할 수 있다는 강점이 있습니다.
 +
 
 +
개발 과정의 한계 및 개선점: 문서 비정형성 문제: 학사 편람이나 공지사항의 형식이 통일되어 있지 않아 데이터 전처리(Chunking) 및 임베딩 과정에서 의미가 훼손되지 않도록 세밀한 조정이 필요했습니다. 미세 정보 구분: "학부 등록금"과 "대학원 등록금"처럼 미세한 차이가 있는 정보를 구분하는 데 검색 오류가 발생하기도 하여, 이를 해결하기 위해 메타데이터 필터링과 Reranker 도입을 시도했습니다. 데이터 최신성: 공지사항의 실시간 반영을 위해 완전 자동화 파이프라인을 목표로 했으나, 일정상의 이유로 일부 구간은 반자동 방식으로 구현되어 향후 자동화 고도화가 필요합니다.
  
 
===향후계획===
 
===향후계획===
내용
+
 
 +
1. RAG 성능 고도화
 +
 
 +
단순한 Top-k Retrieval 방식에서 벗어나, 고난도 질의에서도 일관된 성능을 확보하기 위해 검색 알고리즘을 개선할 계획입니다.
 +
 
 +
하이브리드 검색 도입: 키워드 매칭(BM25)과 의미 검색(Dense Retrieval)을 결합하여 검색 정확도를 보완합니다.
 +
 
 +
정밀도 향상: Cross-encoder 기반의 Reranker를 적용하여 검색된 문서의 순위를 재조정함으로써 미세한 정보 차이(예: 학부 등록금 vs 대학원 등록금)를 명확히 구분합니다.
 +
 
 +
지속적 학습: 사용자 로그를 기반으로 LLM 선호도 학습(Preference Learning) 및 검색 피드백 루프(Retrieval Feedback Loop)를 구축하여 답변 품질을 지속적으로 개선합니다.
 +
 
 +
2. 데이터 파이프라인 완전 자동화
 +
 
 +
현재 반자동으로 운영되는 크롤링 및 임베딩 과정을 완전히 자동화하여 정보의 최신성(Freshness)을 실시간으로 유지합니다.
 +
 
 +
변경 감지 및 부분 업데이트: 웹페이지의 변경 사항을 감지(Change Detection)하여 변경된 부분만 부분 업데이트(Incremental Embedding)하는 기술을 적용, 운영 비용을 절감하고 효율성을 높입니다.
 +
 
 +
자동 갱신 스케줄링: 주기적 스케줄링을 통해 공지사항 등 시시각각 변하는 정보를 즉시 시스템에 반영합니다.
 +
 
 +
3. 다국어 지원 및 서비스 확장
 +
 
 +
국제 학생 비율 증가에 맞춰 언어 장벽을 해소하고 서비스 영역을 확장합니다.
 +
 
 +
다국어 시스템 구축: 다국어 임베딩 모델(Multilingual Embedding)과 번역 LLM을 결합하여 영어, 중국어, 일본어 등 다양한 언어로 학사 정보를 제공합니다.
 +
 
 +
서비스 영역 확대: 현재의 학사 행정 중심에서 나아가 취업 정보, 국제 교류, 장학금 정밀 상담 등으로 서비스 도메인을 확장하고, AI 에이전트(Agentic RAG) 기술을 도입하여 시스템 통합성을 확보할 계획입니다.
  
 
===특허 출원 내용===
 
===특허 출원 내용===
 
내용
 
내용

2025년 12월 23일 (화) 22:50 기준 최신판

프로젝트 개요

기술개발 과제

국문 : Chat 이루매

영문 : Chat Irumae

과제 팀명

컴종설 2조

지도교수

박관용 교수님

개발기간

2025년 9월 ~ 2025년 12월 (총 3개월)

구성원 소개

서울시립대학교 컴퓨터과학과 2019920055 채민관

서울시립대학교 컴퓨터과학과 2022920009 김도훈

서울시립대학교 컴퓨터과학과 2020920063 최재용

서울시립대학교 컴퓨터과학과 2020920057 정윤재

서울시립대학교 컴퓨터과학과 2020920050 이학림

서론

개발 과제의 개요

개발 과제 요약

서울시립대학교 학생들이 학사 규정, 시설, 식단, 행사 등의 학교생활 전반에 대한 정보를 신속하고 정확하게 얻는 것은 학업 효율성과 캠퍼스 생활 만족도를 높이는 중요한 요소입니다. 그러나 현재는 정보가 학사 공지, 포탈, 커뮤니티(에브리타임) 등 여러 곳에 분산되어 있어 학생들이 직접 탐색해야 하는 불편함이 있습니다. 이를 해결하기 위해 Vector DB 기반 RAG 구조와 LLM을 활용한 질의응답 시스템 'Chat 이루매'를 개발하였습니다. 이 시스템은 질문 유형에 따라 최적화된 응답 경로(Path Routing)를 제공하며, LLM의 불확실한 답변 문제를 최소화하기 위해 관련 규정 페이지, 부서 연락처 등 신뢰할 수 있는 출처를 함께 제공합니다. 또한 다국어 지원, 음성 입력, 캠퍼스 공간 인식 기반 경로 안내 기능을 통합하여 접근성을 높였습니다.

개발 과제의 배경

서울시립대학교는 매년 학사제도 변경, 장학금, 수강 신청 등 다양한 행정 정보를 공지하지만, 학생들은 이를 UOS 포털, 학사 공지, 단과대별 공지 등 분산된 시스템에서 확인해야 합니다. 이 과정에서 정보 누락이나 반복적인 행정실 문의가 발생하여 업무 비효율을 초래하고 있습니다. 또한 대학 구성원의 70% 이상이 모바일 기반으로 정보를 탐색하는 환경임에도, 기존 FAQ 방식은 검색 정확도와 접근성이 낮아 만족도가 떨어지는 문제가 있었습니다. 이러한 문제를 해결하기 위해 자연어 기반 질문을 실시간으로 처리하고, 학사 편람·공지 사항 등 공신력 있는 자료를 기반으로 정확한 답변을 제공하는 서울시립대 전용 RAG 기반 챗봇 시스템이 필요하게 되었습니다.

개발 과제의 목표 및 내용

본 과제의 핵심 목표는 서울시립대학교 학사·행정 정보를 정확하고 신뢰성 있게 제공하는 AI 챗봇을 구축하는 것입니다. 이를 달성하기 위한 주요 개발 내용은 다음과 같습니다.

RAG 기반 시스템 구축: 실제 문서에서 근거를 검색하고 답변을 생성하는 구조로, 사용자 질문 파싱, 벡터 DB 기반 문서 검색, LLM 답변 생성, 출처 제시의 4단계 파이프라인을 구성하였습니다

데이터 처리 및 저장: 학사편람, 학사공지, 장학제도, 수강신청 안내문 등을 크롤링·전처리하여 ChromaDB에 임베딩하고, MongoDB에 메타데이터를 저장하였습니다.


백엔드 및 최적화: Spring Boot 백엔드가 검색·생성 과정을 제어하며, Redis를 시맨틱 캐시로 활용하여 응답 속도를 높였습니다.


사용자 인터페이스: 웹 기반 프론트엔드(React)를 통해 학생이 자연어로 질문하면 즉시 답변을 받을 수 있도록 설계하였으며, 정확도 평가를 위한 테스트 데이터셋을 구축하여 성능을 검증하였습니다.

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

-전 세계적인 기술현황 Retrieval-Augmented Generation(RAG)은 대형 언어모델(LLM)의 생성 능력에 문서 검색을 결합해 사실 기반 답변을 만드는 표준 아키텍처로 자리 잡았습니다. 최근 연구들은 검색과 생성을 병렬·적응적으로 결합해 지연(latency)을 줄이고 품질을 높이는 방향(예: PipeRAG)으로 진화하고 있습니다. 검색 기술로는 의미 임베딩 기반의 Dense retrieval과 키워드 기반의 Sparse 검색을 혼합한 Hybrid search가 보편적이며, 정밀도를 높이기 위해 Cross-encoder를 활용한 재랭킹(Reranking) 전략이 널리 채택되고 있습니다. 인프라 측면에서는 Chroma와 같은 벡터 DB와 LangChain 같은 오케스트레이션 툴이 표준 스택으로 활용됩니다.

-특허조사 및 특허 전략 분석 본 과제와 관련된 주요 특허로는 US20240346256A1(Response generation using a retrieval augmented AI model)이 있습니다. 이 특허는 쿼리와 관련된 정보를 검색하고 LLM을 통해 답변을 생성하는 시스템에 관한 것으로, 본 프로젝트의 RAG 구조 및 LLM 활용 방식과 유사한 기술적 배경을 가지고 있습니다.

-기술 로드맵 기술 개발은 크게 3단계로 진행됩니다. 0–1개월(기초구축)에는 원자료 수집 및 크롤러 완성, 문서 전처리(Chunking), Chroma 컬렉션 구축 및 프로토타입 RAG 파이프라인을 완성합니다. 1–3개월(성능고도화)에는 하이브리드 검색 도입, Reranker(교차 인코더) 추가, Redis 캐싱 및 신뢰성 모듈(출처 표기)을 적용하여 성능을 향상합니다. 3–6개월(운영·확장)에는 멀티턴 대화 관리, 다국어(영·중·일) 확장, 음성 입력 인터페이스 추가 및 데이터 자동 갱신 파이프라인 구축을 목표로 합니다.

시장상황에 대한 분석

-경쟁제품 조사 비교 이화여대, 고려대, 서울시 교육청 등의 기존 챗봇과 비교 분석하였습니다. 타 챗봇들은 주로 단순 키워드 매칭이나 정해진 FAQ 답변을 제공하는 방식(백과사전식)으로, 구체적인 상황에 대한 유연한 답변이 어렵습니다. 예를 들어 정수기와 화장실 위치를 물었을 때 동일하게 단순 지도만 제시하는 식입니다. 반면 Chat 이루매는 Vector DB와 RAG를 활용하여 질문에 대해 구체적이고 자세한 답변을 생성하며, 학교 데이터와 직접 관련이 없는 질문에도 LLM을 활용해 답변할 수 있다는 차별점이 있습니다.

-마케팅 전략 제시 마케팅 목표는 학생·교직원 채택률 확대와 행정 문의 감소입니다. 첫째, 학기 초나 오리엔테이션 기간에 파일럿(시범운영)을 배포하여 피드백을 수집하고 즉시 패치합니다. 둘째, 학교 포털, 에브리타임, SNS 채널을 통해 사용법과 FAQ 영상을 배포하는 디지털 통합 마케팅을 진행합니다. 셋째, 행정 부서(장학팀, 교무팀 등)와 협력하여 챗봇의 문의 해결률 지표를 공유하고 운영 개선에 반영합니다. 넷째, 답변에 출처 제시 기능을 강조하는 신뢰성 캠페인을 통해 사용자의 신뢰를 확보합니다.

개발과제의 기대효과

기술적 기대효과

정확한 학사 정보 제공 및 신뢰성 확보: RAG(Retrieval-Augmented Generation) 구조를 통해 허위 정보 생성(Hallucination) 위험을 최소화하고, 실제 문서 기반 답변을 생성함으로써 챗봇의 신뢰성을 크게 향상했습니다.

질문 유형별 Path Routing(정적/동적 분기)을 적용하여 정적 정보는 문서 검색으로, 동적 정보는 API 호출로 처리함으로써 답변의 정확성을 높였습니다.

대학 도메인 특화 AI 모델 구축 역량 확보: 대학 행정 데이터 처리에 필요한 데이터 전처리, 벡터 DB 구축, 검색 알고리즘 최적화 등의 기술적 역량을 확보하였습니다.

시스템 확장성 및 모듈화: 현재는 학사 행정 중심이지만, 향후 캠퍼스 시설, 취업 정보, 국제 교류 등으로 서비스 영역을 손쉽게 확장할 수 있도록 모듈형 구조로 설계되었습니다.

운영 효율성 및 성능 최적화: Redis 기반의 시맨틱 캐시를 적용하여 LLM API 비용을 절감하고 실시간 응답 성능을 높여, 실제 서비스에 적용 가능한 수준의 운영 효율성을 확보하였습니다.

경제적, 사회적 기대 및 파급효과

행정 업무 효율화 및 비용 절감: 단순 반복적인 행정실 문의가 감소함에 따라, 행정 인력은 보다 전문적이고 고부가가치 업무에 집중할 수 있어 운영 효율성이 향상됩니다.

교육 서비스 품질 향상 및 학생 권익 보호: 공지 누락이나 잘못된 정보 전달로 인한 학생들의 학사적 불이익을 예방하고, 정보 탐색 시간을 단축하여 효율적인 학습 환경을 제공합니다.

접근성 강화 및 글로벌 캠퍼스 조성: 모바일 기반의 24시간 자동 응답 체계를 구축하여 학생들의 접근성을 높였으며 , 다국어 지원을 통해 외국인 학생들도 쉽게 정보에 접근할 수 있어 글로벌 캠퍼스 환경 조성에 이바지합니다.

스마트 캠퍼스 이미지 제고: 대학이 AI 기반의 통합 학사 플랫폼을 선도적으로 구축함으로써 대외적으로 스마트 캠퍼스 선도 대학이라는 이미지를 확보할 수 있습니다.

기술 확산 및 지역 사회 기여: 챗봇 구축 경험은 향후 서울시 및 공공기관과의 협력 기반이 될 수 있어 기술 확산 및 지역 사회 기여도 기대할 수 있습니다.

기술개발 일정 및 추진체계

개발 일정

2025년 9월부터 12월까지 총 3개월간 진행되었으며, 월별 주요 진행 내용은 다음과 같습니다.

9월 (요구사항 분석 및 데이터 수집): 학사·규정·공지 데이터 수집, 커뮤니티 문서 크롤링 및 정제, 데이터베이스 및 VectorDB 구축(수집 문서 벡터화)을 진행하였습니다.

10월 (백엔드 서버 구축): 서버 환경 구성, API 설계 및 통신 구조를 정의하고 배포 환경을 설정하였습니다.

11월 (AI 모델 시스템 구현): LangChain 기반 Agent 개발, RAG 구조 구현 및 Path Routing 설계, 출처 제공 및 할루시네이션 보완 로직을 구현하였습니다.

12월 (프론트엔드 개발 및 통합 테스트): React.js 기반 UI/UX 설계, 다국어 지원 및 음성 입력 기능을 구현하고, 질의응답 정확도와 속도를 측정하며 전체 시스템 연동을 검증하였습니다.

구성원 및 추진체계

프로젝트는 서버, 클라이언트, 데이터, AI 모델, 문서화의 5개 파트로 역할을 분담하여 체계적으로 진행되었습니다. 채민관 (서버/배포): 백엔드 API 서버 구축 및 클라우드 배포 환경 설정 담당. 최재용 (클라이언트): 웹(Web) 기반 프론트엔드 개발 및 UI/UX 설계 담당. 정윤재 (데이터 관리): 학사 정보 및 커뮤니티 데이터 크롤링, 전처리, Vector DB 구축 담당. 이학림 (AI 모델 시스템): LangChain 기반 오케스트레이션 설계, RAG 파이프라인 및 Path Routing 로직 구현 담당. 김도훈 (문서화): 프로젝트 산출물 문서화 및 보고서 작성 담당.

설계

설계사양

제품의 요구사항

사용자(학생 및 교직원)의 니즈와 시스템의 기술적 완성도를 고려하여 다음과 같은 핵심 요구사항을 도출하였습니다.

즉시성 (응답 속도): 질의 입력 후 첫 답변이 5초 이내에 반환되어야 합니다.

정확성 (근거 기반 답변): 모든 답변은 규정 문서, 공지사항 링크 등 확실한 출처를 명시하여 사용자가 검증할 수 있어야 합니다. (Hallucination 방지)

정확한 문맥 이해: 다중 턴(Multi-turn) 대화에서 앞선 질문의 맥락을 유지하고 적절한 후속 응답을 제공해야 합니다.

다양한 입력 방식: 텍스트 입력을 기본으로 하되, 모바일 환경을 고려한 음성 입력 및 외국인 학생을 위한 다국어(영어 등)를 지원해야 합니다.

실시간 동적 정보 연동: 식단, 행사, 강의 시간표 등 수시로 변하는 정보는 API 호출을 통해 최신 데이터를 제공해야 합니다.

편의성 (UI/UX): 직관적인 웹 인터페이스(React)를 제공하고, 빠른 질의 버튼(FAQ) 및 오류 안내 문구를 포함해야 합니다.

시스템 안정성 및 확장성: AWS 클라우드 환경에서 Docker/Kubernetes를 기반으로 배포되어 트래픽 증가에 유연하게 대응해야 합니다.

설계 사양

요구사항을 만족하기 위해 선정된 핵심 기술 스택과 설계 사양은 다음과 같습니다.

데이터 수집 및 전처리: Python 기반 크롤러(BeautifulSoup/Scrapy)를 통해 학사 규정, 공지 등을 수집하고, 의미 단위로 청킹(Chunking)합니다.

임베딩 및 Vector DB: 텍스트를 벡터로 변환(OpenAI Embedding / Llama)하여 ChromaDB에 저장합니다. 이는 RAG(검색 증강 생성)의 핵심 검색 엔진 역할을 합니다.

검색(Retriever) 및 재랭킹(Reranker): 1차로 코사인 유사도 기반 Top-k 문서를 검색하고, 2차로 Cross-encoder 기반 Reranker를 적용하여 정밀도를 높입니다.

LLM 및 오케스트레이션: Llama 3B 또는 GPT 모델을 사용하여 자연스러운 답변을 생성하며, LangChain을 통해 검색과 생성 과정을 제어합니다.

캐시 및 성능 최적화: Redis를 활용한 시맨틱 캐싱(Semantic Cache)을 도입하여 반복되는 질문의 응답 속도를 획기적으로 개선합니다.

개념설계안

본 시스템의 핵심 개념은 질문의 성격을 파악하여 최적의 경로로 답변을 처리하는 'Path Routing' 구조입니다.

이루매1.jpg

Path Routing 시스템: 사용자의 질문을 자연어 처리 기반 분류기가 분석하여 두 가지 경로로 분기합니다. ** 정적 정보 (Static): 학사 규정, 장학금 요건 등 자주 변하지 않는 정보는 Vector DB + RAG 방식을 통해 문서를 검색하여 답변합니다. ** 동적 정보 (Dynamic): 오늘의 학식, 도서관 잔여 좌석, 행사 일정 등 실시간 정보는 API 호출을 통해 최신 데이터를 가져와 답변합니다.

신뢰성 강화 모듈 (Citation): LLM이 생성한 답변의 신뢰도 점수가 낮거나 근거가 필요한 경우, 관련 공식 문서의 링크나 담당 부서의 연락처(이메일, 전화번호)를 자동으로 함께 제시하여 사용자가 직접 검증할 수 있도록 합니다.

접근성 강화 시스템: 외국인 학생을 위한 실시간 다국어 번역 모듈과 모바일 사용자를 위한 음성-텍스트 변환(STT) 모듈을 통합하여 정보 접근 장벽을 낮춥니다.

이론적 계산 및 시뮬레이션

2.jpg

RAG 시스템의 검색 정확도를 높이기 위해 코사인 유사도(Cosine Similarity) 공식을 핵심 이론으로 적용하였습니다.코사인 유사도: 사용자 질문 벡터($A$)와 저장된 문서 벡터($B$) 사이의 각도를 측정하여 의미적 유사성을 판단합니다. 본 프로젝트에서는 ChromaDB의 검색 알고리즘으로 활용되어 질문과 가장 관련성이 높은 Top-k 문서를 추출하는 데 사용됩니다.

상세설계 내용

소프트웨어 아키텍처는 프론트엔드, 백엔드, AI 파이프라인, 데이터베이스 계층으로 모듈화되어 설계되었습니다.

[이미지: 전체 시스템 아키텍처 다이어그램 (Client - Server - DB/AI 구조도)]

User Interface (Client): React.js 기반의 웹 애플리케이션으로, 채팅창, 추천 질문 패널, 출처 표시 패널로 구성됩니다. 사용자의 편의를 위해 직관적인 UI를 제공합니다.

Back-end (Spring Boot): 전체 시스템의 컨트롤 타워 역할을 수행합니다. ** Routing Service: 사용자 의도를 분류하여 RAG 또는 API로 요청을 전달합니다. ** Task Queue: 크롤링 및 임베딩 작업을 비동기로 처리하여 시스템 부하를 관리합니다.

RAG Pipeline (AI Logic): ** ChromaDB: 임베딩된 문서 벡터를 저장하고 검색을 수행합니다. ** Reranker: 검색된 문서들의 순위를 재조정하여 가장 적합한 문맥을 LLM에 전달합니다. ** LLM Service: 검색된 정보(Context)와 프롬프트(Prompt)를 결합하여 최종 답변을 생성합니다.

Data Storage: ** MongoDB: 문서의 원본 URL, 카테고리, 크롤링 날짜 등 메타데이터와 사용자 대화 로그를 저장합니다. ** Redis: 자주 묻는 질문(FAQ)에 대한 답변을 캐싱(TTL 설정)하여 LLM API 비용을 절감하고 응답 지연(Latency)을 최소화합니다.

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

3.jpg 이루매4.jpg 이루매5.jpg

포스터

내용

관련사업비 내역서

이루매내역서.jpg

완료작품의 평가

기존 서비스 대비 우수성: 타 대학(이화여대, 고려대) 챗봇이 단순히 키워드에 매칭된 고정된 답변(백과사전식)만 제공하는 것과 달리, Chat 이루매는 RAG 구조를 통해 질문의 맥락을 파악하고 구체적인 답변을 생성합니다. 학교 데이터와 직접 관련이 없는 일상적인 질문에도 LLM을 활용하여 유연하게 답변할 수 있다는 강점이 있습니다.

개발 과정의 한계 및 개선점: 문서 비정형성 문제: 학사 편람이나 공지사항의 형식이 통일되어 있지 않아 데이터 전처리(Chunking) 및 임베딩 과정에서 의미가 훼손되지 않도록 세밀한 조정이 필요했습니다. 미세 정보 구분: "학부 등록금"과 "대학원 등록금"처럼 미세한 차이가 있는 정보를 구분하는 데 검색 오류가 발생하기도 하여, 이를 해결하기 위해 메타데이터 필터링과 Reranker 도입을 시도했습니다. 데이터 최신성: 공지사항의 실시간 반영을 위해 완전 자동화 파이프라인을 목표로 했으나, 일정상의 이유로 일부 구간은 반자동 방식으로 구현되어 향후 자동화 고도화가 필요합니다.

향후계획

1. RAG 성능 고도화

단순한 Top-k Retrieval 방식에서 벗어나, 고난도 질의에서도 일관된 성능을 확보하기 위해 검색 알고리즘을 개선할 계획입니다.

하이브리드 검색 도입: 키워드 매칭(BM25)과 의미 검색(Dense Retrieval)을 결합하여 검색 정확도를 보완합니다.

정밀도 향상: Cross-encoder 기반의 Reranker를 적용하여 검색된 문서의 순위를 재조정함으로써 미세한 정보 차이(예: 학부 등록금 vs 대학원 등록금)를 명확히 구분합니다.

지속적 학습: 사용자 로그를 기반으로 LLM 선호도 학습(Preference Learning) 및 검색 피드백 루프(Retrieval Feedback Loop)를 구축하여 답변 품질을 지속적으로 개선합니다.

2. 데이터 파이프라인 완전 자동화

현재 반자동으로 운영되는 크롤링 및 임베딩 과정을 완전히 자동화하여 정보의 최신성(Freshness)을 실시간으로 유지합니다.

변경 감지 및 부분 업데이트: 웹페이지의 변경 사항을 감지(Change Detection)하여 변경된 부분만 부분 업데이트(Incremental Embedding)하는 기술을 적용, 운영 비용을 절감하고 효율성을 높입니다.

자동 갱신 스케줄링: 주기적 스케줄링을 통해 공지사항 등 시시각각 변하는 정보를 즉시 시스템에 반영합니다.

3. 다국어 지원 및 서비스 확장

국제 학생 비율 증가에 맞춰 언어 장벽을 해소하고 서비스 영역을 확장합니다.

다국어 시스템 구축: 다국어 임베딩 모델(Multilingual Embedding)과 번역 LLM을 결합하여 영어, 중국어, 일본어 등 다양한 언어로 학사 정보를 제공합니다.

서비스 영역 확대: 현재의 학사 행정 중심에서 나아가 취업 정보, 국제 교류, 장학금 정밀 상담 등으로 서비스 도메인을 확장하고, AI 에이전트(Agentic RAG) 기술을 도입하여 시스템 통합성을 확보할 계획입니다.

특허 출원 내용

내용