2분반-Chat이루매
프로젝트 개요
기술개발 과제
국문 : Chat 이루매
영문 : Chat Irumae
과제 팀명
컴종설 2조
지도교수
박관용 교수님
개발기간
2025년 9월 ~ 2025년 12월 (총 3개월)
구성원 소개
서울시립대학교 컴퓨터과학과 2019920055 채민관
서울시립대학교 컴퓨터과학과 2022920009 김도훈
서울시립대학교 컴퓨터과학과 2020920063 최재용
서울시립대학교 컴퓨터과학과 2020920057 정윤재
서울시립대학교 컴퓨터과학과 2020920050 이학림
서론
개발 과제의 개요
개발 과제 요약
서울시립대학교 학생들이 학사 규정, 시설, 식단, 행사 등의 학교생활 전반에 대한 정보를 신속하고 정확하게 얻는 것은 학업 효율성과 캠퍼스 생활 만족도를 높이는 중요한 요소입니다. 그러나 현재는 정보가 학사 공지, 포탈, 커뮤니티(에브리타임) 등 여러 곳에 분산되어 있어 학생들이 직접 탐색해야 하는 불편함이 있습니다. 이를 해결하기 위해 Vector DB 기반 RAG 구조와 LLM을 활용한 질의응답 시스템 'Chat 이루매'를 개발하였습니다. 이 시스템은 질문 유형에 따라 최적화된 응답 경로(Path Routing)를 제공하며, LLM의 불확실한 답변 문제를 최소화하기 위해 관련 규정 페이지, 부서 연락처 등 신뢰할 수 있는 출처를 함께 제공합니다. 또한 다국어 지원, 음성 입력, 캠퍼스 공간 인식 기반 경로 안내 기능을 통합하여 접근성을 높였습니다.
개발 과제의 배경
서울시립대학교는 매년 학사제도 변경, 장학금, 수강 신청 등 다양한 행정 정보를 공지하지만, 학생들은 이를 UOS 포털, 학사 공지, 단과대별 공지 등 분산된 시스템에서 확인해야 합니다. 이 과정에서 정보 누락이나 반복적인 행정실 문의가 발생하여 업무 비효율을 초래하고 있습니다. 또한 대학 구성원의 70% 이상이 모바일 기반으로 정보를 탐색하는 환경임에도, 기존 FAQ 방식은 검색 정확도와 접근성이 낮아 만족도가 떨어지는 문제가 있었습니다. 이러한 문제를 해결하기 위해 자연어 기반 질문을 실시간으로 처리하고, 학사 편람·공지 사항 등 공신력 있는 자료를 기반으로 정확한 답변을 제공하는 서울시립대 전용 RAG 기반 챗봇 시스템이 필요하게 되었습니다.
개발 과제의 목표 및 내용
본 과제의 핵심 목표는 서울시립대학교 학사·행정 정보를 정확하고 신뢰성 있게 제공하는 AI 챗봇을 구축하는 것입니다. 이를 달성하기 위한 주요 개발 내용은 다음과 같습니다.
RAG 기반 시스템 구축: 실제 문서에서 근거를 검색하고 답변을 생성하는 구조로, 사용자 질문 파싱, 벡터 DB 기반 문서 검색, LLM 답변 생성, 출처 제시의 4단계 파이프라인을 구성하였습니다
데이터 처리 및 저장: 학사편람, 학사공지, 장학제도, 수강신청 안내문 등을 크롤링·전처리하여 ChromaDB에 임베딩하고, MongoDB에 메타데이터를 저장하였습니다.
백엔드 및 최적화: Spring Boot 백엔드가 검색·생성 과정을 제어하며, Redis를 시맨틱 캐시로 활용하여 응답 속도를 높였습니다.
사용자 인터페이스: 웹 기반 프론트엔드(React)를 통해 학생이 자연어로 질문하면 즉시 답변을 받을 수 있도록 설계하였으며, 정확도 평가를 위한 테스트 데이터셋을 구축하여 성능을 검증하였습니다.
관련 기술의 현황
관련 기술의 현황 및 분석(State of art)
-전 세계적인 기술현황 Retrieval-Augmented Generation(RAG)은 대형 언어모델(LLM)의 생성 능력에 문서 검색을 결합해 사실 기반 답변을 만드는 표준 아키텍처로 자리 잡았습니다. 최근 연구들은 검색과 생성을 병렬·적응적으로 결합해 지연(latency)을 줄이고 품질을 높이는 방향(예: PipeRAG)으로 진화하고 있습니다. 검색 기술로는 의미 임베딩 기반의 Dense retrieval과 키워드 기반의 Sparse 검색을 혼합한 Hybrid search가 보편적이며, 정밀도를 높이기 위해 Cross-encoder를 활용한 재랭킹(Reranking) 전략이 널리 채택되고 있습니다. 인프라 측면에서는 Chroma와 같은 벡터 DB와 LangChain 같은 오케스트레이션 툴이 표준 스택으로 활용됩니다.
-특허조사 및 특허 전략 분석 본 과제와 관련된 주요 특허로는 US20240346256A1(Response generation using a retrieval augmented AI model)이 있습니다. 이 특허는 쿼리와 관련된 정보를 검색하고 LLM을 통해 답변을 생성하는 시스템에 관한 것으로, 본 프로젝트의 RAG 구조 및 LLM 활용 방식과 유사한 기술적 배경을 가지고 있습니다.
-기술 로드맵 기술 개발은 크게 3단계로 진행됩니다. 0–1개월(기초구축)에는 원자료 수집 및 크롤러 완성, 문서 전처리(Chunking), Chroma 컬렉션 구축 및 프로토타입 RAG 파이프라인을 완성합니다. 1–3개월(성능고도화)에는 하이브리드 검색 도입, Reranker(교차 인코더) 추가, Redis 캐싱 및 신뢰성 모듈(출처 표기)을 적용하여 성능을 향상합니다. 3–6개월(운영·확장)에는 멀티턴 대화 관리, 다국어(영·중·일) 확장, 음성 입력 인터페이스 추가 및 데이터 자동 갱신 파이프라인 구축을 목표로 합니다.
시장상황에 대한 분석
-경쟁제품 조사 비교 이화여대, 고려대, 서울시 교육청 등의 기존 챗봇과 비교 분석하였습니다. 타 챗봇들은 주로 단순 키워드 매칭이나 정해진 FAQ 답변을 제공하는 방식(백과사전식)으로, 구체적인 상황에 대한 유연한 답변이 어렵습니다. 예를 들어 정수기와 화장실 위치를 물었을 때 동일하게 단순 지도만 제시하는 식입니다. 반면 Chat 이루매는 Vector DB와 RAG를 활용하여 질문에 대해 구체적이고 자세한 답변을 생성하며, 학교 데이터와 직접 관련이 없는 질문에도 LLM을 활용해 답변할 수 있다는 차별점이 있습니다.
-마케팅 전략 제시 마케팅 목표는 학생·교직원 채택률 확대와 행정 문의 감소입니다. 첫째, 학기 초나 오리엔테이션 기간에 파일럿(시범운영)을 배포하여 피드백을 수집하고 즉시 패치합니다. 둘째, 학교 포털, 에브리타임, SNS 채널을 통해 사용법과 FAQ 영상을 배포하는 디지털 통합 마케팅을 진행합니다. 셋째, 행정 부서(장학팀, 교무팀 등)와 협력하여 챗봇의 문의 해결률 지표를 공유하고 운영 개선에 반영합니다. 넷째, 답변에 출처 제시 기능을 강조하는 신뢰성 캠페인을 통해 사용자의 신뢰를 확보합니다.
개발과제의 기대효과
기술적 기대효과
정확한 학사 정보 제공 및 신뢰성 확보: RAG(Retrieval-Augmented Generation) 구조를 통해 허위 정보 생성(Hallucination) 위험을 최소화하고, 실제 문서 기반 답변을 생성함으로써 챗봇의 신뢰성을 크게 향상했습니다.
질문 유형별 Path Routing(정적/동적 분기)을 적용하여 정적 정보는 문서 검색으로, 동적 정보는 API 호출로 처리함으로써 답변의 정확성을 높였습니다.
대학 도메인 특화 AI 모델 구축 역량 확보: 대학 행정 데이터 처리에 필요한 데이터 전처리, 벡터 DB 구축, 검색 알고리즘 최적화 등의 기술적 역량을 확보하였습니다.
시스템 확장성 및 모듈화: 현재는 학사 행정 중심이지만, 향후 캠퍼스 시설, 취업 정보, 국제 교류 등으로 서비스 영역을 손쉽게 확장할 수 있도록 모듈형 구조로 설계되었습니다.
운영 효율성 및 성능 최적화: Redis 기반의 시맨틱 캐시를 적용하여 LLM API 비용을 절감하고 실시간 응답 성능을 높여, 실제 서비스에 적용 가능한 수준의 운영 효율성을 확보하였습니다.
경제적, 사회적 기대 및 파급효과
행정 업무 효율화 및 비용 절감: 단순 반복적인 행정실 문의가 감소함에 따라, 행정 인력은 보다 전문적이고 고부가가치 업무에 집중할 수 있어 운영 효율성이 향상됩니다.
교육 서비스 품질 향상 및 학생 권익 보호: 공지 누락이나 잘못된 정보 전달로 인한 학생들의 학사적 불이익을 예방하고, 정보 탐색 시간을 단축하여 효율적인 학습 환경을 제공합니다.
접근성 강화 및 글로벌 캠퍼스 조성: 모바일 기반의 24시간 자동 응답 체계를 구축하여 학생들의 접근성을 높였으며 , 다국어 지원을 통해 외국인 학생들도 쉽게 정보에 접근할 수 있어 글로벌 캠퍼스 환경 조성에 이바지합니다.
스마트 캠퍼스 이미지 제고: 대학이 AI 기반의 통합 학사 플랫폼을 선도적으로 구축함으로써 대외적으로 스마트 캠퍼스 선도 대학이라는 이미지를 확보할 수 있습니다.
기술 확산 및 지역 사회 기여: 챗봇 구축 경험은 향후 서울시 및 공공기관과의 협력 기반이 될 수 있어 기술 확산 및 지역 사회 기여도 기대할 수 있습니다.
기술개발 일정 및 추진체계
개발 일정
2025년 9월부터 12월까지 총 3개월간 진행되었으며, 월별 주요 진행 내용은 다음과 같습니다.
9월 (요구사항 분석 및 데이터 수집): 학사·규정·공지 데이터 수집, 커뮤니티 문서 크롤링 및 정제, 데이터베이스 및 VectorDB 구축(수집 문서 벡터화)을 진행하였습니다.
10월 (백엔드 서버 구축): 서버 환경 구성, API 설계 및 통신 구조를 정의하고 배포 환경을 설정하였습니다.
11월 (AI 모델 시스템 구현): LangChain 기반 Agent 개발, RAG 구조 구현 및 Path Routing 설계, 출처 제공 및 할루시네이션 보완 로직을 구현하였습니다.
12월 (프론트엔드 개발 및 통합 테스트): React.js 기반 UI/UX 설계, 다국어 지원 및 음성 입력 기능을 구현하고, 질의응답 정확도와 속도를 측정하며 전체 시스템 연동을 검증하였습니다.
구성원 및 추진체계
프로젝트는 서버, 클라이언트, 데이터, AI 모델, 문서화의 5개 파트로 역할을 분담하여 체계적으로 진행되었습니다. 채민관 (서버/배포): 백엔드 API 서버 구축 및 클라우드 배포 환경 설정 담당. 최재용 (클라이언트): 웹(Web) 기반 프론트엔드 개발 및 UI/UX 설계 담당. 정윤재 (데이터 관리): 학사 정보 및 커뮤니티 데이터 크롤링, 전처리, Vector DB 구축 담당. 이학림 (AI 모델 시스템): LangChain 기반 오케스트레이션 설계, RAG 파이프라인 및 Path Routing 로직 구현 담당. 김도훈 (문서화): 프로젝트 산출물 문서화 및 보고서 작성 담당.
설계
설계사양
제품의 요구사항
사용자(학생 및 교직원)의 니즈와 시스템의 기술적 완성도를 고려하여 다음과 같은 핵심 요구사항을 도출하였습니다.
즉시성 (응답 속도): 질의 입력 후 첫 답변이 5초 이내에 반환되어야 합니다.
정확성 (근거 기반 답변): 모든 답변은 규정 문서, 공지사항 링크 등 확실한 출처를 명시하여 사용자가 검증할 수 있어야 합니다. (Hallucination 방지)
정확한 문맥 이해: 다중 턴(Multi-turn) 대화에서 앞선 질문의 맥락을 유지하고 적절한 후속 응답을 제공해야 합니다.
다양한 입력 방식: 텍스트 입력을 기본으로 하되, 모바일 환경을 고려한 음성 입력 및 외국인 학생을 위한 다국어(영어 등)를 지원해야 합니다.
실시간 동적 정보 연동: 식단, 행사, 강의 시간표 등 수시로 변하는 정보는 API 호출을 통해 최신 데이터를 제공해야 합니다.
편의성 (UI/UX): 직관적인 웹 인터페이스(React)를 제공하고, 빠른 질의 버튼(FAQ) 및 오류 안내 문구를 포함해야 합니다.
시스템 안정성 및 확장성: AWS 클라우드 환경에서 Docker/Kubernetes를 기반으로 배포되어 트래픽 증가에 유연하게 대응해야 합니다.
설계 사양
요구사항을 만족하기 위해 선정된 핵심 기술 스택과 설계 사양은 다음과 같습니다.
데이터 수집 및 전처리: Python 기반 크롤러(BeautifulSoup/Scrapy)를 통해 학사 규정, 공지 등을 수집하고, 의미 단위로 청킹(Chunking)합니다.
임베딩 및 Vector DB: 텍스트를 벡터로 변환(OpenAI Embedding / Llama)하여 ChromaDB에 저장합니다. 이는 RAG(검색 증강 생성)의 핵심 검색 엔진 역할을 합니다.
검색(Retriever) 및 재랭킹(Reranker): 1차로 코사인 유사도 기반 Top-k 문서를 검색하고, 2차로 Cross-encoder 기반 Reranker를 적용하여 정밀도를 높입니다.
LLM 및 오케스트레이션: Llama 3B 또는 GPT 모델을 사용하여 자연스러운 답변을 생성하며, LangChain을 통해 검색과 생성 과정을 제어합니다.
캐시 및 성능 최적화: Redis를 활용한 시맨틱 캐싱(Semantic Cache)을 도입하여 반복되는 질문의 응답 속도를 획기적으로 개선합니다.
개념설계안
본 시스템의 핵심 개념은 질문의 성격을 파악하여 최적의 경로로 답변을 처리하는 'Path Routing' 구조입니다.
Path Routing 시스템: 사용자의 질문을 자연어 처리 기반 분류기가 분석하여 두 가지 경로로 분기합니다. ** 정적 정보 (Static): 학사 규정, 장학금 요건 등 자주 변하지 않는 정보는 Vector DB + RAG 방식을 통해 문서를 검색하여 답변합니다. ** 동적 정보 (Dynamic): 오늘의 학식, 도서관 잔여 좌석, 행사 일정 등 실시간 정보는 API 호출을 통해 최신 데이터를 가져와 답변합니다.
신뢰성 강화 모듈 (Citation): LLM이 생성한 답변의 신뢰도 점수가 낮거나 근거가 필요한 경우, 관련 공식 문서의 링크나 담당 부서의 연락처(이메일, 전화번호)를 자동으로 함께 제시하여 사용자가 직접 검증할 수 있도록 합니다.
접근성 강화 시스템: 외국인 학생을 위한 실시간 다국어 번역 모듈과 모바일 사용자를 위한 음성-텍스트 변환(STT) 모듈을 통합하여 정보 접근 장벽을 낮춥니다.
이론적 계산 및 시뮬레이션
RAG 시스템의 검색 정확도를 높이기 위해 **코사인 유사도(Cosine Similarity)** 공식을 핵심 이론으로 적용하였습니다.
- **코사인 유사도:** 사용자 질문 벡터(<math>A</math>)와 저장된 문서 벡터(<math>B</math>) 사이의 각도를 측정하여 의미적 유사성을 판단합니다.
- **수식:**
- <math display="block">\text{similarity} = \cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}</math>
- **설명:** 결과값은 -1에서 1 사이이며, 1에 가까울수록 두 텍스트의 의미가 유사함을 나타냅니다. 본 프로젝트에서는 ChromaDB의 검색 알고리즘으로 활용되어 질문과 가장 관련성이 높은 Top-k 문서를 추출하는 데 사용됩니다.
상세설계 내용
내용
결과 및 평가
완료 작품의 소개
프로토타입 사진 혹은 작동 장면
내용
포스터
내용
관련사업비 내역서
내용
완료작품의 평가
내용
향후계획
내용
특허 출원 내용
내용
