2분반-Chat이루매

cdc wiki
이동: 둘러보기, 검색

프로젝트 개요

기술개발 과제

국문 : Chat 이루매

영문 : Chat Irumae

과제 팀명

컴종설 2조

지도교수

박관용 교수님

개발기간

2025년 9월 ~ 2025년 12월 (총 3개월)

구성원 소개

서울시립대학교 컴퓨터과학과 2019920055 채민관

서울시립대학교 컴퓨터과학과 2022920009 김도훈

서울시립대학교 컴퓨터과학과 2020920063 최재용

서울시립대학교 컴퓨터과학과 2020920057 정윤재

서울시립대학교 컴퓨터과학과 2020920050 이학림

서론

개발 과제의 개요

개발 과제 요약

서울시립대학교 학생들이 학사 규정, 시설, 식단, 행사 등의 학교생활 전반에 대한 정보를 신속하고 정확하게 얻는 것은 학업 효율성과 캠퍼스 생활 만족도를 높이는 중요한 요소입니다. 그러나 현재는 정보가 학사 공지, 포탈, 커뮤니티(에브리타임) 등 여러 곳에 분산되어 있어 학생들이 직접 탐색해야 하는 불편함이 있습니다. 이를 해결하기 위해 Vector DB 기반 RAG 구조와 LLM을 활용한 질의응답 시스템 'Chat 이루매'를 개발하였습니다. 이 시스템은 질문 유형에 따라 최적화된 응답 경로(Path Routing)를 제공하며, LLM의 불확실한 답변 문제를 최소화하기 위해 관련 규정 페이지, 부서 연락처 등 신뢰할 수 있는 출처를 함께 제공합니다. 또한 다국어 지원, 음성 입력, 캠퍼스 공간 인식 기반 경로 안내 기능을 통합하여 접근성을 높였습니다.

개발 과제의 배경

서울시립대학교는 매년 학사제도 변경, 장학금, 수강 신청 등 다양한 행정 정보를 공지하지만, 학생들은 이를 UOS 포털, 학사 공지, 단과대별 공지 등 분산된 시스템에서 확인해야 합니다. 이 과정에서 정보 누락이나 반복적인 행정실 문의가 발생하여 업무 비효율을 초래하고 있습니다. 또한 대학 구성원의 70% 이상이 모바일 기반으로 정보를 탐색하는 환경임에도, 기존 FAQ 방식은 검색 정확도와 접근성이 낮아 만족도가 떨어지는 문제가 있었습니다. 이러한 문제를 해결하기 위해 자연어 기반 질문을 실시간으로 처리하고, 학사 편람·공지 사항 등 공신력 있는 자료를 기반으로 정확한 답변을 제공하는 서울시립대 전용 RAG 기반 챗봇 시스템이 필요하게 되었습니다.

개발 과제의 목표 및 내용

본 과제의 핵심 목표는 서울시립대학교 학사·행정 정보를 정확하고 신뢰성 있게 제공하는 AI 챗봇을 구축하는 것입니다. 이를 달성하기 위한 주요 개발 내용은 다음과 같습니다.

RAG 기반 시스템 구축: 실제 문서에서 근거를 검색하고 답변을 생성하는 구조로, 사용자 질문 파싱, 벡터 DB 기반 문서 검색, LLM 답변 생성, 출처 제시의 4단계 파이프라인을 구성하였습니다

데이터 처리 및 저장: 학사편람, 학사공지, 장학제도, 수강신청 안내문 등을 크롤링·전처리하여 ChromaDB에 임베딩하고, MongoDB에 메타데이터를 저장하였습니다.


백엔드 및 최적화: Spring Boot 백엔드가 검색·생성 과정을 제어하며, Redis를 시맨틱 캐시로 활용하여 응답 속도를 높였습니다.


사용자 인터페이스: 웹 기반 프론트엔드(React)를 통해 학생이 자연어로 질문하면 즉시 답변을 받을 수 있도록 설계하였으며, 정확도 평가를 위한 테스트 데이터셋을 구축하여 성능을 검증하였습니다.

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

-전 세계적인 기술현황 Retrieval-Augmented Generation(RAG)은 대형 언어모델(LLM)의 생성 능력에 문서 검색을 결합해 사실 기반 답변을 만드는 표준 아키텍처로 자리 잡았습니다. 최근 연구들은 검색과 생성을 병렬·적응적으로 결합해 지연(latency)을 줄이고 품질을 높이는 방향(예: PipeRAG)으로 진화하고 있습니다. 검색 기술로는 의미 임베딩 기반의 Dense retrieval과 키워드 기반의 Sparse 검색을 혼합한 Hybrid search가 보편적이며, 정밀도를 높이기 위해 Cross-encoder를 활용한 재랭킹(Reranking) 전략이 널리 채택되고 있습니다. 인프라 측면에서는 Chroma와 같은 벡터 DB와 LangChain 같은 오케스트레이션 툴이 표준 스택으로 활용됩니다.

-특허조사 및 특허 전략 분석 본 과제와 관련된 주요 특허로는 US20240346256A1(Response generation using a retrieval augmented AI model)이 있습니다. 이 특허는 쿼리와 관련된 정보를 검색하고 LLM을 통해 답변을 생성하는 시스템에 관한 것으로, 본 프로젝트의 RAG 구조 및 LLM 활용 방식과 유사한 기술적 배경을 가지고 있습니다.

-기술 로드맵 기술 개발은 크게 3단계로 진행됩니다. 0–1개월(기초구축)에는 원자료 수집 및 크롤러 완성, 문서 전처리(Chunking), Chroma 컬렉션 구축 및 프로토타입 RAG 파이프라인을 완성합니다. 1–3개월(성능고도화)에는 하이브리드 검색 도입, Reranker(교차 인코더) 추가, Redis 캐싱 및 신뢰성 모듈(출처 표기)을 적용하여 성능을 향상합니다. 3–6개월(운영·확장)에는 멀티턴 대화 관리, 다국어(영·중·일) 확장, 음성 입력 인터페이스 추가 및 데이터 자동 갱신 파이프라인 구축을 목표로 합니다.

시장상황에 대한 분석

-경쟁제품 조사 비교 이화여대, 고려대, 서울시 교육청 등의 기존 챗봇과 비교 분석하였습니다. 타 챗봇들은 주로 단순 키워드 매칭이나 정해진 FAQ 답변을 제공하는 방식(백과사전식)으로, 구체적인 상황에 대한 유연한 답변이 어렵습니다. 예를 들어 정수기와 화장실 위치를 물었을 때 동일하게 단순 지도만 제시하는 식입니다. 반면 Chat 이루매는 Vector DB와 RAG를 활용하여 질문에 대해 구체적이고 자세한 답변을 생성하며, 학교 데이터와 직접 관련이 없는 질문에도 LLM을 활용해 답변할 수 있다는 차별점이 있습니다.

-마케팅 전략 제시 마케팅 목표는 학생·교직원 채택률 확대와 행정 문의 감소입니다. 첫째, 학기 초나 오리엔테이션 기간에 파일럿(시범운영)을 배포하여 피드백을 수집하고 즉시 패치합니다. 둘째, 학교 포털, 에브리타임, SNS 채널을 통해 사용법과 FAQ 영상을 배포하는 디지털 통합 마케팅을 진행합니다. 셋째, 행정 부서(장학팀, 교무팀 등)와 협력하여 챗봇의 문의 해결률 지표를 공유하고 운영 개선에 반영합니다. 넷째, 답변에 출처 제시 기능을 강조하는 신뢰성 캠페인을 통해 사용자의 신뢰를 확보합니다.

개발과제의 기대효과

기술적 기대효과

정확한 학사 정보 제공 및 신뢰성 확보: RAG(Retrieval-Augmented Generation) 구조를 통해 허위 정보 생성(Hallucination) 위험을 최소화하고, 실제 문서 기반 답변을 생성함으로써 챗봇의 신뢰성을 크게 향상했습니다.

질문 유형별 Path Routing(정적/동적 분기)을 적용하여 정적 정보는 문서 검색으로, 동적 정보는 API 호출로 처리함으로써 답변의 정확성을 높였습니다.

대학 도메인 특화 AI 모델 구축 역량 확보: 대학 행정 데이터 처리에 필요한 데이터 전처리, 벡터 DB 구축, 검색 알고리즘 최적화 등의 기술적 역량을 확보하였습니다.

시스템 확장성 및 모듈화: 현재는 학사 행정 중심이지만, 향후 캠퍼스 시설, 취업 정보, 국제 교류 등으로 서비스 영역을 손쉽게 확장할 수 있도록 모듈형 구조로 설계되었습니다.

운영 효율성 및 성능 최적화: Redis 기반의 시맨틱 캐시를 적용하여 LLM API 비용을 절감하고 실시간 응답 성능을 높여, 실제 서비스에 적용 가능한 수준의 운영 효율성을 확보하였습니다.

경제적, 사회적 기대 및 파급효과

행정 업무 효율화 및 비용 절감: 단순 반복적인 행정실 문의가 감소함에 따라, 행정 인력은 보다 전문적이고 고부가가치 업무에 집중할 수 있어 운영 효율성이 향상됩니다.

교육 서비스 품질 향상 및 학생 권익 보호: 공지 누락이나 잘못된 정보 전달로 인한 학생들의 학사적 불이익을 예방하고, 정보 탐색 시간을 단축하여 효율적인 학습 환경을 제공합니다.

접근성 강화 및 글로벌 캠퍼스 조성: 모바일 기반의 24시간 자동 응답 체계를 구축하여 학생들의 접근성을 높였으며 , 다국어 지원을 통해 외국인 학생들도 쉽게 정보에 접근할 수 있어 글로벌 캠퍼스 환경 조성에 이바지합니다.

스마트 캠퍼스 이미지 제고: 대학이 AI 기반의 통합 학사 플랫폼을 선도적으로 구축함으로써 대외적으로 스마트 캠퍼스 선도 대학이라는 이미지를 확보할 수 있습니다.

기술 확산 및 지역 사회 기여: 챗봇 구축 경험은 향후 서울시 및 공공기관과의 협력 기반이 될 수 있어 기술 확산 및 지역 사회 기여도 기대할 수 있습니다.

기술개발 일정 및 추진체계

개발 일정

2025년 9월부터 12월까지 총 3개월간 진행되었으며, 월별 주요 진행 내용은 다음과 같습니다.

9월 (요구사항 분석 및 데이터 수집): 학사·규정·공지 데이터 수집, 커뮤니티 문서 크롤링 및 정제, 데이터베이스 및 VectorDB 구축(수집 문서 벡터화)을 진행하였습니다.

10월 (백엔드 서버 구축): 서버 환경 구성, API 설계 및 통신 구조를 정의하고 배포 환경을 설정하였습니다.

11월 (AI 모델 시스템 구현): LangChain 기반 Agent 개발, RAG 구조 구현 및 Path Routing 설계, 출처 제공 및 할루시네이션 보완 로직을 구현하였습니다.

12월 (프론트엔드 개발 및 통합 테스트): React.js 기반 UI/UX 설계, 다국어 지원 및 음성 입력 기능을 구현하고, 질의응답 정확도와 속도를 측정하며 전체 시스템 연동을 검증하였습니다.

구성원 및 추진체계

프로젝트는 서버, 클라이언트, 데이터, AI 모델, 문서화의 5개 파트로 역할을 분담하여 체계적으로 진행되었습니다. 채민관 (서버/배포): 백엔드 API 서버 구축 및 클라우드 배포 환경 설정 담당. 최재용 (클라이언트): 웹(Web) 기반 프론트엔드 개발 및 UI/UX 설계 담당. 정윤재 (데이터 관리): 학사 정보 및 커뮤니티 데이터 크롤링, 전처리, Vector DB 구축 담당. 이학림 (AI 모델 시스템): LangChain 기반 오케스트레이션 설계, RAG 파이프라인 및 Path Routing 로직 구현 담당. 김도훈 (문서화): 프로젝트 산출물 문서화 및 보고서 작성 담당.

설계

설계사양

제품의 요구사항

사용자(학생 및 교직원)의 니즈와 시스템의 기술적 완성도를 고려하여 다음과 같은 핵심 요구사항을 도출하였습니다.

즉시성 (응답 속도): 질의 입력 후 첫 답변이 5초 이내에 반환되어야 합니다.

정확성 (근거 기반 답변): 모든 답변은 규정 문서, 공지사항 링크 등 확실한 출처를 명시하여 사용자가 검증할 수 있어야 합니다. (Hallucination 방지)

정확한 문맥 이해: 다중 턴(Multi-turn) 대화에서 앞선 질문의 맥락을 유지하고 적절한 후속 응답을 제공해야 합니다.

다양한 입력 방식: 텍스트 입력을 기본으로 하되, 모바일 환경을 고려한 음성 입력 및 외국인 학생을 위한 다국어(영어 등)를 지원해야 합니다.

실시간 동적 정보 연동: 식단, 행사, 강의 시간표 등 수시로 변하는 정보는 API 호출을 통해 최신 데이터를 제공해야 합니다.

편의성 (UI/UX): 직관적인 웹 인터페이스(React)를 제공하고, 빠른 질의 버튼(FAQ) 및 오류 안내 문구를 포함해야 합니다.

시스템 안정성 및 확장성: AWS 클라우드 환경에서 Docker/Kubernetes를 기반으로 배포되어 트래픽 증가에 유연하게 대응해야 합니다.

설계 사양

요구사항을 만족하기 위해 선정된 핵심 기술 스택과 설계 사양은 다음과 같습니다.

데이터 수집 및 전처리: Python 기반 크롤러(BeautifulSoup/Scrapy)를 통해 학사 규정, 공지 등을 수집하고, 의미 단위로 청킹(Chunking)합니다.

임베딩 및 Vector DB: 텍스트를 벡터로 변환(OpenAI Embedding / Llama)하여 ChromaDB에 저장합니다. 이는 RAG(검색 증강 생성)의 핵심 검색 엔진 역할을 합니다.

검색(Retriever) 및 재랭킹(Reranker): 1차로 코사인 유사도 기반 Top-k 문서를 검색하고, 2차로 Cross-encoder 기반 Reranker를 적용하여 정밀도를 높입니다.

LLM 및 오케스트레이션: Llama 3B 또는 GPT 모델을 사용하여 자연스러운 답변을 생성하며, LangChain을 통해 검색과 생성 과정을 제어합니다.

캐시 및 성능 최적화: Redis를 활용한 시맨틱 캐싱(Semantic Cache)을 도입하여 반복되는 질문의 응답 속도를 획기적으로 개선합니다.

개념설계안

본 시스템의 핵심 개념은 질문의 성격을 파악하여 최적의 경로로 답변을 처리하는 'Path Routing' 구조입니다.

이루매1.jpg

Path Routing 시스템: 사용자의 질문을 자연어 처리 기반 분류기가 분석하여 두 가지 경로로 분기합니다. ** 정적 정보 (Static): 학사 규정, 장학금 요건 등 자주 변하지 않는 정보는 Vector DB + RAG 방식을 통해 문서를 검색하여 답변합니다. ** 동적 정보 (Dynamic): 오늘의 학식, 도서관 잔여 좌석, 행사 일정 등 실시간 정보는 API 호출을 통해 최신 데이터를 가져와 답변합니다.

신뢰성 강화 모듈 (Citation): LLM이 생성한 답변의 신뢰도 점수가 낮거나 근거가 필요한 경우, 관련 공식 문서의 링크나 담당 부서의 연락처(이메일, 전화번호)를 자동으로 함께 제시하여 사용자가 직접 검증할 수 있도록 합니다.

접근성 강화 시스템: 외국인 학생을 위한 실시간 다국어 번역 모듈과 모바일 사용자를 위한 음성-텍스트 변환(STT) 모듈을 통합하여 정보 접근 장벽을 낮춥니다.

이론적 계산 및 시뮬레이션

2.jpg

RAG 시스템의 검색 정확도를 높이기 위해 코사인 유사도(Cosine Similarity) 공식을 핵심 이론으로 적용하였습니다.코사인 유사도: 사용자 질문 벡터($A$)와 저장된 문서 벡터($B$) 사이의 각도를 측정하여 의미적 유사성을 판단합니다. 본 프로젝트에서는 ChromaDB의 검색 알고리즘으로 활용되어 질문과 가장 관련성이 높은 Top-k 문서를 추출하는 데 사용됩니다.

상세설계 내용

소프트웨어 아키텍처는 프론트엔드, 백엔드, AI 파이프라인, 데이터베이스 계층으로 모듈화되어 설계되었습니다.

[이미지: 전체 시스템 아키텍처 다이어그램 (Client - Server - DB/AI 구조도)]

User Interface (Client): React.js 기반의 웹 애플리케이션으로, 채팅창, 추천 질문 패널, 출처 표시 패널로 구성됩니다. 사용자의 편의를 위해 직관적인 UI를 제공합니다.

Back-end (Spring Boot): 전체 시스템의 컨트롤 타워 역할을 수행합니다. ** Routing Service: 사용자 의도를 분류하여 RAG 또는 API로 요청을 전달합니다. ** Task Queue: 크롤링 및 임베딩 작업을 비동기로 처리하여 시스템 부하를 관리합니다.

RAG Pipeline (AI Logic): ** ChromaDB: 임베딩된 문서 벡터를 저장하고 검색을 수행합니다. ** Reranker: 검색된 문서들의 순위를 재조정하여 가장 적합한 문맥을 LLM에 전달합니다. ** LLM Service: 검색된 정보(Context)와 프롬프트(Prompt)를 결합하여 최종 답변을 생성합니다.

Data Storage: ** MongoDB: 문서의 원본 URL, 카테고리, 크롤링 날짜 등 메타데이터와 사용자 대화 로그를 저장합니다. ** Redis: 자주 묻는 질문(FAQ)에 대한 답변을 캐싱(TTL 설정)하여 LLM API 비용을 절감하고 응답 지연(Latency)을 최소화합니다.

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

3.jpg 이루매4.jpg 이루매5.jpg

포스터

내용

관련사업비 내역서

이루매내역서.jpg

완료작품의 평가

기존 서비스 대비 우수성: 타 대학(이화여대, 고려대) 챗봇이 단순히 키워드에 매칭된 고정된 답변(백과사전식)만 제공하는 것과 달리, Chat 이루매는 RAG 구조를 통해 질문의 맥락을 파악하고 구체적인 답변을 생성합니다. 학교 데이터와 직접 관련이 없는 일상적인 질문에도 LLM을 활용하여 유연하게 답변할 수 있다는 강점이 있습니다.

개발 과정의 한계 및 개선점: 문서 비정형성 문제: 학사 편람이나 공지사항의 형식이 통일되어 있지 않아 데이터 전처리(Chunking) 및 임베딩 과정에서 의미가 훼손되지 않도록 세밀한 조정이 필요했습니다. 미세 정보 구분: "학부 등록금"과 "대학원 등록금"처럼 미세한 차이가 있는 정보를 구분하는 데 검색 오류가 발생하기도 하여, 이를 해결하기 위해 메타데이터 필터링과 Reranker 도입을 시도했습니다. 데이터 최신성: 공지사항의 실시간 반영을 위해 완전 자동화 파이프라인을 목표로 했으나, 일정상의 이유로 일부 구간은 반자동 방식으로 구현되어 향후 자동화 고도화가 필요합니다.

향후계획

1. RAG 성능 고도화

단순한 Top-k Retrieval 방식에서 벗어나, 고난도 질의에서도 일관된 성능을 확보하기 위해 검색 알고리즘을 개선할 계획입니다.

하이브리드 검색 도입: 키워드 매칭(BM25)과 의미 검색(Dense Retrieval)을 결합하여 검색 정확도를 보완합니다.

정밀도 향상: Cross-encoder 기반의 Reranker를 적용하여 검색된 문서의 순위를 재조정함으로써 미세한 정보 차이(예: 학부 등록금 vs 대학원 등록금)를 명확히 구분합니다.

지속적 학습: 사용자 로그를 기반으로 LLM 선호도 학습(Preference Learning) 및 검색 피드백 루프(Retrieval Feedback Loop)를 구축하여 답변 품질을 지속적으로 개선합니다.

2. 데이터 파이프라인 완전 자동화

현재 반자동으로 운영되는 크롤링 및 임베딩 과정을 완전히 자동화하여 정보의 최신성(Freshness)을 실시간으로 유지합니다.

변경 감지 및 부분 업데이트: 웹페이지의 변경 사항을 감지(Change Detection)하여 변경된 부분만 부분 업데이트(Incremental Embedding)하는 기술을 적용, 운영 비용을 절감하고 효율성을 높입니다.

자동 갱신 스케줄링: 주기적 스케줄링을 통해 공지사항 등 시시각각 변하는 정보를 즉시 시스템에 반영합니다.

3. 다국어 지원 및 서비스 확장

국제 학생 비율 증가에 맞춰 언어 장벽을 해소하고 서비스 영역을 확장합니다.

다국어 시스템 구축: 다국어 임베딩 모델(Multilingual Embedding)과 번역 LLM을 결합하여 영어, 중국어, 일본어 등 다양한 언어로 학사 정보를 제공합니다.

서비스 영역 확대: 현재의 학사 행정 중심에서 나아가 취업 정보, 국제 교류, 장학금 정밀 상담 등으로 서비스 도메인을 확장하고, AI 에이전트(Agentic RAG) 기술을 도입하여 시스템 통합성을 확보할 계획입니다.

특허 출원 내용

내용