2분반-Chat이루매

프로젝트 개요

기술개발 과제

국문 : Chat 이루매

영문 : Chat Irumae

과제 팀명

컴종설 2조

지도교수

박관용 교수님

개발기간

2025년 9월 ~ 2025년 12월 (총 3개월)

구성원 소개

서울시립대학교 컴퓨터과학과 2019920055 채민관

서울시립대학교 컴퓨터과학과 2022920009 김도훈

서울시립대학교 컴퓨터과학과 2020920063 최재용

서울시립대학교 컴퓨터과학과 2020920057 정윤재

서울시립대학교 컴퓨터과학과 2020920050 이학림

서론

개발 과제의 개요

개발 과제 요약

서울시립대학교 학생들이 학사 규정, 시설, 식단, 행사 등의 학교생활 전반에 대한 정보를 신속하고 정확하게 얻는 것은 학업 효율성과 캠퍼스 생활 만족도를 높이는 중요한 요소입니다. 그러나 현재는 정보가 학사 공지, 포탈, 커뮤니티(에브리타임) 등 여러 곳에 분산되어 있어 학생들이 직접 탐색해야 하는 불편함이 있습니다. 이를 해결하기 위해 Vector DB 기반 RAG 구조와 LLM을 활용한 질의응답 시스템 'Chat 이루매'를 개발하였습니다. 이 시스템은 질문 유형에 따라 최적화된 응답 경로(Path Routing)를 제공하며, LLM의 불확실한 답변 문제를 최소화하기 위해 관련 규정 페이지, 부서 연락처 등 신뢰할 수 있는 출처를 함께 제공합니다. 또한 다국어 지원, 음성 입력, 캠퍼스 공간 인식 기반 경로 안내 기능을 통합하여 접근성을 높였습니다.

개발 과제의 배경

서울시립대학교는 매년 학사제도 변경, 장학금, 수강 신청 등 다양한 행정 정보를 공지하지만, 학생들은 이를 UOS 포털, 학사 공지, 단과대별 공지 등 분산된 시스템에서 확인해야 합니다. 이 과정에서 정보 누락이나 반복적인 행정실 문의가 발생하여 업무 비효율을 초래하고 있습니다. 또한 대학 구성원의 70% 이상이 모바일 기반으로 정보를 탐색하는 환경임에도, 기존 FAQ 방식은 검색 정확도와 접근성이 낮아 만족도가 떨어지는 문제가 있었습니다. 이러한 문제를 해결하기 위해 자연어 기반 질문을 실시간으로 처리하고, 학사 편람·공지 사항 등 공신력 있는 자료를 기반으로 정확한 답변을 제공하는 서울시립대 전용 RAG 기반 챗봇 시스템이 필요하게 되었습니다.

개발 과제의 목표 및 내용

본 과제의 핵심 목표는 서울시립대학교 학사·행정 정보를 정확하고 신뢰성 있게 제공하는 AI 챗봇을 구축하는 것입니다. 이를 달성하기 위한 주요 개발 내용은 다음과 같습니다.

RAG 기반 시스템 구축: 실제 문서에서 근거를 검색하고 답변을 생성하는 구조로, 사용자 질문 파싱, 벡터 DB 기반 문서 검색, LLM 답변 생성, 출처 제시의 4단계 파이프라인을 구성하였습니다

데이터 처리 및 저장: 학사편람, 학사공지, 장학제도, 수강신청 안내문 등을 크롤링·전처리하여 ChromaDB에 임베딩하고, MongoDB에 메타데이터를 저장하였습니다.

백엔드 및 최적화: Spring Boot 백엔드가 검색·생성 과정을 제어하며, Redis를 시맨틱 캐시로 활용하여 응답 속도를 높였습니다.

사용자 인터페이스: 웹 기반 프론트엔드(React)를 통해 학생이 자연어로 질문하면 즉시 답변을 받을 수 있도록 설계하였으며, 정확도 평가를 위한 테스트 데이터셋을 구축하여 성능을 검증하였습니다.

대학 도메인 특화 AI 모델 구축 역량 확보: 대학 행정 데이터 처리에 필요한 데이터 전처리, 벡터 DB 구축, 검색 알고리즘 최적화 등의 기술적 역량을 확보하였습니다.

시스템 확장성 및 모듈화: 현재는 학사 행정 중심이지만, 향후 캠퍼스 시설, 취업 정보, 국제 교류 등으로 서비스 영역을 손쉽게 확장할 수 있도록 모듈형 구조로 설계되었습니다.

운영 효율성 및 성능 최적화: Redis 기반의 시맨틱 캐시를 적용하여 LLM API 비용을 절감하고 실시간 응답 성능을 높여, 실제 서비스에 적용 가능한 수준의 운영 효율성을 확보하였습니다.

경제적, 사회적 기대 및 파급효과

행정 업무 효율화 및 비용 절감: 단순 반복적인 행정실 문의가 감소함에 따라, 행정 인력은 보다 전문적이고 고부가가치 업무에 집중할 수 있어 운영 효율성이 향상됩니다.

교육 서비스 품질 향상 및 학생 권익 보호: 공지 누락이나 잘못된 정보 전달로 인한 학생들의 학사적 불이익을 예방하고, 정보 탐색 시간을 단축하여 효율적인 학습 환경을 제공합니다.

접근성 강화 및 글로벌 캠퍼스 조성: 모바일 기반의 24시간 자동 응답 체계를 구축하여 학생들의 접근성을 높였으며 , 다국어 지원을 통해 외국인 학생들도 쉽게 정보에 접근할 수 있어 글로벌 캠퍼스 환경 조성에 이바지합니다.

스마트 캠퍼스 이미지 제고: 대학이 AI 기반의 통합 학사 플랫폼을 선도적으로 구축함으로써 대외적으로 스마트 캠퍼스 선도 대학이라는 이미지를 확보할 수 있습니다.

기술 확산 및 지역 사회 기여: 챗봇 구축 경험은 향후 서울시 및 공공기관과의 협력 기반이 될 수 있어 기술 확산 및 지역 사회 기여도 기대할 수 있습니다.

기술개발 일정 및 추진체계

개발 일정

2025년 9월부터 12월까지 총 3개월간 진행되었으며, 월별 주요 진행 내용은 다음과 같습니다.

9월 (요구사항 분석 및 데이터 수집): 학사·규정·공지 데이터 수집, 커뮤니티 문서 크롤링 및 정제, 데이터베이스 및 VectorDB 구축(수집 문서 벡터화)을 진행하였습니다.

10월 (백엔드 서버 구축): 서버 환경 구성, API 설계 및 통신 구조를 정의하고 배포 환경을 설정하였습니다.

11월 (AI 모델 시스템 구현): LangChain 기반 Agent 개발, RAG 구조 구현 및 Path Routing 설계, 출처 제공 및 할루시네이션 보완 로직을 구현하였습니다.

12월 (프론트엔드 개발 및 통합 테스트): React.js 기반 UI/UX 설계, 다국어 지원 및 음성 입력 기능을 구현하고, 질의응답 정확도와 속도를 측정하며 전체 시스템 연동을 검증하였습니다.

구성원 및 추진체계

프로젝트는 서버, 클라이언트, 데이터, AI 모델, 문서화의 5개 파트로 역할을 분담하여 체계적으로 진행되었습니다. 채민관 (서버/배포): 백엔드 API 서버 구축 및 클라우드 배포 환경 설정 담당. 최재용 (클라이언트): 웹(Web) 기반 프론트엔드 개발 및 UI/UX 설계 담당. 정윤재 (데이터 관리): 학사 정보 및 커뮤니티 데이터 크롤링, 전처리, Vector DB 구축 담당. 이학림 (AI 모델 시스템): LangChain 기반 오케스트레이션 설계, RAG 파이프라인 및 Path Routing 로직 구현 담당. 김도훈 (문서화): 프로젝트 산출물 문서화 및 보고서 작성 담당.

설계

설계사양

제품의 요구사항

사용자(학생 및 교직원)의 니즈와 시스템의 기술적 완성도를 고려하여 다음과 같은 핵심 요구사항을 도출하였습니다.

즉시성 (응답 속도): 질의 입력 후 첫 답변이 5초 이내에 반환되어야 합니다.

정확성 (근거 기반 답변): 모든 답변은 규정 문서, 공지사항 링크 등 확실한 출처를 명시하여 사용자가 검증할 수 있어야 합니다. (Hallucination 방지)

정확한 문맥 이해: 다중 턴(Multi-turn) 대화에서 앞선 질문의 맥락을 유지하고 적절한 후속 응답을 제공해야 합니다.

다양한 입력 방식: 텍스트 입력을 기본으로 하되, 모바일 환경을 고려한 음성 입력 및 외국인 학생을 위한 다국어(영어 등)를 지원해야 합니다.

실시간 동적 정보 연동: 식단, 행사, 강의 시간표 등 수시로 변하는 정보는 API 호출을 통해 최신 데이터를 제공해야 합니다.

편의성 (UI/UX): 직관적인 웹 인터페이스(React)를 제공하고, 빠른 질의 버튼(FAQ) 및 오류 안내 문구를 포함해야 합니다.

시스템 안정성 및 확장성: AWS 클라우드 환경에서 Docker/Kubernetes를 기반으로 배포되어 트래픽 증가에 유연하게 대응해야 합니다.

설계 사양

요구사항을 만족하기 위해 선정된 핵심 기술 스택과 설계 사양은 다음과 같습니다.

데이터 수집 및 전처리: Python 기반 크롤러(BeautifulSoup/Scrapy)를 통해 학사 규정, 공지 등을 수집하고, 의미 단위로 청킹(Chunking)합니다.

임베딩 및 Vector DB: 텍스트를 벡터로 변환(OpenAI Embedding / Llama)하여 ChromaDB에 저장합니다. 이는 RAG(검색 증강 생성)의 핵심 검색 엔진 역할을 합니다.

검색(Retriever) 및 재랭킹(Reranker): 1차로 코사인 유사도 기반 Top-k 문서를 검색하고, 2차로 Cross-encoder 기반 Reranker를 적용하여 정밀도를 높입니다.

LLM 및 오케스트레이션: Llama 3B 또는 GPT 모델을 사용하여 자연스러운 답변을 생성하며, LangChain을 통해 검색과 생성 과정을 제어합니다.

캐시 및 성능 최적화: Redis를 활용한 시맨틱 캐싱(Semantic Cache)을 도입하여 반복되는 질문의 응답 속도를 획기적으로 개선합니다.

개념설계안

본 시스템의 핵심 개념은 질문의 성격을 파악하여 최적의 경로로 답변을 처리하는 'Path Routing' 구조입니다.

Path Routing 시스템: 사용자의 질문을 자연어 처리 기반 분류기가 분석하여 두 가지 경로로 분기합니다. ** 정적 정보 (Static): 학사 규정, 장학금 요건 등 자주 변하지 않는 정보는 Vector DB + RAG 방식을 통해 문서를 검색하여 답변합니다. ** 동적 정보 (Dynamic): 오늘의 학식, 도서관 잔여 좌석, 행사 일정 등 실시간 정보는 API 호출을 통해 최신 데이터를 가져와 답변합니다.

신뢰성 강화 모듈 (Citation): LLM이 생성한 답변의 신뢰도 점수가 낮거나 근거가 필요한 경우, 관련 공식 문서의 링크나 담당 부서의 연락처(이메일, 전화번호)를 자동으로 함께 제시하여 사용자가 직접 검증할 수 있도록 합니다.

접근성 강화 시스템: 외국인 학생을 위한 실시간 다국어 번역 모듈과 모바일 사용자를 위한 음성-텍스트 변환(STT) 모듈을 통합하여 정보 접근 장벽을 낮춥니다.

이론적 계산 및 시뮬레이션

RAG 시스템의 검색 정확도를 높이기 위해 **코사인 유사도(Cosine Similarity)** 공식을 핵심 이론으로 적용하였습니다.

**코사인 유사도:** 사용자 질문 벡터(<math>A</math>)와 저장된 문서 벡터(<math>B</math>) 사이의 각도를 측정하여 의미적 유사성을 판단합니다.

**수식:**

<math display="block">\text{similarity} = \cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}</math>

**설명:** 결과값은 -1에서 1 사이이며, 1에 가까울수록 두 텍스트의 의미가 유사함을 나타냅니다. 본 프로젝트에서는 ChromaDB의 검색 알고리즘으로 활용되어 질문과 가장 관련성이 높은 Top-k 문서를 추출하는 데 사용됩니다.

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용