2분반-F1T

프로젝트 개요

기술개발 과제

국문 : VLM을 활용한 사용자 의도 추론 기반 패션 검색 시스템

영문 : Vision-Language Model-based Fashion Retrieval with 영문 Intention Grounding

과제 팀명

F1T

지도교수

박관용 교수님

개발기간

2026년 3월 ~ 2026년 6월 (총 4개월)

구성원 소개

서울시립대학교 수학과 20235400** 허*준(팀장)

서울시립대학교 컴퓨터과학부 20199200** 김*훈

서울시립대학교 컴퓨터과학부 20209200** 김*혁

서울시립대학교 컴퓨터과학부 20209200** 박*현

서론

개발 과제의 개요

개발 과제 요약

◇ 본 과제는 VLM(Vision-Language Model)을 활용하여 사용자의 자연어 질의와 선택적으로 입력되는 참조 이미지를 함께 분석하고, 사용자가 원하는 패션 아이템을 검색·추천하는 패션 검색 시스템 FIT을 개발하는 것을 목표로 한다.

◇ 기존 패션 검색이 주로 키워드, 카테고리, 색상 등 정적인 태그 매칭에 의존하는 것과 달리, 본 시스템은 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등 검색에 필요한 속성을 추출하고 이를 검색 파이프라인에 반영한다.

◇ 사용자의 질의가 “러닝할 때 입기 좋은 가벼운 바지”, “이 이미지와 비슷한 색의 긴소매 셔츠”, “패턴 없는 미니멀한 원피스”처럼 추상적이거나 복합적인 경우에도, VLM 기반 의도 분석을 통해 검색 조건을 구조화하고, 이를 바탕으로 후보 상품을 축소한 뒤 최종 추천 결과를 제공한다.

◇ 시스템은 크게 ① VLM 기반 의도 추출, ② 정형 메타데이터 기반 후보 축소, ③ 목표 상품 설명문(Target Description) 생성, ④ Supabase pgvector 기반 임베딩 검색, ⑤ 추천 이유 생성 및 웹 화면 제공으로 구성된다. 실제 구현에서는 FastAPI 기반 백엔드가 검색 요청을 처리하고, React/Vite 기반 프론트엔드가 자연어 입력, 이미지 업로드, 카테고리 선택, 검색 결과 및 추천 근거를 사용자에게 제공한다.

개발 과제의 배경

내용

개발 과제의 목표 및 내용

내용

구성원 및 추진체계

내용

설계

설계사양

제품의 요구사항

내용

설계 사양

내용

개념설계안

내용

이론적 계산 및 시뮬레이션

내용

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용