"2분반-F1T"의 두 판 사이의 차이

cdc wiki
이동: 둘러보기, 검색
(상세설계 내용)
(이론적 계산 및 시뮬레이션)
 
(같은 사용자의 중간 판 2개는 보이지 않습니다)
286번째 줄: 286번째 줄:
 
===기술개발 일정 및 추진체계===
 
===기술개발 일정 및 추진체계===
 
====개발 일정====
 
====개발 일정====
내용
+
{| class="wikitable" style="vertical-align:middle; background-color:#FFF;"
 +
|- style="background-color:#F2F2F2;"
 +
! rowspan="2" | <br />단계별 세부개발 내용
 +
! rowspan="2" | <br />담당자
 +
! colspan="4" | <br />개발기간 (월단위)
 +
! rowspan="2" | <br />비 고
 +
|- style="background-color:#F2F2F2;"
 +
| <br />3
 +
| <br />4
 +
| <br />5
 +
| <br />6
 +
|-
 +
| <br />요구사항 분석 및 시스템 설계
 +
| <br />전체
 +
| <br />▶
 +
| <br />
 +
| <br />
 +
| <br />
 +
| <br />아키텍처 확정
 +
|-
 +
| <br />데이터셋 수집 및 전처리
 +
| <br />전체
 +
| <br />▶
 +
| <br />▶
 +
| <br />
 +
| <br />
 +
| <br />DB 구축
 +
|-
 +
| <br />MLLM 기반 의도 추출 모듈 개발
 +
| <br />전체
 +
| <br />
 +
| <br />▶
 +
| <br />▶
 +
| <br />
 +
| <br />Intention Grounding
 +
|-
 +
| <br />ZS-CIR 특징 결합 파이프라인 구현
 +
| <br />전체
 +
| <br />
 +
| <br />▶
 +
| <br />▶
 +
| <br />
 +
| <br />CLIP + Feature Composition
 +
|-
 +
| <br />TPO 맥락 추론 및 추천 사유 생성 모듈
 +
| <br />전체
 +
| <br />
 +
| <br />
 +
| <br />▶
 +
| <br />▶
 +
| <br />Reasoning Module
 +
|-
 +
| <br />Streamlit 프로토타입UI 개발
 +
| <br />전체
 +
| <br />
 +
| <br />
 +
| <br />
 +
| <br />▶
 +
| <br />시연용 데모
 +
|-
 +
| <br />통합 테스트 및 성능 평가
 +
| <br />전체
 +
| <br />
 +
| <br />
 +
| <br />
 +
| <br />▶
 +
| <br />벤치마크 측정
 +
|}
 +
 
 
====구성원 및 추진체계====
 
====구성원 및 추진체계====
 
◇ 허원준(팀장) : 전체 코드 관리, 목표 상품 설명문(Target Description) 생성 및 이를 활용한 최종 검색·랭킹 파이프라인 담당, 추천 이유 생성 파이프라인 담당, 비용 정산 담당
 
◇ 허원준(팀장) : 전체 코드 관리, 목표 상품 설명문(Target Description) 생성 및 이를 활용한 최종 검색·랭킹 파이프라인 담당, 추천 이유 생성 파이프라인 담당, 비용 정산 담당
570번째 줄: 638번째 줄:
 
   
 
   
 
◇ 최종 검색 점수 계산
 
◇ 최종 검색 점수 계산
 +
 
최종 검색 점수는 기본적으로 목표 상품 설명문과 상품 이미지 간의 의미적 유사도를 중심으로 계산한다. 다만 사용자가 소재 조건을 명시한 경우에는 소재 유사도를 일부 반영하여 최종 순위를 조정한다.
 
최종 검색 점수는 기본적으로 목표 상품 설명문과 상품 이미지 간의 의미적 유사도를 중심으로 계산한다. 다만 사용자가 소재 조건을 명시한 경우에는 소재 유사도를 일부 반영하여 최종 순위를 조정한다.
  
1,047번째 줄: 1,116번째 줄:
 
패션 검색 서비스는 모바일 사용 비중이 높기 때문에, 향후 모바일 화면에서도 이미지 업로드와 결과 확인이 편리하도록 UI를 개선할 필요가 있다.
 
패션 검색 서비스는 모바일 사용 비중이 높기 때문에, 향후 모바일 화면에서도 이미지 업로드와 결과 확인이 편리하도록 UI를 개선할 필요가 있다.
  
===특허 출원 내용===
+
===부록===
내용
+
====참고문헌 및 참고사이트====
 +
 
 +
1. 참고문헌
 +
[1] Y. Tang, X. Qin, J. Zhang, J. Yu, G. Gou, G. Xiong, Q. Ling, S. Rajmohan, D. Zhang, and Q. Wu, “Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval,” arXiv:2412.11077, 2024.
 +
[2] J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. Chi, Q. Le, and D. Zhou, “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” arXiv:2201.11903, 2022.
 +
[3] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning Transferable Visual Models From Natural Language Supervision,” arXiv:2103.00020, 2021.
 +
[4] H. Wu, Y. Gao, X. Guo, Z. Al-Halah, S. Rennie, K. Grauman, and R. Feris, “Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Feedback,” arXiv:1905.12794, 2019.
 +
[5] Z. Liu, C. Rodriguez-Opazo, D. Teney, and S. Gould, “Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models,” arXiv:2108.04024, 2021.
 +
[6] A. Baldrati, M. Bertini, T. Uricchio, and A. Del Bimbo, “Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features,” arXiv:2308.11485, 2023.
 +
 
 +
2. 참고사이트
 +
[1] 무신사
 +
https://www.musinsa.com
 +
[2] Google AI for Developers — Gemini API
 +
https://ai.google.dev/gemini-api/docs
 +
[3] Google AI for Developers — Gemini Embeddings
 +
https://ai.google.dev/gemini-api/docs/embeddings
 +
[4] Supabase
 +
https://supabase.com
 +
[5] Supabase pgvector 문서
 +
https://supabase.com/docs/guides/database/extensions/pgvector
 +
[6] pgvector
 +
https://github.com/pgvector/pgvector
 +
[7] FastAPI
 +
https://fastapi.tiangolo.com
 +
[8] React
 +
https://react.dev
 +
[9] Vite
 +
https://vite.dev
 +
====관련특허====
 +
[1] 공개번호 10-2025-0045724
 +
◇ 출원번호 : 10-2023-0128992
 +
◇ 출원인 : 옴니어스 주식회사
 +
◇ 출원일 : 2023년 9월 26일
 +
◇ 발명의 명칭 : 입력 데이터에 기반하여 타겟 정보를 검색하는 방법
 +
 
 +
[2] 공개번호 10-2025-0046491
 +
◇ 출원번호 : 10-2023-0129990
 +
◇ 출원인 : 옴니어스 주식회사
 +
◇ 출원일 : 2023년 9월 27일
 +
◇ 발명의 명칭 : 특정 분야에 특화된 멀티모달 검색을 수행하기 위한 방법
 +
 
 +
====소프트웨어 프로그램 소스====
 +
GitHub 저장소
 +
 
 +
https://github.com/cs-f1t/f1t_new.git

2026년 6월 16일 (화) 05:56 기준 최신판

프로젝트 개요

기술개발 과제

국문 : VLM을 활용한 사용자 의도 추론 기반 패션 검색 시스템

영문 : Vision-Language Model-based Fashion Retrieval with 영문 Intention Grounding

과제 팀명

F1T

지도교수

박관용 교수님

개발기간

2026년 3월 ~ 2026년 6월 (총 4개월)

구성원 소개

서울시립대학교 수학과 20235400** 허*준(팀장)

서울시립대학교 컴퓨터과학부 20199200** 김*훈

서울시립대학교 컴퓨터과학부 20209200** 김*혁

서울시립대학교 컴퓨터과학부 20209200** 박*현

서론

개발 과제의 개요

개발 과제 요약

◇ 본 과제는 VLM(Vision-Language Model)을 활용하여 사용자의 자연어 질의와 선택적으로 입력되는 참조 이미지를 함께 분석하고, 사용자가 원하는 패션 아이템을 검색·추천하는 패션 검색 시스템 FIT을 개발하는 것을 목표로 한다.

◇ 기존 패션 검색이 주로 키워드, 카테고리, 색상 등 정적인 태그 매칭에 의존하는 것과 달리, 본 시스템은 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등 검색에 필요한 속성을 추출하고 이를 검색 파이프라인에 반영한다.

◇ 사용자의 질의가 “러닝할 때 입기 좋은 가벼운 바지”, “이 이미지와 비슷한 색의 긴소매 셔츠”, “패턴 없는 미니멀한 원피스”처럼 추상적이거나 복합적인 경우에도, VLM 기반 의도 분석을 통해 검색 조건을 구조화하고, 이를 바탕으로 후보 상품을 축소한 뒤 최종 추천 결과를 제공한다.

◇ 시스템은 크게 ① VLM 기반 의도 추출, ② 정형 메타데이터 기반 후보 축소, ③ 목표 상품 설명문(Target Description) 생성, ④ Supabase pgvector 기반 임베딩 검색, ⑤ 추천 이유 생성 및 웹 화면 제공으로 구성된다. 실제 구현에서는 FastAPI 기반 백엔드가 검색 요청을 처리하고, React/Vite 기반 프론트엔드가 자연어 입력, 이미지 업로드, 카테고리 선택, 검색 결과 및 추천 근거를 사용자에게 제공한다.

개발 과제의 배경

◇ 국내 패션 커머스 환경에서는 무신사, 에이블리, 29CM 등 대형 플랫폼을 중심으로 다양한 검색·추천 기능이 제공되고 있으나, 대부분의 검색 방식은 사용자가 직접 입력한 키워드나 판매자가 사전에 등록한 태그에 의존한다. 따라서 사용자가 원하는 스타일을 명확한 상품명이나 속성명으로 표현하지 못하는 경우 검색 결과의 만족도가 낮아질 수 있다.

◇ 특히 패션 검색에서는 사용자가 단순히 “셔츠”, “바지”와 같은 카테고리만 찾는 것이 아니라, “결혼식에 입을 만한 단정한 옷”, “여름에 입기 좋은 얇은 소재”, “이미지와 비슷하지만 더 긴 소매”처럼 상황, 목적, 착용감, 소재감, 이미지 유사성 등을 함께 고려하는 경우가 많다. 기존 키워드 검색이나 단순 이미지 유사도 검색은 이러한 복합적인 의도를 충분히 반영하기 어렵다.

◇ 본 과제는 이러한 한계를 해결하기 위해 자연어와 이미지를 함께 입력받고, VLM을 통해 사용자의 패션 의도를 검색 가능한 속성으로 변환한다. 또한 모든 조건을 단순히 키워드로 처리하지 않고, 정형화 가능한 속성은 DB 필터링에 활용하고, 색상·소재·시각적 분위기처럼 표현이 다양한 속성은 임베딩 기반 의미 검색에 활용함으로써 검색 유연성과 정확성을 동시에 확보한다.

◇ 이를 통해 사용자는 복잡한 필터를 직접 조작하지 않아도 자연어로 원하는 패션 조건을 입력할 수 있으며, 시스템은 해당 의도를 반영한 상품 후보와 추천 이유를 함께 제공한다. 결과적으로 상품 탐색 과정의 피로도를 줄이고, 패션 검색 서비스의 사용자 경험을 개선하는 효과를 기대할 수 있다.

개발 과제의 목표 및 내용

본 과제의 최종 목표는 사용자의 자연어 질의와 참조 이미지를 기반으로 패션 의도를 분석하고, 이를 실제 상품 데이터베이스 검색에 반영하여 적합한 패션 아이템을 추천하는 웹서비스을 구현하는 것이다. 이를 위해 다음과 같은 세부 기능을 개발하였다.

◇ 자연어 및 이미지 기반 의도 추출 기능 사용자의 질의와 선택적으로 입력된 이미지를 VLM에 전달하여 검색에 필요한 패션 속성을 추출한다. 구현 코드에서는 사용자가 실제로 언급한 속성만 추출하도록 프롬프트를 구성하여, 모델이 임의로 속성을 추가하는 문제를 줄이도록 설계하였다.

◇ 정형 메타데이터 기반 후보 축소 기능 소매 길이, 기장, 성별, 계절감, 신축성, 두께감, 핏 등 값의 범위가 비교적 명확한 속성은 DB 필터링에 활용한다. 이를 통해 전체 상품 DB에서 사용자의 조건에 맞는 후보군을 먼저 줄이고, 이후 임베딩 검색 단계에서 더 정교한 랭킹을 수행한다.

◇ 목표 상품 설명문(Target Description) 기반 의미 검색 기능 사용자의 자연어 질의와 참조 이미지를 바탕으로 검색에 적합한 목표 상품 설명문(Target Description)을 생성하고, 이를 임베딩으로 변환하여 상품 이미지/속성 임베딩과 유사도를 비교한다. 이를 통해 단순 키워드 일치가 아닌 의미 기반 검색을 수행한다.

◇ Supabase pgvector 기반 벡터 검색 기능 상품 데이터는 Supabase에 저장하고, 검색 시 생성된 임베딩을 pgvector RPC에 전달하여 유사도 기반 검색을 수행한다. 구현 코드에서는 768차원 임베딩 검색을 위한 RPC 호출 구조와 테이블/카테고리 필터를 함께 처리하도록 설계하였다.

◇ 추천 결과 및 추천 이유 제공 기능 최종 검색 결과에는 상품명, 브랜드, 이미지, 카테고리, 가격, 색상, 소매, 기장, 계절감, 신축성, 두께감, 핏, 소재, 유사도 등을 포함하며, 사용자가 왜 해당 상품을 추천받았는지 이해할 수 있도록 한국어 추천 이유를 함께 제공한다

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

  • 전 세계적인 기술현황

패션 이미지 검색 기술은 기존의 키워드 기반 검색에서 이미지 기반 검색, 멀티모달 임베딩 검색, 그리고 최근의 VLM 기반 사용자 의도 추론 검색으로 발전하고 있다. 본 과제는 이 흐름 중에서도 사용자의 자연어 질의와 선택적으로 입력되는 참조 이미지를 함께 분석하여, 검색 가능한 속성과 목표 상품 설명문(Target Description) 으로 변환한 뒤 실제 상품 데이터베이스 검색에 활용하는 데 초점을 둔다.

1세대: 키워드 및 태그 기반 패션 검색

기존 패션 커머스의 검색 방식은 상품명, 브랜드명, 카테고리, 색상, 성별, 계절감 등 판매자가 사전에 등록한 태그를 사용자의 검색어와 매칭하는 방식이 일반적이다. 이 방식은 구현이 단순하고 검색 속도가 빠르다는 장점이 있으나, 사용자가 원하는 스타일을 정확한 키워드로 표현하지 못하는 경우 검색 결과의 품질이 낮아진다. 예를 들어 “여름에 입기 좋은 얇고 루즈한 셔츠”와 같이 자연어로 표현된 의도는 단순 키워드 검색만으로는 충분히 처리하기 어렵다. 또한 “이 이미지와 비슷하지만 소매가 긴 옷”처럼 참조 이미지와 수정 요청이 결합된 질의는 기존 태그 기반 검색만으로는 반영하기 어렵다.

2세대: 이미지 기반 검색 및 딥러닝 임베딩 검색

이미지 기반 검색은 사용자가 업로드한 이미지와 시각적으로 유사한 상품을 찾는 방식이다. 초기에는 색상, 질감, 형태 등 수작업 시각 특징을 기반으로 유사도를 계산했으나, 딥러닝의 발전 이후에는 상품 이미지를 고차원 벡터로 변환하고 벡터 공간에서 유사도를 계산하는 방식이 주로 활용되고 있다. CLIP과 같은 멀티모달 임베딩 모델은 이미지와 텍스트를 동일한 임베딩 공간에 정렬함으로써, “검은색 셔츠”, “스트라이프 원피스”와 같은 텍스트 질의와 상품 이미지 간 의미적 유사도를 비교할 수 있게 해 주었다. 그러나 단순 임베딩 검색은 사용자의 복합적인 수정 의도나 상황 맥락을 구조적으로 반영하기 어렵다는 한계가 있다.

3세대: Composed Image Retrieval 및 Zero-Shot CIR

Composed Image Retrieval(CIR)은 참조 이미지와 자연어 수정 요청을 함께 입력받아 사용자가 원하는 타겟 이미지를 검색하는 기술이다. 예를 들어 참조 이미지가 반팔 셔츠이고 사용자가 “이것과 비슷하지만 긴소매로 찾아줘”라고 입력하면, 시스템은 이미지의 기본 스타일을 유지하면서 자연어 수정 요청을 반영한 결과를 찾아야 한다. FashionIQ, CIRR 등은 이러한 참조 이미지-수정 텍스트-타겟 이미지 관계를 다루는 대표적인 벤치마크로 활용되어 왔다. 이후에는 별도의 도메인별 학습 데이터를 많이 요구하지 않고, 사전 학습된 멀티모달 모델을 활용하여 검색을 수행하는 Zero-Shot CIR 연구도 활발히 진행되고 있다. 다만 이러한 연구들은 주로 벤치마크 데이터셋에서 이미지와 수정 텍스트를 결합하는 검색 성능에 초점을 둔다. 본 과제는 이 개념을 실제 패션 상품 검색 환경에 적용하기 위해, 참조 이미지와 자연어 질의를 목표 상품 설명문(Target Description) 으로 변환하고, 이를 실제 상품 데이터베이스의 메타데이터 및 임베딩 검색과 결합하는 방향으로 설계하였다.

4세대: VLM 기반 사용자 의도 추론 검색

최근 VLM은 이미지를 단순히 임베딩으로 변환하는 것을 넘어, 이미지와 자연어 질의를 함께 입력받아 속성, 상황, 관계, 수정 의도를 해석할 수 있다. 본 과제는 이러한 VLM의 추론 능력을 활용하여 사용자의 패션 검색 의도를 구조화한다. 구체적으로 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등의 속성을 추출하고, 이를 검색 파이프라인의 후보 축소와 최종 랭킹에 활용한다. 실제 구현에서는 사용자가 명시적으로 언급한 속성만 추출하도록 프롬프트를 설계하여, VLM이 임의로 속성을 추가하는 문제를 줄이고자 하였다.

  • 특허조사

◇ 1. 공개번호 10-2025-0045724 | 출원번호 10-2023-0128992 출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 26일

발명의 명칭: 입력 데이터에 기반하여 타겟 정보를 검색하는 방법

자연어 데이터를 GPT 계열 언어 모델에 입력하여 JSON/YAML 형태의 구조화된 출력을 획득하고, 이를 사전 설정된 속성 정보에 따라 두 가지 타입의 요소로 분류한다. 제1타입 요소는 이미지 내에 시각적으로 표시될 수 있는 속성, 예를 들어 색상, 아이템 종류, 프린트 등 시각 속성으로, CLIP·BLIP 등 멀티모달 모델을 통해 임베딩 벡터를 획득하여 벡터 유사도 검색의 인덱스로 활용한다. 제2타입 요소는 이미지에 표시되지 않는 메타 속성, 예를 들어 브랜드, 가격 등으로, DB 필터링 조건으로 활용한다. 명세서의 구체적 실시예로는 “10만원 이내로 파란색 레터링 들어간 커버낫 티셔츠 찾아줘”라는 자연어 입력에서 색상(blue)·아이템(t-shirt)·프린트(lettering)는 제1타입으로 임베딩하고, 브랜드(커버낫)·가격(0~100,000원)은 제2타입으로 DB 필터링에 배분하는 방식이 제시되어 있다.

본 과제와의 관계: 시각 속성은 임베딩 검색, 메타 속성은 DB 필터링으로 나누는 하이브리드 구조는 본 과제와 유사하다. 그러나 해당 특허의 주요 입력은 자연어 텍스트 단독이며, 참조 이미지와 자연어 수정 요청을 함께 입력받아 목표 상품 설명문(Target Description)을 생성하고, 이를 검색 파이프라인에 활용하는 구조는 본 과제와 차이가 있다.

◇ 2. 공개번호 10-2025-0046491 | 출원번호 10-2023-0129990 출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 27일

발명의 명칭: 특정 분야에 특화된 멀티모달 검색을 수행하기 위한 방법

입력 이미지와 그 이미지에 관련된 태그·속성·키워드·메타 정보를 획득한 뒤, 패션 분야 자연어 데이터로 파인튜닝된 언어 모델에 프롬프트로 입력하여 이미지에 대한 자연어 설명을 획득한다. 명세서의 실시예에서는 “네이비 니트 조끼와 베이지 면 스커트를 입은 여성” 이미지에 대해 “네이비 색상으로 차분한 느낌…대학생들의 새내기룩으로 많이 활용”과 같은 패션 특화 설명이 생성된다. 이렇게 생성된 이미지-설명 쌍을 학습 데이터로 삼아 CLIP·BLIP 계열 멀티모달 모델을 이미지 임베딩과 설명 텍스트 임베딩 간 코사인 유사도를 최대화하는 방향으로 학습시키고, 학습 완료된 모델로 멀티모달 검색을 수행하는 파이프라인이다.

본 과제와의 관계: 패션 도메인 특화 언어 모델을 활용하여 이미지 설명을 생성하는 아이디어는 방향이 유사하다. 그러나 해당 특허는 생성된 학습 데이터를 이용한 추가 파인튜닝이 핵심 구성 요건이다. 반면 본 과제는 별도의 패션 검색 모델을 새롭게 학습시키기보다, 사전 학습된 VLM과 임베딩 기반 검색 구조를 활용하여 사용자의 질의와 참조 이미지를 목표 상품 설명문으로 변환하고, 이를 실제 상품 DB 검색에 활용하는 구조이다.

◇ 특허 공백 분석

조사된 선행 특허들을 종합하면, 기존 특허들은 크게 1) 자연어 텍스트 기반 하이브리드 검색, 2) 파인튜닝 기반 도메인 특화 멀티모달 모델 구축 두 범주에 집중되어 있다. 본 과제는 이러한 흐름과 일부 유사한 요소를 가지지만, 참조 이미지와 자연어 수정 텍스트를 동시에 입력받아 VLM이 이미지와 질의를 함께 해석하고, 이를 목표 상품 설명문(Target Description) 및 정형 메타데이터로 변환한 뒤, DB 필터링과 벡터 검색을 함께 수행한다는 점에서 차별성이 있다. 따라서 본 과제는 기존의 단일 텍스트 입력 기반 검색이나 파인튜닝 중심의 멀티모달 검색과 달리, VLM 기반 의도 추론과 실제 상품 DB 검색을 결합한 하이브리드 패션 검색 파이프라인이라는 점에서 기술적 차별성을 가진다. 다만 신규성 및 진보성 여부는 최종 특허 출원 과정에서 청구항 단위의 법률 검토가 필요하다.

  • 특허 전략 분석

1. 핵심 청구 범위 설정

가장 유사한 선행 특허인 10-2025-0045724(옴니어스)의 핵심은 자연어 입력을 언어 모델로 구조화한 뒤, 시각 속성은 임베딩 검색에 활용하고 메타 속성은 DB 필터링에 활용하는 구조이다. 본 과제 역시 시각 속성과 메타데이터를 구분하여 검색에 활용한다는 점에서 유사성이 있으나, 입력 방식과 검색 파이프라인 구성에서 차별성을 가진다. 본 과제는 텍스트 단독 질의뿐 아니라 참조 이미지가 포함된 멀티모달 입력을 처리한다. 사용자가 참조 이미지를 제공하고 자연어로 수정 요청을 입력하면, VLM은 이미지의 시각적 특징과 사용자의 자연어 의도를 함께 분석한다. 이후 분석 결과를 검색 가능한 정형 메타데이터와 목표 상품 설명문(Target Description) 으로 변환하고, 이를 각각 후보 축소와 벡터 검색에 활용한다. 따라서 본 과제의 핵심 청구 범위는 다음과 같이 설정할 수 있다.

◇ 자연어 질의와 참조 이미지를 함께 입력받는 멀티모달 패션 검색 입력 구조 ◇ VLM을 이용하여 사용자의 패션 검색 의도를 정형 메타데이터와 목표 상품 설명문으로 변환하는 구조 ◇ 소매, 기장, 성별, 계절감, 신축성, 두께감, 핏 등 정형 속성을 이용하여 상품 DB의 후보군을 축소하는 구조 ◇ 목표 상품 설명문을 임베딩으로 변환하고, 상품 이미지 또는 상품 속성 임베딩과 비교하여 최종 추천 결과를 도출하는 구조 ◇ 최종 추천 결과와 함께 사용자의 입력 조건 및 추론 결과를 바탕으로 자연어 추천 근거를 제공하는 구조

즉, 본 과제의 핵심은 단순히 자연어를 속성으로 분류하는 것이 아니라, 참조 이미지와 자연어 수정 요청을 함께 해석하고, 이를 검색용 중간 표현과 DB 검색 조건으로 나누어 활용하는 하이브리드 검색 파이프라인에 있다.

2. 회피 설계

10-2025-0045724는 자연어 텍스트 입력을 구조화하고, 구조화된 속성을 시각 속성과 메타 속성으로 분류하여 검색에 활용하는 방식에 초점이 있다. 따라서 본 과제는 단일 텍스트 입력 기반의 정적 속성 분류와 구별되도록, 참조 이미지와 자연어 수정 요청이 결합된 입력을 처리한다는 점을 명확히 하는 것이 중요하다. 특히 본 과제는 사용자의 입력을 곧바로 검색에 사용하는 것이 아니라, VLM이 참조 이미지와 자연어 질의를 함께 분석하여 목표 상품 설명문(Target Description) 을 생성한다. 이 목표 상품 설명문은 검색 모델이 이해하기 쉬운 문장형 중간 표현으로, 이후 임베딩 기반 벡터 검색에 활용된다. 실제 구현에서도 의도 추출, 후보 축소, 목표 상품 설명문 기반 최종 추천, 추천 이유 생성 단계로 파이프라인이 구성되어 있다. 또한 10-2025-0046491은 패션 도메인에 특화된 이미지 설명을 생성하고, 이를 학습 데이터로 활용하여 멀티모달 모델을 파인튜닝하는 방식이 핵심이다. 반면 본 과제는 별도의 패션 검색 모델을 새롭게 학습시키는 방식이 아니라, 사전 학습된 VLM과 임베딩 검색 구조를 활용하여 실제 상품 DB에 적용 가능한 프로토타입을 구현한다. 따라서 특허 명세서 작성 시에는 “파인튜닝 기반 모델 구축”이 아니라, 사전 학습 VLM 기반 의도 추론 및 하이브리드 검색 파이프라인이라는 점을 중심으로 차별화하는 것이 적절하다.

3. 권리화 방향

본 과제의 권리화 방향은 특정 모델명이나 특정 플랫폼에 한정하기보다, 사용자의 복합적인 패션 검색 의도를 처리하는 전체 파이프라인 구조에 초점을 두는 것이 바람직하다. 예를 들어 Gemini, Qwen, CLIP, Supabase 등 특정 구현 기술은 변경될 수 있으므로, 청구항에서는 특정 모델보다 입력 처리 방식, 의도 추론 방식, 후보 축소 방식, 벡터 검색 방식의 결합 구조를 중심으로 정의하는 것이 적절하다. 구체적으로는 다음 단계를 중심으로 권리화를 검토할 수 있다.

◇ 사용자의 자연어 질의와 참조 이미지를 입력받는 단계 ◇ VLM을 이용하여 사용자의 패션 검색 의도를 분석하는 단계 ◇ 분석 결과를 정형 메타데이터와 목표 상품 설명문으로 분리하는 단계 ◇ 정형 메타데이터를 이용하여 상품 DB의 후보군을 축소하는 단계 ◇ 목표 상품 설명문을 임베딩으로 변환하여 후보 상품 또는 전체 상품 DB와 유사도 비교를 수행하는 단계 ◇ 최종 추천 결과와 추천 이유를 사용자에게 제공하는 단계

이와 같이 권리화 범위를 설정하면 특정 모델이나 API에 종속되지 않으면서도, 본 과제의 핵심인 VLM 기반 의도 추론, 목표 상품 설명문 생성, 정형 메타데이터 후보 축소, 임베딩 기반 의미 검색의 결합 구조를 보호할 수 있다.

4. 기대 효과 및 방어 전략

본 특허전략을 통해 기존의 키워드 기반 패션 검색, 단순 이미지 유사도 검색, 텍스트 단독 하이브리드 검색과 차별화된 권리 범위를 확보할 수 있다. 특히 사용자의 입력을 단순 검색어로 처리하지 않고, VLM을 통해 검색 가능한 중간 표현으로 변환한 뒤 실제 상품 DB 검색에 연결한다는 점은 본 과제의 중요한 기술적 특징이다. 또한 향후 시스템이 고도화되어 다른 VLM, 다른 벡터 DB, 다른 패션 플랫폼에 적용되더라도, 핵심 파이프라인 구조가 유지된다면 동일한 권리 범위 안에서 보호될 수 있도록 청구항을 설계하는 것이 필요하다. 다만 최종 특허 출원 단계에서는 선행 특허와의 세부 청구항 비교 및 법률 검토를 통해 신규성, 진보성, 회피 가능성을 추가로 확인해야 한다.

  • 기술 로드맵

시기

단계

주요 기술 트렌드

~20tl20

키워드·태그
기반 검색

상품명, 브랜드, 카테고리, 색상 등 정적 메타데이터 기반 검색이 중심. 빠르고 단순하지만 사용자의 추상적 의도나 복합 조건을 반영하기 어려움

2020
~2022

이미지 임베딩 기반 검색

CNN, CLIP 등 딥러닝 기반 임베딩을 활용하여 이미지와 텍스트를 벡터 공간에서 비교. 시각적 유사도와 의미 기반 검색이 가능해짐

2021
~2024

CIR 및 ZS-CIR 확장

참조 이미지와 자연어 수정 요청을 결합하는 Composed Image Retrieval 연구가 확산. FashionIQ, CIRR 등 벤치마크를 중심으로 이미지-텍스트 결합 검색 성능 개선이 이루어짐

2024
~2026

VLM 기반 의도 추론 검색

LLaVA, Qwen-VL, Gemini 등 VLM을 활용하여 사용자의 자연어 질의와 이미지를 함께 해석하는 방식이 확산. 단순 유사도 검색에서 벗어나 “의도 이해 후 검색” 구조로 발전

향후

실서비스형 AI 쇼퍼

검색 결과뿐 아니라 추천 이유, 상황별 스타일링, 개인 취향 반영까지 포함하는 AI 퍼스널 쇼퍼 형태로 발전 가능. 단, 실서비스 적용을 위해서는 추론 비용, 응답 속도, 데이터 품질 관리가 핵심 과제로 남음

시장상황에 대한 분석

  • 경쟁제품 조사 비교

국내외 패션 커머스 시장의 주류 플랫폼은 판매자가 사전에 등록한 정적 태그(키워드)와 사용자의 키워드 입력을 단순 매칭하는 방식으로 검색 서비스를 제공해 왔다. 최근 이러한 방식을 보완하기 위해 ‘옴니어스 렌즈’와 같이 업로드된 이미지의 시각적 유사도(형태, 색상 등)를 분석하여 상품을 찾아주는 비전 AI 기반의 검색 기술이 도입되고 있다. 하지만 기존의 키워드 매칭 방식은 물론 이미지 유사도 검색 역시, "지금 입고 있는 원피스와 비슷한 핏인데, 소재는 좀 더 두꺼운 것"과 같이 사용자의 구체적인 패션 '의도'나 이미지로 식별 불가한 비시각적 속성을 정확히 반영하지 못한다는 구조적 한계를 지닌다. 본 시스템(FIT)은 이러한 기존 기술들의 한계를 종합적으로 극복하기 위해 참조 이미지와 자연어를 동시에 입력받아, VLM(Vision-Language Model) 기반 추론을 통해 사용자의 복합적 의도를 해석하고 비시각적 속성까지 검색에 반영하는 혁신적인 아키텍처를 제시한다.


비교 항목

무신사/
에이블리

구글 렌즈

옴니어스 렌즈

FIT (본 시스템)

검색 입력 방식

키워드/
태그

이미지

이미지

이미지+ 자연어

의도(Intent) 분석

불가

시각 유사도만

시각 유사도 및 특정 패션 객체 매칭

VLM 추론 기반 복합 의도 분석

비시각 속성 반영

태그 한정

불가

불가

정형 DB 연동 동적 반영

Zero-Shot 지원

미지원

부분 지원

부분 지원 (학습된 시각 특징 공간 내 매칭)

완전 지원(추가 학습 불필요)

Cold Start 문제

존재

없음

없음

없음

핵심 기술 스택

RDB + 협업 필터링

멀티모달 모델

Vision AI + 이미지 리트리벌 (CBIR)

VLM + 멀티모달 임베딩 + 하이브리드 리트리벌
  • 마케팅 전략 제시

국내 패션 이커머스 시장은 2023년 기준 약 50조 원 규모로 추산되며, AI 기반 개인화 추천·검색 솔루션에 대한 시장 수요가 빠르게 증가하고 있다. 아래 SWOT 분석을 통해 FIT 시스템의 시장 진입 전략과 리스크를 종합적으로 평가한다.

S — 강점(Strength)

• 비시각적 속성(신축성·소재·두께감·핏)을 정형DB로 보완하는 독자적 하이브리드 아키텍처 • 추가 학습 없이 ZS-CIR 구현→ 데이터 라벨링 비용 절감 • Reflective CoT 적용으로 검색 결과의 설명 가능성(Explainability) 확보 • VLM 기반 TPO(Time·Place·Occasion) 맥락 인식으로 초개인화 실현

W — 약점(Weakness)

• 대형 VLM 구동에 따른GPU 자원 및 추론 지연(latency) 문제 • 소재(Fabric) 데이터 비정형화로 인한 메타데이터 품질 편차 • 소규모 팀의 인프라 구축 및 운영 비용 부담 • 실서비스 수준의 응답 속도(< 1초) 최적화 과제

O — 기회(Opportunity)

• AI 퍼스널 쇼퍼 시장 연평균 28% 성장 전망(2024~2029) • MZ세대 초개인화 쇼핑 경험 수요 급증 • 패션 플랫폼의AI 검색 고도화 수요 증가로B2B SaaS 기회 존재 • 오픈소스VLM(LLaVA, QwenVL 등) 생태계 성숙으로 구현 비용 감소

T — 위협(Threat)

• 글로벌 빅테크의 범용 멀티모달 모델 성능 고도화(GPT, Gemini 등) • 기존 대형 플랫폼의 AI 검색 내재화 가능성 • 패션 데이터 저작권·초상권 관련 법적 리스크 • 모델 환각(Hallucination)으로 인한 부정확한 속성 추론 가능성

전략적 시사점: 단기적으로는 B2B SaaS 형태로 중소형 패션 플랫폼에 검색 API를 제공하는 방식으로 시장에 진입하고, 중장기적으로는 VLM 추론 경량화(Knowledge Distillation, 양자화 등)를 통해 응답 속도와 운영 비용 문제를 해결하여 확장성을 확보하는 전략이 유효하다.

개발과제의 기대효과

기술적 기대효과

본 과제는 VLM의 자연어·이미지 이해 능력을 실제 패션 검색 파이프라인에 결합함으로써, 기존 키워드 검색과 단순 이미지 검색의 한계를 보완하는 하이브리드 검색 구조를 제시한다.

◇ 첫째, 자연어 질의를 검색 가능한 속성으로 구조화함으로써 사용자의 모호한 패션 의도를 DB 검색 조건으로 변환할 수 있다. 예를 들어 “가벼운”, “겨울용”, “루즈핏”, “신축성 있는”과 같은 표현을 계절감, 두께감, 핏, 신축성 등의 메타데이터와 연결하여 검색에 활용할 수 있다.

◇ 둘째, 정형 속성과 비정형 속성을 분리하여 처리함으로써 검색 정확도와 유연성을 동시에 확보한다. 소매, 기장, 성별, 계절감처럼 명확한 속성은 후보 축소에 사용하고, 색상·소재·이미지 분위기처럼 표현이 다양한 요소는 임베딩 기반 유사도 검색에 활용하여 과도한 필터링으로 인한 검색 실패를 줄인다.

◇ 셋째, 목표 상품 설명문(Target Description)을 생성한 뒤 이를 벡터 검색에 활용함으로써, 텍스트와 이미지가 결합된 복합 질의를 하나의 검색 표현으로 변환할 수 있다. 이는 사용자가 직접 복잡한 검색 조건을 지정하지 않아도 시스템이 검색 의도를 중간 표현으로 정리한 뒤 상품 검색에 활용할 수 있음을 의미한다.

◇ 넷째, FastAPI 백엔드와 React 기반 프론트엔드를 분리한 구조로 구현하여 향후 모델 교체, 검색 알고리즘 개선, DB 확장, UI 개선이 용이하다.

경제적, 사회적 기대 및 파급효과

◇ 본 과제는 사용자가 원하는 패션 아이템을 찾기 위해 여러 키워드를 반복 입력하거나 필터를 수동으로 조합해야 하는 과정을 줄이고, 자연어와 이미지 기반의 직관적인 검색 경험을 제공한다. 이를 통해 사용자 입장에서는 상품 탐색 시간이 단축되고, 플랫폼 입장에서는 검색 이탈률 감소와 구매 전환율 향상을 기대할 수 있다.

◇ 또한 본 시스템은 사용자의 과거 구매 이력이나 행동 로그가 충분하지 않은 상황에서도 현재 입력한 자연어와 이미지를 바탕으로 검색을 수행할 수 있으므로, 신규 사용자에 대한 Cold Start 문제를 완화하는 데 기여할 수 있다. 이는 대형 플랫폼뿐만 아니라 충분한 추천 데이터를 확보하지 못한 중소형 패션 커머스에도 적용 가능성이 있다.

◇ 사회적으로는 사용자가 전문적인 패션 용어나 복잡한 필터 사용법을 몰라도 자신의 상황과 취향을 자연어로 표현하여 원하는 상품을 찾을 수 있게 한다는 점에서 접근성이 높다. 나아가 단순히 인기 상품을 노출하는 방식이 아니라 개인의 상황, 목적, 취향을 반영한 검색 경험을 제공함으로써 초개인화 커머스 서비스의 실용적 가능성을 제시한다.

기술개발 일정 및 추진체계

개발 일정


단계별 세부개발 내용

담당자

개발기간 (월단위)

비 고

3

4

5

6

요구사항 분석 및 시스템 설계

전체





아키텍처 확정

데이터셋 수집 및 전처리

전체





DB 구축

MLLM 기반 의도 추출 모듈 개발

전체





Intention Grounding

ZS-CIR 특징 결합 파이프라인 구현

전체





CLIP + Feature Composition

TPO 맥락 추론 및 추천 사유 생성 모듈

전체





Reasoning Module

Streamlit 프로토타입UI 개발

전체





시연용 데모

통합 테스트 및 성능 평가

전체





벤치마크 측정

구성원 및 추진체계

◇ 허원준(팀장) : 전체 코드 관리, 목표 상품 설명문(Target Description) 생성 및 이를 활용한 최종 검색·랭킹 파이프라인 담당, 추천 이유 생성 파이프라인 담당, 비용 정산 담당

◇ 김상훈 : 문서 관리, 테스트 질의 구성 및 시각 평가 담당, 상품 DB 크롤링 담당

◇ 김재혁 : 상품 DB 구축 및 관리, 상품 메타데이터 정리, 이미지 및 소재 임베딩 데이터 구축 담당

◇ 박주현 : VLM 기반 메타데이터 추출 담당, 의도 기반 후보 필터링 구조 설계, 전체 프로젝트 진행 관리 담당

설계

설계사양

제품의 요구사항


번호

요구사항

D/W

중요도

도출 근거

비고

1

사용자는 자연어 문장으로 원하는 패션 아이템을 검색할 수 있어야 한다.

D


시장조사, 기존 서비스 벤치마킹

예: “여름에 입기 좋은 얇은 셔츠 찾아줘”

2

시스템은 사용자의 자연어 질의에서 명시된 패션 속성을 추출할 수 있어야 한다.

D


서비스 핵심 기능 분석

카테고리, 소매, 기장, 계절, 핏, 소재 등

3

시스템은 사용자가 명시하지 않은 속성을 임의로 추가하지 않아야 한다.

D


팀 내부 테스트, 검색 오류 분석

예: “티셔츠”라고 했다고 무조건 반팔로 판단하지 않음

4

사용자는 참조 이미지를 함께 업로드하여 이미지 기반 검색을 수행할 수 있어야 한다.

D


이미지 검색 서비스 벤치마킹

마음에 드는 옷 사진을 기준으로 유사 상품 검색

5

시스템은 참조 이미지와 자연어 조건을 함께 반영할 수 있어야 한다.

D


CIR 관련 기술 조사, 서비스 차별화 분석

예: “이 이미지와 비슷한 느낌인데 긴팔로 찾아줘”

6

시스템은 입력 질의가 패션 관련 요청인지 판단할 수 있어야 한다.

D


예외 처리 필요성 분석

비패션 질의 입력 시 검색 제한

7

시스템은 입력 이미지가 패션 관련 이미지인지 판단할 수 있어야 한다.

D


예외 처리 필요성 분석

음식, 풍경 등 비패션 이미지는 검색 대상에서 제외

8

시스템은 정형화된 상품 메타데이터를 활용하여 후보 상품을 축소할 수 있어야 한다.

D


특허 조사, 시스템 설계

카테고리, 소매, 기장, 성별, 계절, 신축성, 두께, 핏 등

9

시스템은 목표 상품 설명문(Target Description)을 생성하여 의미론적 검색에 활용할 수 있어야 한다.

D


관련 기술 조사, 최신 구현 구조

자연어와 이미지를 검색 가능한 상품 설명으로 변환

10

시스템은 목표 상품 설명문과 상품 이미지 간 의미적 유사도를 기반으로 상품을 검색할 수 있어야 한다.

D


벡터 검색 기술 조사

임베딩 기반 검색

11

시스템은 검색된 상품에 대한 자연어 추천 사유를 제공해야 한다.

D


설명 가능한AI 요구 분석

사용자가 결과를 납득할 수 있도록 설명

12

사용자는 검색 결과에서 상품 이미지와 기본 정보를 확인할 수 있어야 한다.

D


기존 커머스 서비스 벤치마킹

상품명, 브랜드, 가격, 카테고리, 소재 등

13

사용자는 웹 인터페이스를 통해 텍스트 입력, 이미지 업로드, 결과 확인을 쉽게 수행할 수 있어야 한다.

W


사용성 요구 분석

UX/UI 편의성

14

시스템은 잘못된 입력이나 검색 실패 상황에 대해 사용자에게 적절한 안내를 제공해야 한다.

W


예외 처리 요구 분석

이미지 누락, 비패션 질의, 검색 실패 등

요구사항 만족을 위한 기능 정의 및 기능별 정량목표


번호

기능

평가 방법

정량 목표

1

자연어 의도 추출

사용자가 입력한 질의의 명시 속성과 시스템 추출 속성 비교

90% 이상

2

이미지 입력 반영

참조 이미지가 검색 의도에 적절히 반영되는지 평가

80% 이상

3

과도한 속성 추론 방지

사용자가 말하지 않은 속성을 임의로 추가하는지 확인

오류율10% 이하

4

검색 결과 적합도

상위 검색 결과가 질의 의도와 부합하는지 팀원 수동 평가

80% 이상

5

추천 사유 설명 가능성

추천 사유가 질의와 결과 상품을 논리적으로 설명하는지 평가

80% 이상

6

웹 사용성

텍스트 입력, 이미지 업로드, 결과 확인 과정의 편의성 평가

80% 이상

7

예외 처리 안정성

잘못된 입력, 비패션 이미지, 비패션 질의 등에 대한 처리 확인

주요 예외 처리

◇ 자연어 의도 추출 정확도 사용자가 질의에 명시한 속성 예를 들어 “긴팔”, “여름”, “오버핏”, “린넨” 등이 시스템의 추출 결과에 정확히 반영되는지 확인한다.

◇ 이미지 입력 반영 참조 이미지가 함께 입력된 경우, 시스템이 이미지를 검색의 참고 대상으로 활용하고 자연어 조건을 함께 반영하는지 평가한다.

◇ 과도한 속성 추론 방지 사용자가 직접 언급하지 않은 속성을 시스템이 임의로 추가하지 않는지 확인한다. 예를 들어 사용자가 “티셔츠 찾아줘”라고만 입력한 경우, 이를 자동으로 “반팔 티셔츠”로 단정하지 않도록 한다. 실제 구현에서도 사용자가 명시하지 않은 속성을 추가하지 않도록 프롬프트를 구성하였다.

◇ 검색 결과 적합도 최종 검색 결과가 사용자의 자연어 조건과 참조 이미지 조건에 부합하는지 팀원이 직접 평가한다.

◇ 추천 사유 설명 가능성 검색된 상품이 왜 추천되었는지 사용자가 이해할 수 있도록 자연어 설명을 제공하며, 해당 설명이 실제 질의와 결과 상품에 근거하는지 확인한다.

기능 구현을 위한 세부기술 선택사항


번호

기능 구현 세부기술

선택 이유

1

VLM 기반 패션 의도 추출

자연어와 이미지를 함께 이해하여 검색에 필요한 패션 속성을 추출할 수 있음

2

보수적 속성 추출 프롬프트

사용자가 명시하지 않은 속성을 임의로 추가하지 않아 검색 결과 과축소를 방지

3

상품 메타데이터DB

카테고리, 소매, 기장, 성별, 계절, 신축성, 두께, 핏, 소재 등 상품 정보를 저장

4

카테고리 기반 테이블 분리

상의, 바지, 스커트/원피스 등 상품군별로 검색 범위를 줄일 수 있음

5

SQL 기반 후보 필터링

명확한 속성 조건을 빠르게 반영하여 후보 상품을 축소

6

목표 상품 설명문(Target Description) 생성

자연어와 이미지 입력을 검색에 적합한 상품 설명으로 변환

7

텍스트 임베딩 기반 벡터 검색

목표 상품 설명문과 상품 이미지 임베딩 간 의미적 유사도 계산

8

소재 임베딩 반영

사용자가 소재를 명시한 경우 소재 유사도를 검색 점수에 일부 반영

9

웹 기반 검색 인터페이스

사용자가 텍스트와 이미지를 쉽게 입력하고 결과를 확인할 수 있음

10

추천 사유 생성

검색 결과에 대한 설명을 제공하여 결과의 납득 가능성을 높임

11

예외 처리 및 대체 검색

모델 오류, 비패션 입력, 이미지 누락 등에 대해 안정적으로 대응

◇ 기존 단순 벡터 검색 방식은 목표 상품 설명문만 생성한 뒤 전체 상품을 대상으로 유사도 검색을 수행하는 구조에 가깝다. 반면 본 시스템은 사용자가 명시한 속성을 먼저 추출하여 상품 후보를 줄인 뒤, 그 후보 안에서 목표 상품 설명문 기반 벡터 검색을 수행한다. 이를 통해 검색 결과가 사용자의 명시 조건을 더 잘 만족하도록 설계하였다.

개념설계안

본 시스템은 사용자가 입력한 자연어 질의와 선택적으로 업로드한 참조 이미지를 바탕으로, 패션 상품 DB에서 적합한 상품을 검색하고 추천 사유를 반환하는 웹 기반 패션 검색 시스템이다.

개념설계안 FIT.png

가. 전체 시스템 흐름

1. 사용자가 웹 화면에서 자연어 질의를 입력한다. 2. 필요한 경우 참조 이미지를 함께 업로드한다. 3. 시스템은 입력값이 유효한지 확인한다. 4. VLM은 사용자의 질의에서 명시된 패션 속성을 추출한다. 5. 추출된 속성을 기반으로 상품 DB에서 1차 후보군을 축소한다. 6. VLM은 자연어와 이미지 정보를 바탕으로 목표 상품 설명문(Target Description)을 생성한다. 7. 목표 상품 설명문을 텍스트 임베딩으로 변환한다. 8. 상품 이미지 임베딩과 비교하여 의미적으로 가장 유사한 상품을 검색한다. 9. 소재 조건이 있는 경우 소재 유사도를 함께 반영하여 최종 순위를 조정한다. 10. 최종 상품 목록과 추천 사유를 사용자에게 제공한다.

나. 시스템 구조

사용자 입력 → 웹 인터페이스 → 검색 API → 의도 추출 → DB 후보 축소 → 목표 상품 설명문(Target Description) 생성 → 벡터 유사도 검색 → 추천 사유 생성 → 결과 출력

이론적 계산 및 시뮬레이션

◇ 전체 검색 과정의 계산 구조

본 시스템은 전체 상품을 한 번에 검색하지 않고, 사용자가 명시한 조건을 먼저 반영하여 후보 상품을 줄인 뒤 벡터 검색을 수행한다. 전체 상품 수를 N, 메타데이터 필터링 후 남은 후보 상품 수를 C, 최종 반환 상품 수를 K라고 하면 검색 흐름은 다음과 같다.

N → C → K

단순 벡터 검색은 전체 상품 N개를 대상으로 유사도 비교를 수행한다. 반면 본 시스템은 사용자의 명시 조건을 먼저 반영하여 후보 상품 수를 C개로 줄인 뒤, 그 안에서 의미론적 검색을 수행한다. 이를 통해 “긴팔”, “여름”, “남성”, “오버핏”과 같은 명확한 조건을 만족하지 않는 상품이 상위 결과에 노출되는 문제를 줄일 수 있다.

◇ 목표 상품 설명문(Target Description) 기반 유사도 계산

본 시스템은 사용자의 자연어 질의와 참조 이미지를 바탕으로 목표 상품 설명문(Target Description)을 생성한다. 목표 상품 설명문은 사용자가 찾고자 하는 상품을 검색에 적합한 문장 형태로 표현한 것이다. 예를 들어 사용자가 “이 이미지랑 비슷한 느낌인데 여름에 입기 좋은 얇은 셔츠 찾아줘”라고 입력하면, 시스템은 참조 이미지의 스타일과 사용자의 추가 조건을 함께 반영하여 검색용 목표 상품 설명문을 생성한다. 생성된 목표 상품 설명문은 임베딩 벡터로 변환되고, 상품 DB에 저장된 상품 이미지 임베딩과 비교된다. 목표 상품 설명문 임베딩 벡터를 q, i번째 상품 이미지 임베딩 벡터를 v_i라고 하면 두 벡터의 의미적 유사도는 다음과 같이 계산한다.

수식2.png

위 값이 클수록 사용자가 원하는 상품 설명과 해당 상품 이미지가 의미적으로 가깝다고 판단한다. 즉, 검색 결과는 이 유사도 값이 높은 상품을 우선적으로 반환하도록 설계하였다.

◇ 소재 조건 유사도 계산

사용자가 “린넨”, “데님”, “니트”, “면 소재”와 같이 소재 조건을 명시한 경우, 시스템은 소재 정보도 검색 결과에 반영한다. 이는 이미지가 비슷하더라도 사용자가 원하는 소재와 다른 상품이 상위에 노출되는 문제를 줄이기 위한 것이다. 사용자 소재 조건 임베딩 벡터를 f, i번째 상품의 소재 설명 임베딩 벡터를 r_i라고 하면 소재 유사도는 다음과 같이 계산한다.

수식3.png

소재 조건이 없는 질의에서는 해당 계산을 생략하고, 목표 상품 설명문과 상품 이미지 간 유사도만 사용한다.

◇ 최종 검색 점수 계산

최종 검색 점수는 기본적으로 목표 상품 설명문과 상품 이미지 간의 의미적 유사도를 중심으로 계산한다. 다만 사용자가 소재 조건을 명시한 경우에는 소재 유사도를 일부 반영하여 최종 순위를 조정한다.

수식4.png

◇ 시뮬레이션

본 시스템의 검색 과정이 실제로 어떻게 적용되는지 확인하기 위해 다음 예시 질의를 기준으로 시뮬레이션을 구성하였다. 예시 질의: “여름에 입기 좋은 린넨 반팔 셔츠 찾아줘” 이 질의에서 시스템은 사용자가 명시한 조건을 먼저 추출한다. “셔츠”는 상의 카테고리, “반팔”은 소매 조건, “여름”은 계절 조건, “린넨”은 소재 조건에 해당한다. 따라서 전체 상품을 바로 검색하지 않고, 상의 상품 중 반팔이며 여름 조건에 맞는 상품으로 후보를 먼저 줄인다. 예를 들어 전체 상품이 20,000개라고 가정하면, 카테고리·소매·계절 조건을 적용하면서 후보 수는 다음과 같이 줄어든다.

20,000 → 180

즉, 전체 상품 20,000개를 모두 비교하는 것이 아니라, 사용자가 명시한 조건을 반영하여 180개의 후보로 줄인 뒤 의미론적 유사도 검색을 수행한다. 다음으로 시스템은 질의를 목표 상품 설명문(Target Description)으로 변환한다. 목표 상품 설명문(Target Description) 예시: “A lightweight short-sleeve linen shirt suitable for summer.” 이후 목표 상품 설명문과 후보 상품 이미지 간 유사도를 계산한다. 또한 사용자가 “린넨”이라는 소재를 명시했기 때문에 소재 유사도도 함께 반영한다. 예를 들어 A 상품의 이미지 유사도가 0.82, 소재 유사도가 0.90이라면 최종 점수는 다음과 같다.

수식5.png

이처럼 본 시스템은 사용자가 명시한 조건으로 후보를 먼저 줄이고, 목표 상품 설명문과 소재 조건을 함께 반영하여 최종 검색 순위를 결정한다. 따라서 단순히 이미지가 비슷한 상품뿐만 아니라, 사용자가 입력한 계절·소매·소재 조건에 더 적합한 상품을 상위에 배치할 수 있다.

상세설계 내용

◇ 가. 전체 소프트웨어 구조

본 시스템은 사용자의 자연어 질의와 참조 이미지를 입력받아, 상품 DB에서 적합한 패션 아이템을 검색하고 추천 사유를 제공하는 웹 기반 패션 검색 시스템이다. 소프트웨어는 크게 사용자 인터페이스, 검색 API, 추천 파이프라인, 상품 데이터베이스로 구성된다.


구성 요소

역할

사용자 인터페이스

자연어 입력, 이미지 업로드, 검색 결과 확인

검색API

사용자 요청 검증, 검색 파이프라인 실행, 결과 반환

의도 추출 모듈

사용자가 명시한 패션 속성 추출

후보 축소 모듈

상품DB의 정형 속성을 이용해 후보 상품 축소

목표 상품 설명문 생성 모듈

자연어와 이미지를 검색용 상품 설명문으로 변환

벡터 검색 모듈

목표 상품 설명문과 상품 이미지 임베딩의 유사도 계산

소재 반영 모듈

소재 조건이 있는 경우 최종 검색 점수에 반영

추천 사유 생성 모듈

검색 결과에 대한 자연어 설명 생성

본 시스템은 사용자의 입력을 바로 상품 검색에 사용하지 않고, 먼저 검색에 필요한 속성과 목표 상품 설명문(Target Description)으로 변환한 뒤 상품 DB에서 결과를 찾는다.


◇ 나. 검색 파이프라인 설계

1단계: 사용자 입력 검증

사용자는 자연어 질의만 입력할 수도 있고, 참조 이미지를 함께 업로드할 수도 있다. 시스템은 먼저 입력값이 올바른지 확인한다. 자연어와 이미지가 모두 없는 경우에는 검색을 수행하지 않는다. 또한 “이 이미지처럼”, “이 옷이랑 비슷하게”와 같이 이미지를 참조하는 표현이 있는데 이미지가 첨부되지 않은 경우에는 이미지 업로드를 요청한다.

2단계: 패션 관련 입력 여부 확인

목표 상품 설명문(Target Description)을 생성하기 전에, 입력된 텍스트와 이미지가 패션 검색에 적합한지 확인한다. 예를 들어 “노트북 추천해줘”와 같은 비패션 질의는 검색 대상으로 처리하지 않는다. 이미지의 경우에도 음식, 풍경, 전자기기처럼 의류나 패션 아이템이 포함되지 않은 이미지는 검색에 사용하지 않고 재입력을 요청한다.

3단계: 보수적 패션 의도 추출

시스템은 사용자의 질의에서 명시된 패션 속성만 추출한다. 이때 사용자가 말하지 않은 속성을 임의로 추가하지 않는 것이 핵심이다. 예를 들어 “티셔츠 찾아줘”라고만 입력한 경우, 시스템은 이를 자동으로 “반팔 티셔츠”라고 단정하지 않는다. 이러한 방식은 잘못된 속성 필터링으로 인해 적합한 상품이 후보에서 제외되는 문제를 줄이기 위한 것이다.

4단계: 정형 속성 기반 후보 축소

추출된 속성 중 카테고리, 소매, 기장, 성별, 계절, 신축성, 두께, 핏은 상품 DB의 메타데이터와 직접 비교할 수 있다. 따라서 해당 속성들은 후보 상품을 줄이는 데 사용한다.


속성

활용 목적

category1

상의, 바지, 스커트/원피스 등 상품군 선택

sleeve

긴팔, 반팔, 민소매 조건 반영

length

짧은 기장, 중간 기장, 긴 기장 조건 반영

sex

남성, 여성, 공용 조건 반영

season

봄, 여름, 가을, 겨울 조건 반영

stretch

신축성 유무 반영

thickness

얇음, 보통, 두꺼움 조건 반영

fit

슬림, 레귤러, 루즈, 오버사이즈 조건 반영

fabric

소재 조건이 있는 경우 유사도 점수에 반영

색상은 별도의 정형 속성 필터로 분리하지 않고, 목표 상품 설명문 생성 과정에서 자연어와 이미지 맥락을 통해 반영한다.

5단계: 목표 상품 설명문(Target Description) 생성

목표 상품 설명문(Target Description)은 사용자의 자연어 질의와 참조 이미지를 검색에 적합한 하나의 상품 설명으로 변환한 것이다. 이미지가 있는 경우 이미지는 참조 상품으로 사용하고, 텍스트는 수정 조건 또는 추가 조건으로 사용한다. 이미지와 텍스트가 충돌하는 경우에는 사용자가 명시한 텍스트 조건을 우선한다. 예를 들어 이미지에는 긴팔 셔츠가 보이더라도 사용자가 “반팔로 찾아줘”라고 입력하면, 최종 목표 상품 설명문에는 반팔 조건이 반영된다.

6단계: 벡터 검색 및 소재 조건 반영

생성된 목표 상품 설명문은 임베딩 벡터로 변환된다. 이후 상품 DB에 저장된 상품 이미지 임베딩과 비교하여 의미적으로 가장 가까운 상품을 검색한다. 사용자가 “린넨”, “면”과 같은 소재를 명시한 경우에는 소재 유사도도 최종 점수에 일부 반영한다. 소재 조건이 없는 경우에는 목표 상품 설명문과 상품 이미지 간 유사도만으로 결과를 정렬한다.

7단계: 추천 사유 생성

최종 검색 결과가 결정되면 시스템은 추천 사유를 자연어로 생성한다. 추천 사유는 사용자의 질의, 추출된 속성, 목표 상품 설명문, 검색 결과를 바탕으로 작성된다. 이를 통해 사용자는 단순히 상품 목록만 확인하는 것이 아니라, 해당 상품이 왜 추천되었는지 함께 이해할 수 있다.


◇ 다. 예외 처리 및 대체 검색 설계


예외 상황

처리 방식

이미지 참조 표현이 있으나 이미지가 없는 경우

이미지 첨부 요청

텍스트가 패션 관련 질의가 아닌 경우

패션 관련 검색어 입력 안내

이미지가 패션 관련 이미지가 아닌 경우

의류나 패션 아이템이 보이는 이미지 요청

목표 상품 설명문 생성 실패

사용자의 원문 질의를 기반으로 최소한의 검색 수행

소재 정보를 사용할 수 없는 경우

소재 점수를 제외하고 이미지 유사도 중심으로 검색

정형 속성 필터 결과가 없는 경우

필터 조건을 완화하여 벡터 검색 중심으로 검색

데이터베이스 검색 오류

검색 실패 안내 후 재시도 유도

◇ 라. 웹 인터페이스 설계


기능

설명

자연어 검색창

원하는 옷을 문장으로 입력

이미지 업로드

참고하고 싶은 옷 사진 업로드

카테고리 선택

전체, 상의, 바지, 원피스, 스커트 등 선택

검색 진행 상태 표시

시스템이 요청을 분석 중임을 안내

결과 카드 표시

상품 이미지, 상품명, 브랜드, 가격 등 표시

추천 사유 표시

해당 상품이 추천된 이유 제공

프론트엔드는 사용자의 입력을 하나의 검색 요청으로 구성하여 백엔드에 전달하고, 백엔드는 검색 결과와 추천 사유를 다시 프론트엔드로 반환한다.

결과 및 평가

완료 작품의 소개

프로토타입 사진

프로토타입 FIT.png

본 프로젝트의 최종 성과물은 사용자의 자연어 질의와 참조 이미지를 함께 활용할 수 있는 웹 기반 패션 검색 서비스이다. 사용자는 원하는 패션 아이템을 문장 형태로 입력할 수 있으며, 필요한 경우 참고하고 싶은 이미지를 함께 업로드하여 검색할 수 있다.

주요 기능은 다음과 같다.

◇ 자연어 기반 패션 상품 검색 ◇ 참조 이미지 업로드 기반 검색 ◇ 자연어와 이미지 조건을 함께 반영한 검색 ◇ 상의, 바지, 원피스, 스커트 등 카테고리 선택 ◇ 상품 이미지 및 기본 정보 제공 ◇ 검색 결과에 대한 추천 사유 제공

설치

가. SW/HW 구성 방법

◇ 1단계: GitHub 저장소 복제

먼저 프로젝트 소스코드를 GitHub 저장소에서 내려받는다. 저장소에는 백엔드 API, 프론트엔드 화면, 상품 데이터베이스 구축 코드, 추천 파이프라인 코드가 포함되어 있다.

git clone https://github.com/cs-f1t/f1t_new.git Github.png


◇ 2단계: 백엔드 환경 구성

백엔드는 Python 기반 환경에서 실행된다. 처음 실행할 때는 전용 실행 환경을 만들고, 백엔드에 필요한 패키지를 설치한다. 이후 검색 파이프라인에서 사용할 환경변수 파일을 생성한다.

conda create -n f1t python=3.11 -y

conda activate f1t

pip install -r backend/requirements.txt

cp pipeline/.env.example pipeline/.env

생성한 pipeline/.env 파일에는 외부 AI API와 데이터베이스 연결 정보를 입력한다. 필수 환경변수는 다음과 같다.

환경변수.png


◇ 3단계: 상품 데이터베이스 구성

상품 데이터베이스는 Supabase를 사용하여 구성한다. 데이터베이스에는 무신사 기반으로 수집한 상품명, 브랜드, 가격, 이미지 URL, 카테고리, 소매, 기장, 계절, 핏, 소재 등의 메타데이터를 저장한다. 또한 목표 상품 설명문(Target Description) 기반 검색을 위해 상품 이미지 임베딩과 소재 임베딩 정보를 함께 저장한다. DB 구성 과정에서는 상품 테이블 생성, 상품 데이터 업로드, 이미지 및 소재 임베딩 저장, 벡터 검색을 위한 pgvector 설정을 진행한다. 백엔드의 SUPABASE_URL, SUPABASE_KEY 값은 이 데이터베이스와 연결하기 위해 사용된다.

DB.png


◇ 4단계: 프론트엔드 환경 구성

프론트엔드는 Node.js/npm 기반으로 실행된다. 처음 실행할 때는 프론트엔드 폴더로 이동하여 필요한 패키지를 설치하고, 프론트엔드 환경변수 파일을 생성한다.

cd frontend

npm install

cp .env.example .env.local

환경변수2.png


frontend/.env.local 파일에는 백엔드 API 주소를 설정한다. 이를 통해 사용자가 웹 화면에서 입력한 자연어 질의와 참조 이미지가 백엔드 검색 서버로 전달된다. 또한 프론트엔드에서 상품 이미지, 카테고리 정보, 상품 데이터 등을 직접 조회하기 위해 Supabase 연결 정보도 함께 설정한다.

Supabase.png

실행

가. SW 실행 방법

◇ 1단계: 백엔드 서버 실행

먼저 프로젝트 루트 위치에서 백엔드 실행 환경을 활성화한 뒤, FastAPI 서버를 실행한다. 백엔드 서버는 사용자의 검색 요청을 받아 VLM 기반 의도 추출, 목표 상품 설명문(Target Description) 생성, DB 후보 검색, 벡터 검색, 추천 사유 생성을 수행한다.

uvicorn backend.api:app --host 0.0.0.0 --port 8000

SW.png

◇ 2단계: 프론트엔드 서버 실행

새 터미널을 열고 프론트엔드 폴더로 이동한 뒤, 개발 서버를 실행한다. 프론트엔드는 백엔드 API와 연결되어 자연어 입력, 이미지 업로드, 카테고리 선택, 검색 결과 표시 기능을 제공한다.

cd frontend

npm run dev -- --host 127.0.0.1 --port 5173

프론트엔드.png

◇ 3단계: 웹 서비스 접속

프론트엔드 서버가 정상적으로 실행되면 웹 브라우저에서 다음 주소로 접속한다. http://127.0.0.1:5173/ 접속 후 사용자는 검색창에 자연어 질의를 입력하거나 참조 이미지를 업로드하여 패션 상품 검색을 수행할 수 있다.

웹서비스1.png 웹서비스2.png

관련사업비 내역서

(단위 : 천원)


항 목

(품명, 규격)

수 량

단 가

금 액

비 고


현금


직접개발비

Claude 구독 비용

6

33

198




ChatGPT 구독 비용

4

29

116




Supabase 구독 비용

3

38

114




Claude 크레딧 구매

4

25

100




Gemini API 크레딧 구매

1

16

16




합 계



544



◇ Claude 구독 비용 : 코드 작성, 파이프라인 설계 검토, 프롬프트 작성, 문서 초안 정리, 실험 결과 분석 보조에 사용하였다.

◇ ChatGPT 구독 비용 : 코드 구조 분석, 최종보고서 작성, 발표 자료 구성, 평가 결과 정리 과정에 사용하였다.

◇ Supabase 구독 비용 : 무신사 기반 상품 DB 저장, 상품 메타데이터 관리, 이미지 및 소재 임베딩 저장, 벡터 검색 환경 구성을 위해 사용하였다.

◇ Gemini API 크레딧 구매 : VLM 기반 메타데이터 추출, 목표 상품 설명문(Target Description) 생성, 임베딩 생성, 추천 사유 생성 등 핵심 검색 파이프라인 실행에 사용하였다.

완료작품의 평가


평 가 항 목

평가방법

적용기준

개 발

목표치

비중

(%)

평가결과

1. 자연어 의도 이해 정확도

사용자의 질의에 명시된 패션 속성을 시스템이 올바르게 추출하는지 평가

올바르게 추출된 속성 수/ 질의에 명시된 전체 속성 수

90%

20

91%
— 목표 달성

2. 이미지 이해 정확도

참조 이미지의 주요 패션 정보가 목표 상품 설명문(Target Description)에 적절히 반영되었는지 평가

이미지와 목표 상품 설명문 간 모순이 없는 경우의 비율

90%

20

88%
— 목표치 근접

3. 검색 결과 적합도

102개 테스트 질의에 대해top-1 검색 결과가 사용자 의도에 적합한지 시각적으로 평가

적합 또는 부분 적합으로 판단된 결과 수/ 전체 결과 수

80%

25

83%
— 목표 달성

4. 의도 반영 개선도

논문 베이스라인 검색 방식과 본 파이프라인의 top-1 결과를 비교 평가

우리 파이프라인 우세 건수/ 베이스라인 우세 건수

논문 베이스라인 대비 우세

15

파이프라인 우세 — 파이프라인 우세 20건, 베이스라인 우세 13건

5. 설명 가능성

추천 사유가 사용자 질의와 검색 결과를 논리적으로 설명하는지 팀원이 직접 평가

납득 가능한 추천 사유 수/ 전체 추천 사유 수

80%

10

87%
— 목표 달성

6. 웹 사용성

사용자가 자연어 입력, 이미지 업로드, 결과 확인 과정을 불편 없이 수행할 수 있는지 평가

팀원 사용성 평가 평균

80%

5

85%
— 목표 달성

7. 시스템 응답 속도

검색 요청부터 결과 반환까지의 평균 소요 시간 측정

평균 응답 시간

10초 이내

5

7.1초
— 목표 달성

◇ 평가용 테스트 질의 구성

본 시스템의 검색 성능을 평가하기 위해 총 102개의 테스트 질의를 구성하였다. 테스트 질의는 입력 형태에 따라 자연어 질의만 사용하는 경우, 참조 이미지만 사용하는 경우, 참조 이미지와 자연어 수정 조건을 함께 사용하는 경우로 나누어 구성하였다. 자연어 질의는 “여름에 입기 좋은 얇은 반팔 셔츠 찾아줘”, “러닝할 때 입기 좋은 가벼운 바지 추천해줘”처럼 사용자가 실제 패션 검색 상황에서 입력할 수 있는 문장으로 구성하였다. 참조 이미지 기반 질의는 사용자가 업로드한 의류 이미지를 기준으로 유사 상품을 검색하는 경우를 포함하였다. 또한 복합 질의는 “이 바지랑 기장은 비슷한데 두께가 얇은 바지 추천해줘”, “이 이미지와 비슷하지만 더 긴소매 셔츠를 찾아줘”처럼 이미지의 시각 정보와 자연어 수정 조건을 함께 반영해야 하는 경우로 구성하였다. 각 테스트 질의에 대해 top-1 검색 결과가 사용자의 의도에 적합한지 평가하였으며, 카테고리, 소매 또는 기장, 계절감, 두께감, 핏, 소재 등 핵심 조건을 기준으로 적합 여부를 판단하였다.

향후계획

가. 어려웠던 내용들

◇ 상품 DB 메타데이터의 신뢰도 문제

무신사에서 수집한 상품 정보는 실제 이미지와 완전히 일치하지 않는 경우가 있었다. 예를 들어 원피스의 기장이 데이터상으로는 long으로 저장되어 있지만, 사람이 보았을 때는 half와 long 사이로 판단될 수 있는 애매한 경우가 있었다. 이러한 데이터 품질 문제는 후보 필터링 정확도에 영향을 줄 수 있다.

◇ 상품 속성 분포의 불균형

DB에 저장된 상품 속성의 분포가 균일하지 않았다. 예를 들어 두께의 경우 보통 값이 많고, 얇음이나 두꺼움에 해당하는 상품은 상대적으로 적을 수 있다. 이러한 분포 불균형은 특정 조건의 질의에서 검색 결과가 제한적으로 나타나는 원인이 될 수 있다.

◇ 자연어 표현의 다양성

사용자는 같은 의미를 다양한 방식으로 표현할 수 있다. 예를 들어 “오버핏”, “넉넉한 핏”, “루즈한 느낌”은 비슷한 의미를 가지지만 DB 속성과 정확히 일치하지 않을 수 있다. 이러한 표현 차이를 안정적으로 처리하는 것이 어려웠다.

◇ 이미지와 텍스트 조건의 충돌

참조 이미지와 사용자의 자연어 조건이 서로 다른 경우 어떤 정보를 우선할지 정하는 것이 중요했다. 본 시스템에서는 사용자가 명시한 텍스트 조건을 우선하도록 설계했지만, 실제 검색 결과에서는 이미지의 영향과 텍스트 조건의 영향을 균형 있게 조정하는 문제가 있었다.

◇ 응답 시간 문제

VLM 기반 의도 추출, 목표 상품 설명문 생성, 임베딩 검색, 추천 사유 생성을 모두 수행하기 때문에 단순 키워드 검색보다 응답 시간이 길어질 수 있다. 실제 서비스 수준으로 발전시키기 위해서는 응답 속도 최적화가 필요하다.

나. 차후 구현할 내용

◇ 상품 DB 규모 확대

현재는 제한된 상품 데이터를 기반으로 프로토타입을 구성하였으나, 향후 더 많은 상품과 다양한 카테고리를 포함하도록 DB 규모를 확장할 필요가 있다.

◇ 메타데이터 품질 개선

수집된 상품 속성 중 애매하거나 부정확한 값을 보정하는 과정이 필요하다. 특히 기장, 핏, 두께, 소재와 같이 사람이 해석하기에 따라 달라질 수 있는 속성에 대해 검수 및 자동 보정 방식을 추가할 수 있다.

◇ 검색 결과 평가 데이터 구축

현재 평가는 팀원 수동 평가를 중심으로 수행하지만, 향후에는 정답 후보가 포함된 테스트셋을 구축하여 검색 성능을 더 객관적으로 평가할 필요가 있다.

◇ 응답 속도 최적화

AI 모델 호출 횟수를 줄이거나, 자주 사용되는 질의와 상품 임베딩을 캐싱하여 검색 응답 시간을 줄일 수 있다. 또한 후보 축소 단계와 벡터 검색 단계를 더 효율적으로 연결하는 방식도 고려할 수 있다.

◇ 개인화 추천 기능 추가

향후 사용자의 선호 색상, 자주 선택하는 카테고리, 이전 검색 기록 등을 반영하면 더 개인화된 패션 검색 서비스로 확장할 수 있다.

◇ 모바일 환경 최적화

패션 검색 서비스는 모바일 사용 비중이 높기 때문에, 향후 모바일 화면에서도 이미지 업로드와 결과 확인이 편리하도록 UI를 개선할 필요가 있다.

부록

참고문헌 및 참고사이트

1. 참고문헌 [1] Y. Tang, X. Qin, J. Zhang, J. Yu, G. Gou, G. Xiong, Q. Ling, S. Rajmohan, D. Zhang, and Q. Wu, “Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval,” arXiv:2412.11077, 2024. [2] J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. Chi, Q. Le, and D. Zhou, “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” arXiv:2201.11903, 2022. [3] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning Transferable Visual Models From Natural Language Supervision,” arXiv:2103.00020, 2021. [4] H. Wu, Y. Gao, X. Guo, Z. Al-Halah, S. Rennie, K. Grauman, and R. Feris, “Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Feedback,” arXiv:1905.12794, 2019. [5] Z. Liu, C. Rodriguez-Opazo, D. Teney, and S. Gould, “Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models,” arXiv:2108.04024, 2021. [6] A. Baldrati, M. Bertini, T. Uricchio, and A. Del Bimbo, “Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features,” arXiv:2308.11485, 2023.

2. 참고사이트 [1] 무신사 https://www.musinsa.com [2] Google AI for Developers — Gemini API https://ai.google.dev/gemini-api/docs [3] Google AI for Developers — Gemini Embeddings https://ai.google.dev/gemini-api/docs/embeddings [4] Supabase https://supabase.com [5] Supabase pgvector 문서 https://supabase.com/docs/guides/database/extensions/pgvector [6] pgvector https://github.com/pgvector/pgvector [7] FastAPI https://fastapi.tiangolo.com [8] React https://react.dev [9] Vite https://vite.dev

관련특허

[1] 공개번호 10-2025-0045724 ◇ 출원번호 : 10-2023-0128992 ◇ 출원인 : 옴니어스 주식회사 ◇ 출원일 : 2023년 9월 26일 ◇ 발명의 명칭 : 입력 데이터에 기반하여 타겟 정보를 검색하는 방법

[2] 공개번호 10-2025-0046491 ◇ 출원번호 : 10-2023-0129990 ◇ 출원인 : 옴니어스 주식회사 ◇ 출원일 : 2023년 9월 27일 ◇ 발명의 명칭 : 특정 분야에 특화된 멀티모달 검색을 수행하기 위한 방법

소프트웨어 프로그램 소스

GitHub 저장소

https://github.com/cs-f1t/f1t_new.git