"2분반-F1T"의 두 판 사이의 차이

2026년 6월 16일 (화) 03:38 판

프로젝트 개요

기술개발 과제

국문 : VLM을 활용한 사용자 의도 추론 기반 패션 검색 시스템

영문 : Vision-Language Model-based Fashion Retrieval with 영문 Intention Grounding

과제 팀명

F1T

지도교수

박관용 교수님

개발기간

2026년 3월 ~ 2026년 6월 (총 4개월)

구성원 소개

서울시립대학교 수학과 20235400** 허*준(팀장)

서울시립대학교 컴퓨터과학부 20199200** 김*훈

서울시립대학교 컴퓨터과학부 20209200** 김*혁

서울시립대학교 컴퓨터과학부 20209200** 박*현

서론

개발 과제의 개요

개발 과제 요약

◇ 본 과제는 VLM(Vision-Language Model)을 활용하여 사용자의 자연어 질의와 선택적으로 입력되는 참조 이미지를 함께 분석하고, 사용자가 원하는 패션 아이템을 검색·추천하는 패션 검색 시스템 FIT을 개발하는 것을 목표로 한다.

◇ 기존 패션 검색이 주로 키워드, 카테고리, 색상 등 정적인 태그 매칭에 의존하는 것과 달리, 본 시스템은 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등 검색에 필요한 속성을 추출하고 이를 검색 파이프라인에 반영한다.

◇ 사용자의 질의가 “러닝할 때 입기 좋은 가벼운 바지”, “이 이미지와 비슷한 색의 긴소매 셔츠”, “패턴 없는 미니멀한 원피스”처럼 추상적이거나 복합적인 경우에도, VLM 기반 의도 분석을 통해 검색 조건을 구조화하고, 이를 바탕으로 후보 상품을 축소한 뒤 최종 추천 결과를 제공한다.

◇ 시스템은 크게 ① VLM 기반 의도 추출, ② 정형 메타데이터 기반 후보 축소, ③ 목표 상품 설명문(Target Description) 생성, ④ Supabase pgvector 기반 임베딩 검색, ⑤ 추천 이유 생성 및 웹 화면 제공으로 구성된다. 실제 구현에서는 FastAPI 기반 백엔드가 검색 요청을 처리하고, React/Vite 기반 프론트엔드가 자연어 입력, 이미지 업로드, 카테고리 선택, 검색 결과 및 추천 근거를 사용자에게 제공한다.

개발 과제의 배경

◇ 국내 패션 커머스 환경에서는 무신사, 에이블리, 29CM 등 대형 플랫폼을 중심으로 다양한 검색·추천 기능이 제공되고 있으나, 대부분의 검색 방식은 사용자가 직접 입력한 키워드나 판매자가 사전에 등록한 태그에 의존한다. 따라서 사용자가 원하는 스타일을 명확한 상품명이나 속성명으로 표현하지 못하는 경우 검색 결과의 만족도가 낮아질 수 있다.

◇ 특히 패션 검색에서는 사용자가 단순히 “셔츠”, “바지”와 같은 카테고리만 찾는 것이 아니라, “결혼식에 입을 만한 단정한 옷”, “여름에 입기 좋은 얇은 소재”, “이미지와 비슷하지만 더 긴 소매”처럼 상황, 목적, 착용감, 소재감, 이미지 유사성 등을 함께 고려하는 경우가 많다. 기존 키워드 검색이나 단순 이미지 유사도 검색은 이러한 복합적인 의도를 충분히 반영하기 어렵다.

◇ 본 과제는 이러한 한계를 해결하기 위해 자연어와 이미지를 함께 입력받고, VLM을 통해 사용자의 패션 의도를 검색 가능한 속성으로 변환한다. 또한 모든 조건을 단순히 키워드로 처리하지 않고, 정형화 가능한 속성은 DB 필터링에 활용하고, 색상·소재·시각적 분위기처럼 표현이 다양한 속성은 임베딩 기반 의미 검색에 활용함으로써 검색 유연성과 정확성을 동시에 확보한다.

◇ 이를 통해 사용자는 복잡한 필터를 직접 조작하지 않아도 자연어로 원하는 패션 조건을 입력할 수 있으며, 시스템은 해당 의도를 반영한 상품 후보와 추천 이유를 함께 제공한다. 결과적으로 상품 탐색 과정의 피로도를 줄이고, 패션 검색 서비스의 사용자 경험을 개선하는 효과를 기대할 수 있다.

개발 과제의 목표 및 내용

본 과제의 최종 목표는 사용자의 자연어 질의와 참조 이미지를 기반으로 패션 의도를 분석하고, 이를 실제 상품 데이터베이스 검색에 반영하여 적합한 패션 아이템을 추천하는 웹서비스을 구현하는 것이다. 이를 위해 다음과 같은 세부 기능을 개발하였다.

◇ 자연어 및 이미지 기반 의도 추출 기능 사용자의 질의와 선택적으로 입력된 이미지를 VLM에 전달하여 검색에 필요한 패션 속성을 추출한다. 구현 코드에서는 사용자가 실제로 언급한 속성만 추출하도록 프롬프트를 구성하여, 모델이 임의로 속성을 추가하는 문제를 줄이도록 설계하였다.

◇ 정형 메타데이터 기반 후보 축소 기능 소매 길이, 기장, 성별, 계절감, 신축성, 두께감, 핏 등 값의 범위가 비교적 명확한 속성은 DB 필터링에 활용한다. 이를 통해 전체 상품 DB에서 사용자의 조건에 맞는 후보군을 먼저 줄이고, 이후 임베딩 검색 단계에서 더 정교한 랭킹을 수행한다.

◇ 목표 상품 설명문(Target Description) 기반 의미 검색 기능 사용자의 자연어 질의와 참조 이미지를 바탕으로 검색에 적합한 목표 상품 설명문(Target Description)을 생성하고, 이를 임베딩으로 변환하여 상품 이미지/속성 임베딩과 유사도를 비교한다. 이를 통해 단순 키워드 일치가 아닌 의미 기반 검색을 수행한다.

◇ Supabase pgvector 기반 벡터 검색 기능 상품 데이터는 Supabase에 저장하고, 검색 시 생성된 임베딩을 pgvector RPC에 전달하여 유사도 기반 검색을 수행한다. 구현 코드에서는 768차원 임베딩 검색을 위한 RPC 호출 구조와 테이블/카테고리 필터를 함께 처리하도록 설계하였다.

◇ 추천 결과 및 추천 이유 제공 기능 최종 검색 결과에는 상품명, 브랜드, 이미지, 카테고리, 가격, 색상, 소매, 기장, 계절감, 신축성, 두께감, 핏, 소재, 유사도 등을 포함하며, 사용자가 왜 해당 상품을 추천받았는지 이해할 수 있도록 한국어 추천 이유를 함께 제공한다

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

전 세계적인 기술현황

패션 이미지 검색 기술은 기존의 키워드 기반 검색에서 이미지 기반 검색, 멀티모달 임베딩 검색, 그리고 최근의 VLM 기반 사용자 의도 추론 검색으로 발전하고 있다. 본 과제는 이 흐름 중에서도 사용자의 자연어 질의와 선택적으로 입력되는 참조 이미지를 함께 분석하여, 검색 가능한 속성과 목표 상품 설명문(Target Description) 으로 변환한 뒤 실제 상품 데이터베이스 검색에 활용하는 데 초점을 둔다.

1세대: 키워드 및 태그 기반 패션 검색 기존 패션 커머스의 검색 방식은 상품명, 브랜드명, 카테고리, 색상, 성별, 계절감 등 판매자가 사전에 등록한 태그를 사용자의 검색어와 매칭하는 방식이 일반적이다. 이 방식은 구현이 단순하고 검색 속도가 빠르다는 장점이 있으나, 사용자가 원하는 스타일을 정확한 키워드로 표현하지 못하는 경우 검색 결과의 품질이 낮아진다. 예를 들어 “여름에 입기 좋은 얇고 루즈한 셔츠”와 같이 자연어로 표현된 의도는 단순 키워드 검색만으로는 충분히 처리하기 어렵다. 또한 “이 이미지와 비슷하지만 소매가 긴 옷”처럼 참조 이미지와 수정 요청이 결합된 질의는 기존 태그 기반 검색만으로는 반영하기 어렵다.

2세대: 이미지 기반 검색 및 딥러닝 임베딩 검색 이미지 기반 검색은 사용자가 업로드한 이미지와 시각적으로 유사한 상품을 찾는 방식이다. 초기에는 색상, 질감, 형태 등 수작업 시각 특징을 기반으로 유사도를 계산했으나, 딥러닝의 발전 이후에는 상품 이미지를 고차원 벡터로 변환하고 벡터 공간에서 유사도를 계산하는 방식이 주로 활용되고 있다. CLIP과 같은 멀티모달 임베딩 모델은 이미지와 텍스트를 동일한 임베딩 공간에 정렬함으로써, “검은색 셔츠”, “스트라이프 원피스”와 같은 텍스트 질의와 상품 이미지 간 의미적 유사도를 비교할 수 있게 해 주었다. 그러나 단순 임베딩 검색은 사용자의 복합적인 수정 의도나 상황 맥락을 구조적으로 반영하기 어렵다는 한계가 있다.

3세대: Composed Image Retrieval 및 Zero-Shot CIR Composed Image Retrieval(CIR)은 참조 이미지와 자연어 수정 요청을 함께 입력받아 사용자가 원하는 타겟 이미지를 검색하는 기술이다. 예를 들어 참조 이미지가 반팔 셔츠이고 사용자가 “이것과 비슷하지만 긴소매로 찾아줘”라고 입력하면, 시스템은 이미지의 기본 스타일을 유지하면서 자연어 수정 요청을 반영한 결과를 찾아야 한다. FashionIQ, CIRR 등은 이러한 참조 이미지-수정 텍스트-타겟 이미지 관계를 다루는 대표적인 벤치마크로 활용되어 왔다. 이후에는 별도의 도메인별 학습 데이터를 많이 요구하지 않고, 사전 학습된 멀티모달 모델을 활용하여 검색을 수행하는 Zero-Shot CIR 연구도 활발히 진행되고 있다. 다만 이러한 연구들은 주로 벤치마크 데이터셋에서 이미지와 수정 텍스트를 결합하는 검색 성능에 초점을 둔다. 본 과제는 이 개념을 실제 패션 상품 검색 환경에 적용하기 위해, 참조 이미지와 자연어 질의를 목표 상품 설명문(Target Description) 으로 변환하고, 이를 실제 상품 데이터베이스의 메타데이터 및 임베딩 검색과 결합하는 방향으로 설계하였다.

4세대: VLM 기반 사용자 의도 추론 검색 최근 VLM은 이미지를 단순히 임베딩으로 변환하는 것을 넘어, 이미지와 자연어 질의를 함께 입력받아 속성, 상황, 관계, 수정 의도를 해석할 수 있다. 본 과제는 이러한 VLM의 추론 능력을 활용하여 사용자의 패션 검색 의도를 구조화한다. 구체적으로 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등의 속성을 추출하고, 이를 검색 파이프라인의 후보 축소와 최종 랭킹에 활용한다. 실제 구현에서는 사용자가 명시적으로 언급한 속성만 추출하도록 프롬프트를 설계하여, VLM이 임의로 속성을 추가하는 문제를 줄이고자 하였다.

특허조사 및 특허 전략 분석

◇ 1. 공개번호 10-2025-0045724 | 출원번호 10-2023-0128992 출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 26일

발명의 명칭: 입력 데이터에 기반하여 타겟 정보를 검색하는 방법

자연어 데이터를 GPT 계열 언어 모델에 입력하여 JSON/YAML 형태의 구조화된 출력을 획득하고, 이를 사전 설정된 속성 정보에 따라 두 가지 타입의 요소로 분류한다. 제1타입 요소는 이미지 내에 시각적으로 표시될 수 있는 속성, 예를 들어 색상, 아이템 종류, 프린트 등 시각 속성으로, CLIP·BLIP 등 멀티모달 모델을 통해 임베딩 벡터를 획득하여 벡터 유사도 검색의 인덱스로 활용한다. 제2타입 요소는 이미지에 표시되지 않는 메타 속성, 예를 들어 브랜드, 가격 등으로, DB 필터링 조건으로 활용한다. 명세서의 구체적 실시예로는 “10만원 이내로 파란색 레터링 들어간 커버낫 티셔츠 찾아줘”라는 자연어 입력에서 색상(blue)·아이템(t-shirt)·프린트(lettering)는 제1타입으로 임베딩하고, 브랜드(커버낫)·가격(0~100,000원)은 제2타입으로 DB 필터링에 배분하는 방식이 제시되어 있다. 본 과제와의 관계: 시각 속성은 임베딩 검색, 메타 속성은 DB 필터링으로 나누는 하이브리드 구조는 본 과제와 유사하다. 그러나 해당 특허의 주요 입력은 자연어 텍스트 단독이며, 참조 이미지와 자연어 수정 요청을 함께 입력받아 목표 상품 설명문(Target Description)을 생성하고, 이를 검색 파이프라인에 활용하는 구조는 본 과제와 차이가 있다.

◇ 2. 공개번호 10-2025-0046491 | 출원번호 10-2023-0129990 출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 27일

발명의 명칭: 특정 분야에 특화된 멀티모달 검색을 수행하기 위한 방법

입력 이미지와 그 이미지에 관련된 태그·속성·키워드·메타 정보를 획득한 뒤, 패션 분야 자연어 데이터로 파인튜닝된 언어 모델에 프롬프트로 입력하여 이미지에 대한 자연어 설명을 획득한다. 명세서의 실시예에서는 “네이비 니트 조끼와 베이지 면 스커트를 입은 여성” 이미지에 대해 “네이비 색상으로 차분한 느낌…대학생들의 새내기룩으로 많이 활용”과 같은 패션 특화 설명이 생성된다. 이렇게 생성된 이미지-설명 쌍을 학습 데이터로 삼아 CLIP·BLIP 계열 멀티모달 모델을 이미지 임베딩과 설명 텍스트 임베딩 간 코사인 유사도를 최대화하는 방향으로 학습시키고, 학습 완료된 모델로 멀티모달 검색을 수행하는 파이프라인이다. 본 과제와의 관계: 패션 도메인 특화 언어 모델을 활용하여 이미지 설명을 생성하는 아이디어는 방향이 유사하다. 그러나 해당 특허는 생성된 학습 데이터를 이용한 추가 파인튜닝이 핵심 구성 요건이다. 반면 본 과제는 별도의 패션 검색 모델을 새롭게 학습시키기보다, 사전 학습된 VLM과 임베딩 기반 검색 구조를 활용하여 사용자의 질의와 참조 이미지를 목표 상품 설명문으로 변환하고, 이를 실제 상품 DB 검색에 활용하는 구조이다.

◇ 특허 공백 분석 조사된 선행 특허들을 종합하면, 기존 특허들은 크게 1) 자연어 텍스트 기반 하이브리드 검색, 2) 파인튜닝 기반 도메인 특화 멀티모달 모델 구축 두 범주에 집중되어 있다. 본 과제는 이러한 흐름과 일부 유사한 요소를 가지지만, 참조 이미지와 자연어 수정 텍스트를 동시에 입력받아 VLM이 이미지와 질의를 함께 해석하고, 이를 목표 상품 설명문(Target Description) 및 정형 메타데이터로 변환한 뒤, DB 필터링과 벡터 검색을 함께 수행한다는 점에서 차별성이 있다. 따라서 본 과제는 기존의 단일 텍스트 입력 기반 검색이나 파인튜닝 중심의 멀티모달 검색과 달리, VLM 기반 의도 추론과 실제 상품 DB 검색을 결합한 하이브리드 패션 검색 파이프라인이라는 점에서 기술적 차별성을 가진다. 다만 신규성 및 진보성 여부는 최종 특허 출원 과정에서 청구항 단위의 법률 검토가 필요하다.

기술 로드맵

시장상황에 대한 분석

경쟁제품 조사 비교

내용

마케팅 전략 제시

내용

개발과제의 기대효과

기술적 기대효과

내용

경제적, 사회적 기대 및 파급효과

내용

기술개발 일정 및 추진체계

개발 일정

내용

구성원 및 추진체계

내용

설계

설계사양

제품의 요구사항

내용

설계 사양

내용

개념설계안

내용

이론적 계산 및 시뮬레이션

내용

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용

@@ 67번째 줄: / 67번째 줄: @@
 ====관련 기술의 현황 및 분석(State of art)====
 *전 세계적인 기술현황
-내용
+패션 이미지 검색 기술은 기존의 키워드 기반 검색에서 이미지 기반 검색, 멀티모달 임베딩 검색, 그리고 최근의 VLM 기반 사용자 의도 추론 검색으로 발전하고 있다. 본 과제는 이 흐름 중에서도 사용자의 자연어 질의와 선택적으로 입력되는 참조 이미지를 함께 분석하여, 검색 가능한 속성과 목표 상품 설명문(Target Description) 으로 변환한 뒤 실제 상품 데이터베이스 검색에 활용하는 데 초점을 둔다.
+세대: 키워드 및 태그 기반 패션 검색
+기존 패션 커머스의 검색 방식은 상품명, 브랜드명, 카테고리, 색상, 성별, 계절감 등 판매자가 사전에 등록한 태그를 사용자의 검색어와 매칭하는 방식이 일반적이다. 이 방식은 구현이 단순하고 검색 속도가 빠르다는 장점이 있으나, 사용자가 원하는 스타일을 정확한 키워드로 표현하지 못하는 경우 검색 결과의 품질이 낮아진다.
+예를 들어 “여름에 입기 좋은 얇고 루즈한 셔츠”와 같이 자연어로 표현된 의도는 단순 키워드 검색만으로는 충분히 처리하기 어렵다. 또한 “이 이미지와 비슷하지만 소매가 긴 옷”처럼 참조 이미지와 수정 요청이 결합된 질의는 기존 태그 기반 검색만으로는 반영하기 어렵다.
+세대: 이미지 기반 검색 및 딥러닝 임베딩 검색
+이미지 기반 검색은 사용자가 업로드한 이미지와 시각적으로 유사한 상품을 찾는 방식이다. 초기에는 색상, 질감, 형태 등 수작업 시각 특징을 기반으로 유사도를 계산했으나, 딥러닝의 발전 이후에는 상품 이미지를 고차원 벡터로 변환하고 벡터 공간에서 유사도를 계산하는 방식이 주로 활용되고 있다.
+CLIP과 같은 멀티모달 임베딩 모델은 이미지와 텍스트를 동일한 임베딩 공간에 정렬함으로써, “검은색 셔츠”, “스트라이프 원피스”와 같은 텍스트 질의와 상품 이미지 간 의미적 유사도를 비교할 수 있게 해 주었다. 그러나 단순 임베딩 검색은 사용자의 복합적인 수정 의도나 상황 맥락을 구조적으로 반영하기 어렵다는 한계가 있다.
+세대: Composed Image Retrieval 및 Zero-Shot CIR
+Composed Image Retrieval(CIR)은 참조 이미지와 자연어 수정 요청을 함께 입력받아 사용자가 원하는 타겟 이미지를 검색하는 기술이다. 예를 들어 참조 이미지가 반팔 셔츠이고 사용자가 “이것과 비슷하지만 긴소매로 찾아줘”라고 입력하면, 시스템은 이미지의 기본 스타일을 유지하면서 자연어 수정 요청을 반영한 결과를 찾아야 한다.
+FashionIQ, CIRR 등은 이러한 참조 이미지-수정 텍스트-타겟 이미지 관계를 다루는 대표적인 벤치마크로 활용되어 왔다. 이후에는 별도의 도메인별 학습 데이터를 많이 요구하지 않고, 사전 학습된 멀티모달 모델을 활용하여 검색을 수행하는 Zero-Shot CIR 연구도 활발히 진행되고 있다.
+다만 이러한 연구들은 주로 벤치마크 데이터셋에서 이미지와 수정 텍스트를 결합하는 검색 성능에 초점을 둔다. 본 과제는 이 개념을 실제 패션 상품 검색 환경에 적용하기 위해, 참조 이미지와 자연어 질의를 목표 상품 설명문(Target Description) 으로 변환하고, 이를 실제 상품 데이터베이스의 메타데이터 및 임베딩 검색과 결합하는 방향으로 설계하였다.
+세대: VLM 기반 사용자 의도 추론 검색
+최근 VLM은 이미지를 단순히 임베딩으로 변환하는 것을 넘어, 이미지와 자연어 질의를 함께 입력받아 속성, 상황, 관계, 수정 의도를 해석할 수 있다. 본 과제는 이러한 VLM의 추론 능력을 활용하여 사용자의 패션 검색 의도를 구조화한다.
+구체적으로 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등의 속성을 추출하고, 이를 검색 파이프라인의 후보 축소와 최종 랭킹에 활용한다. 실제 구현에서는 사용자가 명시적으로 언급한 속성만 추출하도록 프롬프트를 설계하여, VLM이 임의로 속성을 추가하는 문제를 줄이고자 하였다.
 *특허조사 및 특허 전략 분석
-내용
+◇ 1. 공개번호 10-2025-0045724 | 출원번호 10-2023-0128992
+출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 26일
+발명의 명칭: 입력 데이터에 기반하여 타겟 정보를 검색하는 방법
+자연어 데이터를 GPT 계열 언어 모델에 입력하여 JSON/YAML 형태의 구조화된 출력을 획득하고, 이를 사전 설정된 속성 정보에 따라 두 가지 타입의 요소로 분류한다. 제1타입 요소는 이미지 내에 시각적으로 표시될 수 있는 속성, 예를 들어 색상, 아이템 종류, 프린트 등 시각 속성으로, CLIP·BLIP 등 멀티모달 모델을 통해 임베딩 벡터를 획득하여 벡터 유사도 검색의 인덱스로 활용한다. 제2타입 요소는 이미지에 표시되지 않는 메타 속성, 예를 들어 브랜드, 가격 등으로, DB 필터링 조건으로 활용한다.
+명세서의 구체적 실시예로는 “10만원 이내로 파란색 레터링 들어간 커버낫 티셔츠 찾아줘”라는 자연어 입력에서 색상(blue)·아이템(t-shirt)·프린트(lettering)는 제1타입으로 임베딩하고, 브랜드(커버낫)·가격(0~100,000원)은 제2타입으로 DB 필터링에 배분하는 방식이 제시되어 있다.
+본 과제와의 관계: 시각 속성은 임베딩 검색, 메타 속성은 DB 필터링으로 나누는 하이브리드 구조는 본 과제와 유사하다. 그러나 해당 특허의 주요 입력은 자연어 텍스트 단독이며, 참조 이미지와 자연어 수정 요청을 함께 입력받아 목표 상품 설명문(Target Description)을 생성하고, 이를 검색 파이프라인에 활용하는 구조는 본 과제와 차이가 있다.
+◇ 2. 공개번호 10-2025-0046491 | 출원번호 10-2023-0129990
+출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 27일
+발명의 명칭: 특정 분야에 특화된 멀티모달 검색을 수행하기 위한 방법
+입력 이미지와 그 이미지에 관련된 태그·속성·키워드·메타 정보를 획득한 뒤, 패션 분야 자연어 데이터로 파인튜닝된 언어 모델에 프롬프트로 입력하여 이미지에 대한 자연어 설명을 획득한다. 명세서의 실시예에서는 “네이비 니트 조끼와 베이지 면 스커트를 입은 여성” 이미지에 대해 “네이비 색상으로 차분한 느낌…대학생들의 새내기룩으로 많이 활용”과 같은 패션 특화 설명이 생성된다.
+이렇게 생성된 이미지-설명 쌍을 학습 데이터로 삼아 CLIP·BLIP 계열 멀티모달 모델을 이미지 임베딩과 설명 텍스트 임베딩 간 코사인 유사도를 최대화하는 방향으로 학습시키고, 학습 완료된 모델로 멀티모달 검색을 수행하는 파이프라인이다.
+본 과제와의 관계: 패션 도메인 특화 언어 모델을 활용하여 이미지 설명을 생성하는 아이디어는 방향이 유사하다. 그러나 해당 특허는 생성된 학습 데이터를 이용한 추가 파인튜닝이 핵심 구성 요건이다. 반면 본 과제는 별도의 패션 검색 모델을 새롭게 학습시키기보다, 사전 학습된 VLM과 임베딩 기반 검색 구조를 활용하여 사용자의 질의와 참조 이미지를 목표 상품 설명문으로 변환하고, 이를 실제 상품 DB 검색에 활용하는 구조이다.
+◇ 특허 공백 분석
+조사된 선행 특허들을 종합하면, 기존 특허들은 크게 1) 자연어 텍스트 기반 하이브리드 검색, 2) 파인튜닝 기반 도메인 특화 멀티모달 모델 구축 두 범주에 집중되어 있다.
+본 과제는 이러한 흐름과 일부 유사한 요소를 가지지만, 참조 이미지와 자연어 수정 텍스트를 동시에 입력받아 VLM이 이미지와 질의를 함께 해석하고, 이를 목표 상품 설명문(Target Description) 및 정형 메타데이터로 변환한 뒤, DB 필터링과 벡터 검색을 함께 수행한다는 점에서 차별성이 있다.
+따라서 본 과제는 기존의 단일 텍스트 입력 기반 검색이나 파인튜닝 중심의 멀티모달 검색과 달리, VLM 기반 의도 추론과 실제 상품 DB 검색을 결합한 하이브리드 패션 검색 파이프라인이라는 점에서 기술적 차별성을 가진다. 다만 신규성 및 진보성 여부는 최종 특허 출원 과정에서 청구항 단위의 법률 검토가 필요하다.
 *기술 로드맵
-내용
 ====시장상황에 대한 분석====