"2분반-F1T"의 두 판 사이의 차이

2026년 6월 16일 (화) 03:48 판

프로젝트 개요

기술개발 과제

국문 : VLM을 활용한 사용자 의도 추론 기반 패션 검색 시스템

영문 : Vision-Language Model-based Fashion Retrieval with 영문 Intention Grounding

과제 팀명

F1T

지도교수

박관용 교수님

개발기간

2026년 3월 ~ 2026년 6월 (총 4개월)

구성원 소개

서울시립대학교 수학과 20235400** 허*준(팀장)

서울시립대학교 컴퓨터과학부 20199200** 김*훈

서울시립대학교 컴퓨터과학부 20209200** 김*혁

서울시립대학교 컴퓨터과학부 20209200** 박*현

서론

개발 과제의 개요

개발 과제 요약

◇ 본 과제는 VLM(Vision-Language Model)을 활용하여 사용자의 자연어 질의와 선택적으로 입력되는 참조 이미지를 함께 분석하고, 사용자가 원하는 패션 아이템을 검색·추천하는 패션 검색 시스템 FIT을 개발하는 것을 목표로 한다.

◇ 기존 패션 검색이 주로 키워드, 카테고리, 색상 등 정적인 태그 매칭에 의존하는 것과 달리, 본 시스템은 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등 검색에 필요한 속성을 추출하고 이를 검색 파이프라인에 반영한다.

◇ 사용자의 질의가 “러닝할 때 입기 좋은 가벼운 바지”, “이 이미지와 비슷한 색의 긴소매 셔츠”, “패턴 없는 미니멀한 원피스”처럼 추상적이거나 복합적인 경우에도, VLM 기반 의도 분석을 통해 검색 조건을 구조화하고, 이를 바탕으로 후보 상품을 축소한 뒤 최종 추천 결과를 제공한다.

◇ 시스템은 크게 ① VLM 기반 의도 추출, ② 정형 메타데이터 기반 후보 축소, ③ 목표 상품 설명문(Target Description) 생성, ④ Supabase pgvector 기반 임베딩 검색, ⑤ 추천 이유 생성 및 웹 화면 제공으로 구성된다. 실제 구현에서는 FastAPI 기반 백엔드가 검색 요청을 처리하고, React/Vite 기반 프론트엔드가 자연어 입력, 이미지 업로드, 카테고리 선택, 검색 결과 및 추천 근거를 사용자에게 제공한다.

개발 과제의 배경

◇ 국내 패션 커머스 환경에서는 무신사, 에이블리, 29CM 등 대형 플랫폼을 중심으로 다양한 검색·추천 기능이 제공되고 있으나, 대부분의 검색 방식은 사용자가 직접 입력한 키워드나 판매자가 사전에 등록한 태그에 의존한다. 따라서 사용자가 원하는 스타일을 명확한 상품명이나 속성명으로 표현하지 못하는 경우 검색 결과의 만족도가 낮아질 수 있다.

◇ 특히 패션 검색에서는 사용자가 단순히 “셔츠”, “바지”와 같은 카테고리만 찾는 것이 아니라, “결혼식에 입을 만한 단정한 옷”, “여름에 입기 좋은 얇은 소재”, “이미지와 비슷하지만 더 긴 소매”처럼 상황, 목적, 착용감, 소재감, 이미지 유사성 등을 함께 고려하는 경우가 많다. 기존 키워드 검색이나 단순 이미지 유사도 검색은 이러한 복합적인 의도를 충분히 반영하기 어렵다.

◇ 본 과제는 이러한 한계를 해결하기 위해 자연어와 이미지를 함께 입력받고, VLM을 통해 사용자의 패션 의도를 검색 가능한 속성으로 변환한다. 또한 모든 조건을 단순히 키워드로 처리하지 않고, 정형화 가능한 속성은 DB 필터링에 활용하고, 색상·소재·시각적 분위기처럼 표현이 다양한 속성은 임베딩 기반 의미 검색에 활용함으로써 검색 유연성과 정확성을 동시에 확보한다.

◇ 이를 통해 사용자는 복잡한 필터를 직접 조작하지 않아도 자연어로 원하는 패션 조건을 입력할 수 있으며, 시스템은 해당 의도를 반영한 상품 후보와 추천 이유를 함께 제공한다. 결과적으로 상품 탐색 과정의 피로도를 줄이고, 패션 검색 서비스의 사용자 경험을 개선하는 효과를 기대할 수 있다.

개발 과제의 목표 및 내용

본 과제의 최종 목표는 사용자의 자연어 질의와 참조 이미지를 기반으로 패션 의도를 분석하고, 이를 실제 상품 데이터베이스 검색에 반영하여 적합한 패션 아이템을 추천하는 웹서비스을 구현하는 것이다. 이를 위해 다음과 같은 세부 기능을 개발하였다.

◇ 자연어 및 이미지 기반 의도 추출 기능 사용자의 질의와 선택적으로 입력된 이미지를 VLM에 전달하여 검색에 필요한 패션 속성을 추출한다. 구현 코드에서는 사용자가 실제로 언급한 속성만 추출하도록 프롬프트를 구성하여, 모델이 임의로 속성을 추가하는 문제를 줄이도록 설계하였다.

◇ 정형 메타데이터 기반 후보 축소 기능 소매 길이, 기장, 성별, 계절감, 신축성, 두께감, 핏 등 값의 범위가 비교적 명확한 속성은 DB 필터링에 활용한다. 이를 통해 전체 상품 DB에서 사용자의 조건에 맞는 후보군을 먼저 줄이고, 이후 임베딩 검색 단계에서 더 정교한 랭킹을 수행한다.

◇ 목표 상품 설명문(Target Description) 기반 의미 검색 기능 사용자의 자연어 질의와 참조 이미지를 바탕으로 검색에 적합한 목표 상품 설명문(Target Description)을 생성하고, 이를 임베딩으로 변환하여 상품 이미지/속성 임베딩과 유사도를 비교한다. 이를 통해 단순 키워드 일치가 아닌 의미 기반 검색을 수행한다.

◇ Supabase pgvector 기반 벡터 검색 기능 상품 데이터는 Supabase에 저장하고, 검색 시 생성된 임베딩을 pgvector RPC에 전달하여 유사도 기반 검색을 수행한다. 구현 코드에서는 768차원 임베딩 검색을 위한 RPC 호출 구조와 테이블/카테고리 필터를 함께 처리하도록 설계하였다.

◇ 추천 결과 및 추천 이유 제공 기능 최종 검색 결과에는 상품명, 브랜드, 이미지, 카테고리, 가격, 색상, 소매, 기장, 계절감, 신축성, 두께감, 핏, 소재, 유사도 등을 포함하며, 사용자가 왜 해당 상품을 추천받았는지 이해할 수 있도록 한국어 추천 이유를 함께 제공한다

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

전 세계적인 기술현황

패션 이미지 검색 기술은 기존의 키워드 기반 검색에서 이미지 기반 검색, 멀티모달 임베딩 검색, 그리고 최근의 VLM 기반 사용자 의도 추론 검색으로 발전하고 있다. 본 과제는 이 흐름 중에서도 사용자의 자연어 질의와 선택적으로 입력되는 참조 이미지를 함께 분석하여, 검색 가능한 속성과 목표 상품 설명문(Target Description) 으로 변환한 뒤 실제 상품 데이터베이스 검색에 활용하는 데 초점을 둔다.

1세대: 키워드 및 태그 기반 패션 검색 기존 패션 커머스의 검색 방식은 상품명, 브랜드명, 카테고리, 색상, 성별, 계절감 등 판매자가 사전에 등록한 태그를 사용자의 검색어와 매칭하는 방식이 일반적이다. 이 방식은 구현이 단순하고 검색 속도가 빠르다는 장점이 있으나, 사용자가 원하는 스타일을 정확한 키워드로 표현하지 못하는 경우 검색 결과의 품질이 낮아진다. 예를 들어 “여름에 입기 좋은 얇고 루즈한 셔츠”와 같이 자연어로 표현된 의도는 단순 키워드 검색만으로는 충분히 처리하기 어렵다. 또한 “이 이미지와 비슷하지만 소매가 긴 옷”처럼 참조 이미지와 수정 요청이 결합된 질의는 기존 태그 기반 검색만으로는 반영하기 어렵다.

2세대: 이미지 기반 검색 및 딥러닝 임베딩 검색 이미지 기반 검색은 사용자가 업로드한 이미지와 시각적으로 유사한 상품을 찾는 방식이다. 초기에는 색상, 질감, 형태 등 수작업 시각 특징을 기반으로 유사도를 계산했으나, 딥러닝의 발전 이후에는 상품 이미지를 고차원 벡터로 변환하고 벡터 공간에서 유사도를 계산하는 방식이 주로 활용되고 있다. CLIP과 같은 멀티모달 임베딩 모델은 이미지와 텍스트를 동일한 임베딩 공간에 정렬함으로써, “검은색 셔츠”, “스트라이프 원피스”와 같은 텍스트 질의와 상품 이미지 간 의미적 유사도를 비교할 수 있게 해 주었다. 그러나 단순 임베딩 검색은 사용자의 복합적인 수정 의도나 상황 맥락을 구조적으로 반영하기 어렵다는 한계가 있다.

3세대: Composed Image Retrieval 및 Zero-Shot CIR Composed Image Retrieval(CIR)은 참조 이미지와 자연어 수정 요청을 함께 입력받아 사용자가 원하는 타겟 이미지를 검색하는 기술이다. 예를 들어 참조 이미지가 반팔 셔츠이고 사용자가 “이것과 비슷하지만 긴소매로 찾아줘”라고 입력하면, 시스템은 이미지의 기본 스타일을 유지하면서 자연어 수정 요청을 반영한 결과를 찾아야 한다. FashionIQ, CIRR 등은 이러한 참조 이미지-수정 텍스트-타겟 이미지 관계를 다루는 대표적인 벤치마크로 활용되어 왔다. 이후에는 별도의 도메인별 학습 데이터를 많이 요구하지 않고, 사전 학습된 멀티모달 모델을 활용하여 검색을 수행하는 Zero-Shot CIR 연구도 활발히 진행되고 있다. 다만 이러한 연구들은 주로 벤치마크 데이터셋에서 이미지와 수정 텍스트를 결합하는 검색 성능에 초점을 둔다. 본 과제는 이 개념을 실제 패션 상품 검색 환경에 적용하기 위해, 참조 이미지와 자연어 질의를 목표 상품 설명문(Target Description) 으로 변환하고, 이를 실제 상품 데이터베이스의 메타데이터 및 임베딩 검색과 결합하는 방향으로 설계하였다.

4세대: VLM 기반 사용자 의도 추론 검색 최근 VLM은 이미지를 단순히 임베딩으로 변환하는 것을 넘어, 이미지와 자연어 질의를 함께 입력받아 속성, 상황, 관계, 수정 의도를 해석할 수 있다. 본 과제는 이러한 VLM의 추론 능력을 활용하여 사용자의 패션 검색 의도를 구조화한다. 구체적으로 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등의 속성을 추출하고, 이를 검색 파이프라인의 후보 축소와 최종 랭킹에 활용한다. 실제 구현에서는 사용자가 명시적으로 언급한 속성만 추출하도록 프롬프트를 설계하여, VLM이 임의로 속성을 추가하는 문제를 줄이고자 하였다.

특허조사

◇ 1. 공개번호 10-2025-0045724 | 출원번호 10-2023-0128992 출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 26일

발명의 명칭: 입력 데이터에 기반하여 타겟 정보를 검색하는 방법

자연어 데이터를 GPT 계열 언어 모델에 입력하여 JSON/YAML 형태의 구조화된 출력을 획득하고, 이를 사전 설정된 속성 정보에 따라 두 가지 타입의 요소로 분류한다. 제1타입 요소는 이미지 내에 시각적으로 표시될 수 있는 속성, 예를 들어 색상, 아이템 종류, 프린트 등 시각 속성으로, CLIP·BLIP 등 멀티모달 모델을 통해 임베딩 벡터를 획득하여 벡터 유사도 검색의 인덱스로 활용한다. 제2타입 요소는 이미지에 표시되지 않는 메타 속성, 예를 들어 브랜드, 가격 등으로, DB 필터링 조건으로 활용한다. 명세서의 구체적 실시예로는 “10만원 이내로 파란색 레터링 들어간 커버낫 티셔츠 찾아줘”라는 자연어 입력에서 색상(blue)·아이템(t-shirt)·프린트(lettering)는 제1타입으로 임베딩하고, 브랜드(커버낫)·가격(0~100,000원)은 제2타입으로 DB 필터링에 배분하는 방식이 제시되어 있다. 본 과제와의 관계: 시각 속성은 임베딩 검색, 메타 속성은 DB 필터링으로 나누는 하이브리드 구조는 본 과제와 유사하다. 그러나 해당 특허의 주요 입력은 자연어 텍스트 단독이며, 참조 이미지와 자연어 수정 요청을 함께 입력받아 목표 상품 설명문(Target Description)을 생성하고, 이를 검색 파이프라인에 활용하는 구조는 본 과제와 차이가 있다.

◇ 2. 공개번호 10-2025-0046491 | 출원번호 10-2023-0129990 출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 27일

발명의 명칭: 특정 분야에 특화된 멀티모달 검색을 수행하기 위한 방법

입력 이미지와 그 이미지에 관련된 태그·속성·키워드·메타 정보를 획득한 뒤, 패션 분야 자연어 데이터로 파인튜닝된 언어 모델에 프롬프트로 입력하여 이미지에 대한 자연어 설명을 획득한다. 명세서의 실시예에서는 “네이비 니트 조끼와 베이지 면 스커트를 입은 여성” 이미지에 대해 “네이비 색상으로 차분한 느낌…대학생들의 새내기룩으로 많이 활용”과 같은 패션 특화 설명이 생성된다. 이렇게 생성된 이미지-설명 쌍을 학습 데이터로 삼아 CLIP·BLIP 계열 멀티모달 모델을 이미지 임베딩과 설명 텍스트 임베딩 간 코사인 유사도를 최대화하는 방향으로 학습시키고, 학습 완료된 모델로 멀티모달 검색을 수행하는 파이프라인이다. 본 과제와의 관계: 패션 도메인 특화 언어 모델을 활용하여 이미지 설명을 생성하는 아이디어는 방향이 유사하다. 그러나 해당 특허는 생성된 학습 데이터를 이용한 추가 파인튜닝이 핵심 구성 요건이다. 반면 본 과제는 별도의 패션 검색 모델을 새롭게 학습시키기보다, 사전 학습된 VLM과 임베딩 기반 검색 구조를 활용하여 사용자의 질의와 참조 이미지를 목표 상품 설명문으로 변환하고, 이를 실제 상품 DB 검색에 활용하는 구조이다.

◇ 특허 공백 분석 조사된 선행 특허들을 종합하면, 기존 특허들은 크게 1) 자연어 텍스트 기반 하이브리드 검색, 2) 파인튜닝 기반 도메인 특화 멀티모달 모델 구축 두 범주에 집중되어 있다. 본 과제는 이러한 흐름과 일부 유사한 요소를 가지지만, 참조 이미지와 자연어 수정 텍스트를 동시에 입력받아 VLM이 이미지와 질의를 함께 해석하고, 이를 목표 상품 설명문(Target Description) 및 정형 메타데이터로 변환한 뒤, DB 필터링과 벡터 검색을 함께 수행한다는 점에서 차별성이 있다. 따라서 본 과제는 기존의 단일 텍스트 입력 기반 검색이나 파인튜닝 중심의 멀티모달 검색과 달리, VLM 기반 의도 추론과 실제 상품 DB 검색을 결합한 하이브리드 패션 검색 파이프라인이라는 점에서 기술적 차별성을 가진다. 다만 신규성 및 진보성 여부는 최종 특허 출원 과정에서 청구항 단위의 법률 검토가 필요하다.

특허 전략 분석

1. 핵심 청구 범위 설정 가장 유사한 선행 특허인 10-2025-0045724(옴니어스)의 핵심은 자연어 입력을 언어 모델로 구조화한 뒤, 시각 속성은 임베딩 검색에 활용하고 메타 속성은 DB 필터링에 활용하는 구조이다. 본 과제 역시 시각 속성과 메타데이터를 구분하여 검색에 활용한다는 점에서 유사성이 있으나, 입력 방식과 검색 파이프라인 구성에서 차별성을 가진다. 본 과제는 텍스트 단독 질의뿐 아니라 참조 이미지가 포함된 멀티모달 입력을 처리한다. 사용자가 참조 이미지를 제공하고 자연어로 수정 요청을 입력하면, VLM은 이미지의 시각적 특징과 사용자의 자연어 의도를 함께 분석한다. 이후 분석 결과를 검색 가능한 정형 메타데이터와 목표 상품 설명문(Target Description) 으로 변환하고, 이를 각각 후보 축소와 벡터 검색에 활용한다. 따라서 본 과제의 핵심 청구 범위는 다음과 같이 설정할 수 있다.

◇ 자연어 질의와 참조 이미지를 함께 입력받는 멀티모달 패션 검색 입력 구조 ◇ VLM을 이용하여 사용자의 패션 검색 의도를 정형 메타데이터와 목표 상품 설명문으로 변환하는 구조 ◇ 소매, 기장, 성별, 계절감, 신축성, 두께감, 핏 등 정형 속성을 이용하여 상품 DB의 후보군을 축소하는 구조 ◇ 목표 상품 설명문을 임베딩으로 변환하고, 상품 이미지 또는 상품 속성 임베딩과 비교하여 최종 추천 결과를 도출하는 구조 ◇ 최종 추천 결과와 함께 사용자의 입력 조건 및 추론 결과를 바탕으로 자연어 추천 근거를 제공하는 구조

즉, 본 과제의 핵심은 단순히 자연어를 속성으로 분류하는 것이 아니라, 참조 이미지와 자연어 수정 요청을 함께 해석하고, 이를 검색용 중간 표현과 DB 검색 조건으로 나누어 활용하는 하이브리드 검색 파이프라인에 있다.

2. 회피 설계 10-2025-0045724는 자연어 텍스트 입력을 구조화하고, 구조화된 속성을 시각 속성과 메타 속성으로 분류하여 검색에 활용하는 방식에 초점이 있다. 따라서 본 과제는 단일 텍스트 입력 기반의 정적 속성 분류와 구별되도록, 참조 이미지와 자연어 수정 요청이 결합된 입력을 처리한다는 점을 명확히 하는 것이 중요하다. 특히 본 과제는 사용자의 입력을 곧바로 검색에 사용하는 것이 아니라, VLM이 참조 이미지와 자연어 질의를 함께 분석하여 목표 상품 설명문(Target Description) 을 생성한다. 이 목표 상품 설명문은 검색 모델이 이해하기 쉬운 문장형 중간 표현으로, 이후 임베딩 기반 벡터 검색에 활용된다. 실제 구현에서도 의도 추출, 후보 축소, 목표 상품 설명문 기반 최종 추천, 추천 이유 생성 단계로 파이프라인이 구성되어 있다. 또한 10-2025-0046491은 패션 도메인에 특화된 이미지 설명을 생성하고, 이를 학습 데이터로 활용하여 멀티모달 모델을 파인튜닝하는 방식이 핵심이다. 반면 본 과제는 별도의 패션 검색 모델을 새롭게 학습시키는 방식이 아니라, 사전 학습된 VLM과 임베딩 검색 구조를 활용하여 실제 상품 DB에 적용 가능한 프로토타입을 구현한다. 따라서 특허 명세서 작성 시에는 “파인튜닝 기반 모델 구축”이 아니라, 사전 학습 VLM 기반 의도 추론 및 하이브리드 검색 파이프라인이라는 점을 중심으로 차별화하는 것이 적절하다.

3. 권리화 방향 본 과제의 권리화 방향은 특정 모델명이나 특정 플랫폼에 한정하기보다, 사용자의 복합적인 패션 검색 의도를 처리하는 전체 파이프라인 구조에 초점을 두는 것이 바람직하다. 예를 들어 Gemini, Qwen, CLIP, Supabase 등 특정 구현 기술은 변경될 수 있으므로, 청구항에서는 특정 모델보다 입력 처리 방식, 의도 추론 방식, 후보 축소 방식, 벡터 검색 방식의 결합 구조를 중심으로 정의하는 것이 적절하다. 구체적으로는 다음 단계를 중심으로 권리화를 검토할 수 있다.

◇ 사용자의 자연어 질의와 참조 이미지를 입력받는 단계 ◇ VLM을 이용하여 사용자의 패션 검색 의도를 분석하는 단계 ◇ 분석 결과를 정형 메타데이터와 목표 상품 설명문으로 분리하는 단계 ◇ 정형 메타데이터를 이용하여 상품 DB의 후보군을 축소하는 단계 ◇ 목표 상품 설명문을 임베딩으로 변환하여 후보 상품 또는 전체 상품 DB와 유사도 비교를 수행하는 단계 ◇ 최종 추천 결과와 추천 이유를 사용자에게 제공하는 단계

이와 같이 권리화 범위를 설정하면 특정 모델이나 API에 종속되지 않으면서도, 본 과제의 핵심인 VLM 기반 의도 추론, 목표 상품 설명문 생성, 정형 메타데이터 후보 축소, 임베딩 기반 의미 검색의 결합 구조를 보호할 수 있다.

4. 기대 효과 및 방어 전략 본 특허전략을 통해 기존의 키워드 기반 패션 검색, 단순 이미지 유사도 검색, 텍스트 단독 하이브리드 검색과 차별화된 권리 범위를 확보할 수 있다. 특히 사용자의 입력을 단순 검색어로 처리하지 않고, VLM을 통해 검색 가능한 중간 표현으로 변환한 뒤 실제 상품 DB 검색에 연결한다는 점은 본 과제의 중요한 기술적 특징이다. 또한 향후 시스템이 고도화되어 다른 VLM, 다른 벡터 DB, 다른 패션 플랫폼에 적용되더라도, 핵심 파이프라인 구조가 유지된다면 동일한 권리 범위 안에서 보호될 수 있도록 청구항을 설계하는 것이 필요하다. 다만 최종 특허 출원 단계에서는 선행 특허와의 세부 청구항 비교 및 법률 검토를 통해 신규성, 진보성, 회피 가능성을 추가로 확인해야 한다.

기술 로드맵

시기	단계	주요 기술 트렌드
~20tl20	키워드·태그 기반 검색	상품명, 브랜드, 카테고리, 색상 등 정적 메타데이터 기반 검색이 중심. 빠르고 단순하지만 사용자의 추상적 의도나 복합 조건을 반영하기 어려움
2020 ~2022	이미지 임베딩 기반 검색	CNN, CLIP 등 딥러닝 기반 임베딩을 활용하여 이미지와 텍스트를 벡터 공간에서 비교. 시각적 유사도와 의미 기반 검색이 가능해짐
2021 ~2024	CIR 및 ZS-CIR 확장	참조 이미지와 자연어 수정 요청을 결합하는 Composed Image Retrieval 연구가 확산. FashionIQ, CIRR 등 벤치마크를 중심으로 이미지-텍스트 결합 검색 성능 개선이 이루어짐
2024 ~2026	VLM 기반 의도 추론 검색	LLaVA, Qwen-VL, Gemini 등 VLM을 활용하여 사용자의 자연어 질의와 이미지를 함께 해석하는 방식이 확산. 단순 유사도 검색에서 벗어나 “의도 이해 후 검색” 구조로 발전
향후	실서비스형 AI 쇼퍼	검색 결과뿐 아니라 추천 이유, 상황별 스타일링, 개인 취향 반영까지 포함하는 AI 퍼스널 쇼퍼 형태로 발전 가능. 단, 실서비스 적용을 위해서는 추론 비용, 응답 속도, 데이터 품질 관리가 핵심 과제로 남음

시장상황에 대한 분석

경쟁제품 조사 비교

내용

마케팅 전략 제시

내용

개발과제의 기대효과

기술적 기대효과

내용

경제적, 사회적 기대 및 파급효과

내용

기술개발 일정 및 추진체계

개발 일정

내용

구성원 및 추진체계

내용

설계

설계사양

제품의 요구사항

내용

설계 사양

내용

개념설계안

내용

이론적 계산 및 시뮬레이션

내용

상세설계 내용

내용

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

내용

포스터

내용

완료작품의 평가

내용

향후계획

내용

특허 출원 내용

내용

@@ 86번째 줄: / 86번째 줄: @@
 구체적으로 사용자의 질의에서 의류 카테고리, 성별, 계절감, 소매 길이, 기장, 신축성, 두께감, 핏, 색상, 소재 등의 속성을 추출하고, 이를 검색 파이프라인의 후보 축소와 최종 랭킹에 활용한다. 실제 구현에서는 사용자가 명시적으로 언급한 속성만 추출하도록 프롬프트를 설계하여, VLM이 임의로 속성을 추가하는 문제를 줄이고자 하였다.
-*특허조사 및 특허 전략 분석
+*특허조사
 ◇ 1. 공개번호 10-2025-0045724 | 출원번호 10-2023-0128992
 출원인: 옴니어스 주식회사 | 출원일: 2023년 9월 26일
@@ 109번째 줄: / 109번째 줄: @@
 본 과제는 이러한 흐름과 일부 유사한 요소를 가지지만, 참조 이미지와 자연어 수정 텍스트를 동시에 입력받아 VLM이 이미지와 질의를 함께 해석하고, 이를 목표 상품 설명문(Target Description) 및 정형 메타데이터로 변환한 뒤, DB 필터링과 벡터 검색을 함께 수행한다는 점에서 차별성이 있다.
 따라서 본 과제는 기존의 단일 텍스트 입력 기반 검색이나 파인튜닝 중심의 멀티모달 검색과 달리, VLM 기반 의도 추론과 실제 상품 DB 검색을 결합한 하이브리드 패션 검색 파이프라인이라는 점에서 기술적 차별성을 가진다. 다만 신규성 및 진보성 여부는 최종 특허 출원 과정에서 청구항 단위의 법률 검토가 필요하다.
+*특허 전략 분석
+. 핵심 청구 범위 설정
+가장 유사한 선행 특허인 10-2025-0045724(옴니어스)의 핵심은 자연어 입력을 언어 모델로 구조화한 뒤, 시각 속성은 임베딩 검색에 활용하고 메타 속성은 DB 필터링에 활용하는 구조이다. 본 과제 역시 시각 속성과 메타데이터를 구분하여 검색에 활용한다는 점에서 유사성이 있으나, 입력 방식과 검색 파이프라인 구성에서 차별성을 가진다.
+본 과제는 텍스트 단독 질의뿐 아니라 참조 이미지가 포함된 멀티모달 입력을 처리한다. 사용자가 참조 이미지를 제공하고 자연어로 수정 요청을 입력하면, VLM은 이미지의 시각적 특징과 사용자의 자연어 의도를 함께 분석한다. 이후 분석 결과를 검색 가능한 정형 메타데이터와 목표 상품 설명문(Target Description) 으로 변환하고, 이를 각각 후보 축소와 벡터 검색에 활용한다. 따라서 본 과제의 핵심 청구 범위는 다음과 같이 설정할 수 있다.
+◇ 자연어 질의와 참조 이미지를 함께 입력받는 멀티모달 패션 검색 입력 구조
+◇ VLM을 이용하여 사용자의 패션 검색 의도를 정형 메타데이터와 목표 상품 설명문으로 변환하는 구조
+◇ 소매, 기장, 성별, 계절감, 신축성, 두께감, 핏 등 정형 속성을 이용하여 상품 DB의 후보군을 축소하는 구조
+◇ 목표 상품 설명문을 임베딩으로 변환하고, 상품 이미지 또는 상품 속성 임베딩과 비교하여 최종 추천 결과를 도출하는 구조
+◇ 최종 추천 결과와 함께 사용자의 입력 조건 및 추론 결과를 바탕으로 자연어 추천 근거를 제공하는 구조
+즉, 본 과제의 핵심은 단순히 자연어를 속성으로 분류하는 것이 아니라, 참조 이미지와 자연어 수정 요청을 함께 해석하고, 이를 검색용 중간 표현과 DB 검색 조건으로 나누어 활용하는 하이브리드 검색 파이프라인에 있다.
+. 회피 설계
+-2025-0045724는 자연어 텍스트 입력을 구조화하고, 구조화된 속성을 시각 속성과 메타 속성으로 분류하여 검색에 활용하는 방식에 초점이 있다. 따라서 본 과제는 단일 텍스트 입력 기반의 정적 속성 분류와 구별되도록, 참조 이미지와 자연어 수정 요청이 결합된 입력을 처리한다는 점을 명확히 하는 것이 중요하다.
+특히 본 과제는 사용자의 입력을 곧바로 검색에 사용하는 것이 아니라, VLM이 참조 이미지와 자연어 질의를 함께 분석하여 목표 상품 설명문(Target Description) 을 생성한다. 이 목표 상품 설명문은 검색 모델이 이해하기 쉬운 문장형 중간 표현으로, 이후 임베딩 기반 벡터 검색에 활용된다. 실제 구현에서도 의도 추출, 후보 축소, 목표 상품 설명문 기반 최종 추천, 추천 이유 생성 단계로 파이프라인이 구성되어 있다.
+또한 10-2025-0046491은 패션 도메인에 특화된 이미지 설명을 생성하고, 이를 학습 데이터로 활용하여 멀티모달 모델을 파인튜닝하는 방식이 핵심이다. 반면 본 과제는 별도의 패션 검색 모델을 새롭게 학습시키는 방식이 아니라, 사전 학습된 VLM과 임베딩 검색 구조를 활용하여 실제 상품 DB에 적용 가능한 프로토타입을 구현한다. 따라서 특허 명세서 작성 시에는 “파인튜닝 기반 모델 구축”이 아니라, 사전 학습 VLM 기반 의도 추론 및 하이브리드 검색 파이프라인이라는 점을 중심으로 차별화하는 것이 적절하다.
+. 권리화 방향
+본 과제의 권리화 방향은 특정 모델명이나 특정 플랫폼에 한정하기보다, 사용자의 복합적인 패션 검색 의도를 처리하는 전체 파이프라인 구조에 초점을 두는 것이 바람직하다. 예를 들어 Gemini, Qwen, CLIP, Supabase 등 특정 구현 기술은 변경될 수 있으므로, 청구항에서는 특정 모델보다 입력 처리 방식, 의도 추론 방식, 후보 축소 방식, 벡터 검색 방식의 결합 구조를 중심으로 정의하는 것이 적절하다.
+구체적으로는 다음 단계를 중심으로 권리화를 검토할 수 있다.
+◇ 사용자의 자연어 질의와 참조 이미지를 입력받는 단계
+◇ VLM을 이용하여 사용자의 패션 검색 의도를 분석하는 단계
+◇ 분석 결과를 정형 메타데이터와 목표 상품 설명문으로 분리하는 단계
+◇ 정형 메타데이터를 이용하여 상품 DB의 후보군을 축소하는 단계
+◇ 목표 상품 설명문을 임베딩으로 변환하여 후보 상품 또는 전체 상품 DB와 유사도 비교를 수행하는 단계
+◇ 최종 추천 결과와 추천 이유를 사용자에게 제공하는 단계
+이와 같이 권리화 범위를 설정하면 특정 모델이나 API에 종속되지 않으면서도, 본 과제의 핵심인 VLM 기반 의도 추론, 목표 상품 설명문 생성, 정형 메타데이터 후보 축소, 임베딩 기반 의미 검색의 결합 구조를 보호할 수 있다.
+. 기대 효과 및 방어 전략
+본 특허전략을 통해 기존의 키워드 기반 패션 검색, 단순 이미지 유사도 검색, 텍스트 단독 하이브리드 검색과 차별화된 권리 범위를 확보할 수 있다. 특히 사용자의 입력을 단순 검색어로 처리하지 않고, VLM을 통해 검색 가능한 중간 표현으로 변환한 뒤 실제 상품 DB 검색에 연결한다는 점은 본 과제의 중요한 기술적 특징이다.
+또한 향후 시스템이 고도화되어 다른 VLM, 다른 벡터 DB, 다른 패션 플랫폼에 적용되더라도, 핵심 파이프라인 구조가 유지된다면 동일한 권리 범위 안에서 보호될 수 있도록 청구항을 설계하는 것이 필요하다. 다만 최종 특허 출원 단계에서는 선행 특허와의 세부 청구항 비교 및 법률 검토를 통해 신규성, 진보성, 회피 가능성을 추가로 확인해야 한다.
 *기술 로드맵