1분반-심포니

cdc wiki
Com238 (토론 | 기여)님의 2025년 12월 18일 (목) 21:55 판 (b) 마케팅 방식)
이동: 둘러보기, 검색

목차

프로젝트 개요

기술개발 과제

국문 : AI 코딩 도구를 위한 MCP 기반의 협업 스키마 개발 및 적용 프레임워크 구축

영문 : Framework for Developing and Applying MCP-based Collaborative Schema for AI Coding Tools

과제 팀명

Symphony 팀

지도교수

이경재 교수님

개발기간

2025년 9월 ~ 2025년 12월 (총 4개월)

구성원 소개

서울시립대학교 컴퓨터과학부 20209200** 박*환

서울시립대학교 컴퓨터과학부 20209200** 박*익

서울시립대학교 컴퓨터과학부 20209200** 배*찬

서울시립대학교 컴퓨터과학부 20209200** 이*관


서론

개발 과제의 개요

개발 과제 요약

◇ 과제명: AI 코딩 도구를 위한 MCP 스키마 개발 및 적용 프레임워크 구축

◇ 핵심 개념: 기존의 정적이고 단편적인 코드 스타일 컨벤션을 넘어, 사용자 역할(RBAC)과 파일의 보안 등급이라는 두 가지 핵심 축을 포함하는 '동적 컨벤션'을 정의한다. 이는 최신 '컨텍스트 엔지니어링 2.0(Context Engineering 2.0)' 논문 연구에 기반하여, 인간의 불명확한 의도(고엔트로피)를 AI가 정확히 실행 가능한 형태(저엔트로피)로 변환하는 체계적인 '엔트로피 감소(Entropy Reduction)' 기술을 구현하는 것이다. 이를 모든 LLM 코딩 툴이 이해하고 적용할 수 있도록 이기종 시스템 간 컨텍스트 공유의 표준인 MCP(Model Context Protocol) 형태로 개발된다. 뿐만 아니라, 이후 컨벤션을 지켰는지에 대한 검수 과정도 자동으로 진행하여 코드 퀄리티를 유지할 수 있다.

◇ 개발 목표: MCP 표준을 통해 개발자 및 비개발자가 자연어 기반의 직관적인 인터페이스로 안전하게 코드 수정에 참여하고, 모든 LLM 코딩 도구가 조직의 고유한 협업 규칙과 보안 정책을 100% 준수하는 코드를 생성하도록 유도한다. 단순한 자동화를 넘어, AI 에이전트가 조직의 맥락을 완벽히 이해하고 협업하는 '컨텍스트 협력(Context-Cooperative)' 시스템을 지향한다. 개발자는 반복적인 검토 및 통합 과정을 자동화하여 생산성을 극대화하며, 직군 간의 사일로를 허물고 공동의 목표를 향해 시너지를 창출하는 차세대 지능형 개발 협업 생태계를 구축하는 것을 목표로 한다.

◇ 기대 효과: GitHub Copilot, Claude Code 등 기존 LLM 코딩 도구를 사용하는 개발 팀이 MCP를 손쉽게 도입하여, 최근 바이브 코딩의 가장 큰 화두인 코드 퀄리티 문제를 해소하고 제품의 시장 출시 기간을 획기적으로 단축시킨다. 특히 AI 에이전트 시대(Era 2.0)에 필수적인 '컨텍스트 격리(Context Isolation)'와 '최소 충분 원칙(Minimal Sufficiency Principle)'을 적용함으로써, AI 도입의 가장 큰 장벽인 보안 우려와 할루시네이션 문제를 기술적으로 해결한다.

개발 과제의 배경 및 효과

◇ 배경

● (만성적인 협업의 비효율성 및 높은 상호작용 비용) 현대 제품 개발은 여러 직군의 협업이 필수적이지만, 현실은 이상과 다르다. 기획자의 워딩 수정, 디자이너의 UI 픽셀 조정 등 간단한 요청조차도 복잡하고 긴 파이프라인(Jira → Slack → 개발 → 배포)을 거치고 있다. 앞의 논문에서 지적하듯, 인간과 기계(시스템) 사이의 '인지적 격차(Cognitive Gap)'로 인해 발생하는 높은 '인간-AI 상호작용 비용'은 조직의 민첩성을 저해하는 가장 큰 요인이다. 이러한 커뮤니케이션 오류와 시간 지연은 단순한 비효율을 넘어 시장 경쟁력을 약화시키고 있다.

● (지능화된 도구의 한계: 맥락 부재와 컨텍스트 오염) GitHub Copilot과 같은 LLM 코딩 도구는 개발 생산성을 향상시켰지만, 근본적으로 '조직의 맥락'을 이해하지 못한다. 범용 데이터로 학습된 모델은 조직 고유의 보안 정책이나 협업 규칙과 같은 '외부 맥락'이 결여되어 있어, 엉뚱하거나 위험한 코드를 생성하는 '컨텍스트 오염'이나 '할루시네이션'을 유발하게 된다. 예를 들어 "결제 코드는 시니어만 수정 가능"과 같은 규칙은 LLM이 알 수 없기 때문에 비개발자의 직접 기여는 예측 불가능한 사이드 이펙트의 위험성 때문에 불가능한 영역으로 남아있다.


◇ 도입 효과

● (개발자 경험의 질적 향상: 사후 대응에서 사전 설계로) 개발자는 더 이상 LLM의 저품질 코드에 대한 반복적인 수정 업무에 시간을 낭비하지 않게 된다. 시스템이 사전에 정의된 컨텍스트 내에서 작동하므로, 에러를 사후에 수정하는 것이 아니라 개발의 첫 단계부터 품질을 관리하는 'Self-Baking(자가 지식화)' 프로세스가 가능해진다. 이를 통해 개발자는 아키텍처 설계 등 고부가가치 핵심 업무에 집중하여 직무 만족도를 높일 수 있다.

● (개발 속도의 혁신적 극대화) 비개발자가 안전이 보장된 범위 내에서 직접 코드 수정에 참여함으로써, 단순 요청 처리 시간을 '수일'에서 '수분' 단위로 압축한다. 이는 논문에서 제시하는 '에이전트 중심 지능(Agent-Centric Intelligence)' 단계의 협업 모델로, 인간의 의도가 즉각적으로 제품에 반영되는 초고속 애자일 스프린트를 가능하게 한다.

● (견고한 코드 품질 및 내장형 보안: 컨텍스트 격리 기술 적용) AI는 MCP에 명시된 동적 컨벤션(코드 스타일, 보안 등급, 접근 제어)을 통해서만 코드를 생성한다. 이는 컨텍스트 엔지니어링의 핵심인 '기능적 컨텍스트 격리(Functional Context Isolation)'를 구현한 것으로, AI가 접근해서는 안 되는 정보나 권한을 원천적으로 차단한다. 이를 통해 인적 실수 및 보안 취약점을 예방하고, 모든 코드 기여가 조직의 표준을 준수하도록 강제한다.

● (쉬운 도입 및 표준화 선점) 몇 단계의 설정만으로 기존 시스템에 통합되어 즉시 사용할 수 있다. 특히 파편화된 AI 도구들을 MCP라는 표준 프로토콜로 연결하는 'Cross-System Context Sharing' 전략은 향후 폭발적으로 증가할 다양한 AI 에이전트들을 단일한 거버넌스 하에 통합 관리할 수 있는 기반이 된다. 이는 단순한 도구 도입을 넘어, 미래형 AI 협업 인프라를 선제적으로 구축하는 효과를 가지게 된다.

개발 과제의 목표 및 내용

◇ 최종 목표: 모든 LLM 코딩 도구에 플러그인 형태로 쉽게 통합 가능한 동적 컨벤션 MCP의 공개 표준을 정의하고, 이를 실제로 적용 및 검증하는 프레임워크를 개발.

◇ 개발 내용

(결과물 1) MCP 컨벤션 서버

● 모든 LLM과 개발 도구가 동적 컨벤션을 일관되게 이해하고 활용할 수 있도록 하는 '범용 컨벤션 양식'를 정의했다.
● (형식)범용성과 가독성을 고려하여 JSON 형식의 표준화된 스키마를 설계한다. 이 파일은 프로젝트의 루트 디렉토리에 .mcp.json 형태로 위치하거나 저희가 제공하는 서버에 저장된다.

- 컨벤션 상세 내용

● 정적 규칙

● ESLint, Prettier 등 기존 린터 및 포맷터 설정 파일(.eslintrc.json, .prettierrc)의 경로를 지정하거나, 핵심 규칙(들여쓰기, 따옴표 종류 등)을 직접 내장하여 일관성을 강제한다.
● 네이밍 컨벤션(component-pascal-case, function-camel-case), 주석 스타일(JSDoc 강제) 등 검증이 가능한 모든 규칙을 포함한다.

● 동적 규칙

● (파일 보안 등급) Glob 패턴을 사용하여 파일 및 디렉토리 경로별로 보안 등급(PUBLIC, INTERNAL, SECRET)을 상세하게 정의했다. 
(예: "src/assets//*": "PUBLIC", "src/components//.css": "PUBLIC", "src/hooks/.js": "INTERNAL", "src/core/payment/**/*.js": "SECRET")
● (역할 기반 접근 제어) 마케터, 기획자, 주니어/시니어 개발자 등 조직의 역할을 정의하고, 각 역할이 파일 보안 등급별로 어떤 권한(read, propose, edit)을 갖는지 명시적인 매트릭스 형태로 명시한다. 이 매트릭스는 누가 어떤 유형의 파일에 대해 아이디어를 제안만 할 수 있는지, 혹은 직접 수정까지 할 수 있는지를 명확히 규정하는 시스템의 핵심이다.


(결과물 2) 동적 컨벤션 검증을 위한 도구를 실제 개발 현장에서 즉시 활용할 수 있도록, 기존 CI/CD 파이프라인에 완벽하게 통합되는 경량화해 제공한다.

● 방식: Plug-and-Play 방식

● 별도의 서버나 복잡한 설정 없이, GitHub 저장소의 .github/workflows 디렉토리 내 워크플로우 파일에 단 몇 줄의 YAML 코드를 추가하는 것만으로 즉시 사용 가능하도록 설계했다.

● 핵심 작동 워크플로우

● (트리거) 개발자 또는 비개발자가 Pull Request(PR)를 생성하거나 업데이트할 때 자동으로 실행된다.
● (컨벤션 로딩) Action이 실행되면, .mcp.json 파일을 찾아와 동적 컨벤션 규칙을 메모리에 로드한다.
● (변경사항 분석) git diff를 통해 해당 PR에서 변경된 파일들의 목록과 내용을 분석합니다.
● (권한 검증) PR 작성자의 GitHub 팀 역할을 기준으로 MCP의 rbac 규칙과 변경된 파일의 security_levels를 대조하여 수정 권한이 있는지 확인한다.
● (정적 규칙 검증) MCP의 static_rules에 따라 린팅 및 포매팅 검사를 수행한다.
● 실시간 피드백 제공
   성공 시: "MCP Convention Check Passed"와 같은 명확한 상태 메시지를 남기고, PR이 병합될 수 있도록 체크를 통과시킨다.
   실패 시: PR 병합을 자동으로 차단하고, 실패 원인을 명확하게 설명하는 코멘트를 PR에 직접 남깁니다. 예를 들어, 권한이 없는 파일을 수정했을 경우, 해당 파일의 해당 라인에 “@작성자,                         
          '마케터' 역할은 INTERNAL 등급의 이 파일을 수정할 수 없다. 개발팀의 검토를 요청해주세요.“ 와 같이 구체적이고 실행 가능한 피드백을 제공하여 개발자의 리뷰 없이도 문제를 즉시 인지하고 
          해결할 수 있도록 돕는다.

개발과제1.png

관련 기술의 현황

관련 기술의 현황 및 분석(State of art)

  • 전 세계적인 기술현황

◇ MCP 동향 ● Microsoft는 Build 2025에서 Windows 11 핵심 레이어에 MCP 적용을 발표, Copilot Studio, Azure AI Foundry에도 통합한다. GitHub, Windows, Copilot을 아우르는 표준으로 확산 중이다. • MCP는 JSON-RPC over HTTP 기반, 단순 구조와 스트리밍을 지원한다. 이에 이식성 높고 개발 도구에 쉽게 적용 가능하다. • LLM, 에이전트, 외부 시스템을 연결하는 표준 인터페이스이다.

◇ 협업 트렌드 • 협업 과정은 티켓→리뷰→배포 등 작은 수정도 복잡한 파이프라인으로 비효율적으로 동작한다. • Notion, Slack 같은 통합 도구는 확산 중이나, 실제 코드 변경은 여전히 개발자가 담당하고 있다. • 글로벌 환경에서 비동기 협업(PR 리뷰, 자동 코멘트 등)이 늘지만, 규칙 검증은 사람의 부담이 존재한다.

◇ AI 코딩 보조 기술 ● 지난 2~3년간 AI 코드 어시스턴트(자동완성, 코드 생성, 리뷰 등) 채택이 급증하고 있으며, 절반 이상 조직에서 활용중이다. (Google & IDC 보고서 인용) ● 그러나 개발자들은 AI 솔루션이 거의 맞지만, 완전히는 아니라는 점이 가장 큰 걸림돌임을 보고하고 있다. 또한 AI 생성 코드의 디버깅에 많은 시간이 소요됨을 이야기한다. (Ars Technica 보고서 인용) ● 도구들이 단순한 코드 생성 보조를 넘어 조직의 SDLC(소프트웨어 개발 생명주기)에 통합됨에 따라, 누가 어떤 파일을 어떻게 수정할 수 있는지, 보안 등급, 내부 규정 준수, 변경 이력 등을 보장하는 메커니즘이 요구되는 상황이다.

◇ 과제 연결점 • MCP 인터페이스를 지원함으로써 여러 LLM, 에이전트가 우리의 도구를 인식할 수 있다. LLM, 에이전트가 도구를 직접 활용하기에, 사용자는 별다른 사용법을 이해하지 않고도 우리의 도구를 사용할 수 있다. 이를 통해 도구 도입 진입장벽을 매우 낮출 수 있다. • 컨벤션을 지속적으로 적용하고 검증하므로, 비개발자도 안전 범위 내 참여 가능하므로 협업 효율과 품질을 동시에 개선할 수 있다.

  • 특허조사 및 특허 전략 분석

c) 특허조사

◇ 특허 1: 소스코드 해설을 포함한 질의응답 서비스 제공 장치 및 방법 • 공개번호: 10-2023-0045150 • 출원인: 주식회사 랭코드 • 주요 내용: 사용자가 소스코드를 포함한 질문을 입력하면, 서버가 자체 소스코드 DB를 기반으로 해당 코드의 의미를 분석하여 자연어로 된 '해설'을 생성하고 답변해주는 챗봇 기술이다. 즉, 작성된 코드의 의미를 이해하고 설명하는 데 중점을 둔다.

◇ 특허 2: 프로그램 소스코드의 AI학습을 통한 프로그램 자동 코딩 가이드 시스템 • 공개번호: 10-2024-0130648 • 출원인: 주식회사 가치플레이 • 주요 내용: 품질이 검증된 소스코드들을 코드 DB에 등록하고, 사용자의 요구사항에 맞춰 AI가 코드 DB에서 적합한 코드를 가져오거나 새로 생성하여 프로그램을 자동으로 완성하는 시스템이다. 코드의 재사용과 자동 생성을 통한 생산성 향상에 초점을 맞춘다.

◇ 특허 3: 코드 리뷰 서비스 제공 방법 및 장치 • 공개번호: 10-2025-0109946 • 출원인: 숭실대학교산학협력단 • 주요 내용: 개발자가 외부 저장소(GitHub 등)와 연동하여 코드를 공유하면, 다른 개발자들이 코드 라인별로 리뷰를 작성할 수 있는 플랫폼이다. AI를 활용해 리뷰 내용에 대한 태그를 자동으로 생성하는 등 커뮤니티 기반의 코드 검토 과정을 효율화하는 데 중점을 둔다.

라. 특허전략

◇ 차별점 1: '선제적 거버넌스' vs '사후 대응/보조' • 기존 특허들은 코드 해설·생성·리뷰 등 사후적, 보조적 기능에 그쳤지만, 본 과제의 MCP는 코드 생성, 수정 시점에 규칙을 강제하여 위반을 사전에 차단하는 거버넌스를 제공한다는 점에서 차별화한다.

◇ 차별점 2: '동적/상황인지 규칙' vs '정적/일반 규칙' • 기존 기술이 스타일, 문법 등의 정적 규칙에 머무는 반면, 본 과제는 역할(RBAC)에 따라 규칙이 달라지는 컨벤션을 도입해 조직의 정책과 협업 맥락까지 반영하는 진보된 기술이다.

◇ 차별점 3: '범용 표준 프레임워크' vs '독자적 플랫폼' • 분석된 특허들이 개별 플랫폼에 종속된 반면, 본 과제는 모든 LLM 코딩 도구에 플러그인 형태로 연동 가능한 공개 표준(MCP)과 프레임워크를 개발하여, 높은 호환성과 확장성을 확보하고 차세대 협업 생태계 경쟁력을 강화한다.

  • 기술 로드맵

◇ 단기 (2025~2026) – 표준 정립 및 초기 구현 • 스키마 정의: JSON 기반 동적 컨벤션 스키마 설계 • MCP 서버 제공: 컨벤션 관리 및 검증에 대한 도구 제공 • 제한적인 Linter 통합, RBAC 접근 제어 구현, LLM validation 구현

◇ 중기 (2026~2027) – 생태계 확장 • IDE/개발도구 통합: VS Code, JetBrains, Cursor, GitHub Copilot 플러그인 제공 • 더 많은 Linter 도구 통합 • 더 많은 LLM Provider 통합 • ML 기반 분석: 반복 위반 패턴 학습 후 지표화하여 LLM Provider의 성능지표 추출

◇ 장기 (2027~2028) – 지능형 협업 플랫폼 • 성능지표에 따른 적절한 LLM Provider 동적 선택 • AI 보조 협업: 자동 코드 리뷰 코멘트 제공 • 산업별 템플릿: 금융, 의료, 공공 등 규제 준수형 규칙 세트 배포 • 확장 거버넌스: LDAP/SAML 연동, 멀티팀 환경 RBAC 강화

시장상황에 대한 분석

a) 경쟁제품 조사 비교

Sourcegraph Cody
개요 — Sourcegraph의 코드 그래프(인덱싱/검색) 기반 AI 코딩 어시스턴트로, 대규모·복잡한 코드베이스에 적합하다. 저장소 전체 맥락을 참조하여 코드 작성(write), 수정(fix), 리팩터(refactor) 등 개발 작업에 대한 제안을 제공한다.
한계 — 조직 단위의 코드 표준, 보안 정책, 권한 정책을 “정책으로 정의하고 자동 집행(enforcement)하는 기능”은 상대적으로 약하며, 규칙 위반을 PR 단계에서 차단하는 형태의 거버넌스까지 직접 제공하지는 않는다.
Codespell
개요 — 코드 생성 시점에 규칙 기반 엔진으로 컨벤션을 주입하여 팀 산출물의 일관성과 품질을 높이는 도구다. 사후 검증 중심의 기존 린터와 달리, 생성 단계에서 규칙을 반영하도록 유도하는 방식에 강점이 있다.
한계 — RBAC(역할 기반 접근제어)를 지원하지 않아 역할/직군별로 “허용 가능한 변경 범위”를 세밀하게 통제하기 어렵다. 또한 적용 가능한 컨벤션 범위가 주로 스타일·구조적 규칙에 집중되어 있으며, 보안·권한과 같은 정책은 별도 도구 또는 추가 체계에 의존하는 경향이 있다.

SWOT 분석

Strengths (강점)
* 표준화된 MCP 패키지 기반 호환성 — Copilot, Claude Code 등 주요 LLM 코딩 툴에서 동일한 규칙/컨텍스트를 재사용할 수 있어, 도구별 파편화로 인한 운영 부담을 줄이고 적용 범위를 빠르게 확장할 수 있다.
* RBAC 기반 거버넌스 — 단순 텍스트 규칙을 넘어 사용자 역할과 보안 레벨에 따라 허용 가능한 행동을 제어함으로써, 안전한 협업과 규정 준수를 구조적으로 지원한다.
* 비개발자 참여 가능성 — 자연어 기반 정책 정의를 통해 기획/PM/보안 등 비개발 직군도 정책 수립 과정에 참여할 수 있어, 조직 전체의 협업 효율과 의사소통 정합성을 높일 수 있다.
* 오픈소스 생태계 확장성 — 언어/프레임워크별 Context Preset을 커뮤니티가 기여·검증·확장하는 구조를 통해, 규칙 세트의 다양성과 적용성을 빠르게 강화할 수 있다.
Weaknesses (약점)
* 초기 도메인 데이터/프리셋 부족 — 금융·의료 등 규제 산업의 도메인 특화 컨벤션은 초기에는 축적된 프리셋과 검증 사례가 부족하여 추천 및 적용 품질이 제한될 수 있다.
* 차별성 설득 필요 — 기존 Static Lint/Formatter 대비 “정책(권한·보안)까지 포함한 통합 거버넌스”와 “생성 단계 컨텍스트 제어”의 차별점을 사용자에게 명확히 설명해야 한다.
* 효과 지표화의 난이도 — 도구 효과를 정량적으로 입증하기 위해서는 PR 재작업 감소, 위반 탐지·차단율, 리뷰 시간 절감 등 설득력 있는 KPI 설계가 필요하나, 초기에는 측정 체계가 미성숙할 수 있다.
Opportunities (기회)
* AI 코딩 툴 시장의 급성장 — 대규모 사용자 기반이 형성된 AI 코딩 툴 생태계에서 ‘컨벤션/정책 관리’가 필수 레이어로 부상할 가능성이 있으며, 표준 포지션을 선점할 기회가 있다.
* 교육·온보딩 시장 확장 — 신규 입사자/학생 대상의 코딩 표준 및 조직 규칙 학습을 자동화하여, 온보딩 비용을 낮추는 교육용 도구로 확장 가능하다.
* Context Engineering 2.0 수요 증가 — 프롬프트 작성 중심에서 “참조해야 할 컨텍스트를 구조적으로 정의·최적화”하는 흐름이 강화되면서, 본 프레임워크의 필요성과 가치가 더욱 부각될 수 있다.
Threats (위협)
* 빅테크/IDE 벤더의 내재화 위험 — Microsoft, JetBrains 등 주요 플랫폼 사업자가 IDE/플랫폼 기능으로 팀 컨벤션 동기화 및 정책 관리 기능을 흡수할 가능성이 있다.
* 경량 오픈소스 대체재 확산 — 단순 설정 파일 공유나 간단한 룰 엔진 기반의 무료 오픈소스가 ‘최소 기능’ 니즈를 충족하며 대체재로 작동할 수 있다.
* 엔터프라이즈 보안·컴플라이언스 장벽 — 금융권/대기업 도입 시 오픈소스 라이선스, 내부 코드/데이터 유출 우려, 외부 LLM 사용 제한 등으로 도입이 지연될 수 있다.
* 모델 성능 발전에 따른 가치 희석 가능성 — 컨텍스트 윈도우 확대 및 추론 능력 향상으로 “별도의 컨텍스트 최적화 없이도” 의도를 잘 파악하는 환경이 조기에 도래할 경우, 최적화 계층의 체감 가치가 낮아질 가능성이 있다.

개발과제의 기대효과

d) 기술적 기대효과

개발 효율성 증대
본 프레임워크는 컨벤션을 자연어로 정의하고 이를 자동으로 적용·검증함으로써, 개발 과정에서 반복적으로 발생하던 검토, 수정, 재작업 비용을 크게 감소시킨다.
개발자는 코드 작성 이후 린트 에러나 조직 규칙 위반을 사후적으로 수정하지 않아도 되며, AI 코딩 도구가 사전에 컨벤션을 인지한 상태에서 코드를 생성하도록 유도된다.
특히 기존 린터와의 통합을 통해 정적 규칙에 대한 검증은 빠르고 결정적으로 처리되고, LLM은 의미적 판단이 필요한 영역에만 제한적으로 사용됨으로써 실시간 개발 환경에서도 충분한 성능을 확보할 수 있다.
그 결과 개발자는 반복적인 품질 관리 작업에서 벗어나 아키텍처 설계, 핵심 로직 구현 등 고부가가치 업무에 집중할 수 있으며, 전체 개발 사이클의 속도와 안정성이 동시에 향상된다.
표준화 촉진
MCP 기반으로 이기종 시스템 간 컨텍스트 공유를 통한 일관성 확보가 가능하다.
프로젝트 내 일관된 코드 스타일 유지는 물론, MCP를 통해 VS Code, GitHub Copilot, Claude 등 서로 다른 시스템 간에도 동일한 컨텍스트와 규칙을 공유할 수 있는 표준 프로토콜을 구축한다.
이는 도구의 파편화로 인한 문맥 단절을 막고, 유지보수 시 오류 발생률을 구조적으로 감소시킨다.
AI 활용도 향상
본 과제는 LLM을 단순한 코드 생성 도구가 아닌, 조직의 맥락을 이해하고 준수하는 협업 에이전트로 활용할 수 있도록 한다.
AI 코딩 도구는 작업에 필요한 컨벤션만을 선택적으로 컨텍스트로 전달받아 코드를 생성하므로, 불필요한 정보로 인한 혼란과 할루시네이션이 구조적으로 감소한다.
이는 ‘최소 충분 원칙(Minimal Sufficiency Principle)’을 실제 개발 환경에 적용한 사례로, AI가 항상 명확하고 충분한 정보만을 바탕으로 판단하도록 유도한다.
그 결과 AI에 대한 신뢰도가 향상되고, 개발자는 AI를 보조 도구가 아닌 실질적인 협업 파트너로 활용할 수 있게 된다.
미래 확장성 및 에이전트 생태계 대응
본 프레임워크는 특정 LLM이나 특정 린터에 고정되지 않은 확장 가능한 구조를 갖는다.
새로운 린터, 새로운 LLM 프로바이더, 새로운 AI 에이전트가 등장하더라도 기존 컨벤션 스키마와 MCP 인터페이스를 유지한 채 손쉽게 통합할 수 있다.
이는 향후 다수의 AI 에이전트가 동시에 협업하는 환경에서도 일관된 규칙과 거버넌스를 유지할 수 있는 기반이 되며, 조직이 AI 기술 변화에 유연하게 대응할 수 있도록 한다.

e) 경제적 및 사회적 파급효과

개발 비용 절감
본 프레임워크는 컨벤션 정의·검증·관리 과정을 자동화하여 개발 과정에서 반복적으로 발생하던 인력 소모를 크게 줄인다.
기존에는 코드 리뷰, 린트 설정 관리, 규칙 위반 수정 등에 상당한 시간이 투입되었으나, 본 시스템 도입 시 AI 코딩 도구가 사전에 조직 컨벤션을 인지한 상태에서 코드를 생성하도록 유도된다.
그 결과 사후 수정 비용과 리뷰 비용이 감소하며, 전체 개발 비용이 구조적으로 절감된다.
스타트업/중소기업 경쟁력 강화
인력과 자원이 제한된 스타트업 및 중소기업은 코드 품질 관리와 보안 정책 적용을 체계화하기 어려운 경우가 많다.
본 프레임워크는 컨벤션과 권한 정책을 기술적으로 강제함으로써, 소규모 조직도 대규모 조직 수준의 개발 거버넌스를 갖출 수 있도록 지원한다.
이는 인력 규모의 한계를 기술로 보완하는 효과를 가지며, 결과적으로 중소 조직의 기술 경쟁력을 강화한다.
개발자 교육 효과
컨벤션이 자연어 기반으로 명시되고, 코드 작성과 동시에 검증 결과(위반 원인 및 수정 가이드)가 제공됨으로써 개발자는 문서 학습이 아니라 실제 코드 맥락 속에서 규칙을 자연스럽게 체득하게 된다.
이는 신규 개발자뿐 아니라 비개발자(기획/PM 등)의 협업 참여에도 교육적 도구로 기능하며, 조직 고유의 개발 문화와 규칙을 빠르게 학습하도록 돕는다.
협업 문화 개선 및 신뢰성 제고
코드 품질 관련 갈등과 반복적인 리뷰 코멘트를 감소시켜 팀 내 협업 비용을 낮추고, 긍정적인 협업 분위기 형성에 기여한다.
특히 AI가 생성한 코드가 명시된 컨벤션과 정책에 기반하므로, 팀원들이 결과물을 더 신뢰할 수 있는 ‘설명 가능한 협업(Explainable Collaboration)’ 문화를 정착시키는 효과가 있다.
환경 측면(지속가능성)
단순한 코드 최적화를 넘어, ‘컨텍스트 선별(Context Selection)’을 통해 AI에게 불필요한 정보(노이즈) 주입을 차단한다.
이는 LLM의 토큰 사용량과 연산 부하를 감소시켜, 결과적으로 서버 자원 효율과 에너지 효율을 개선하는 친환경적 효과로 이어질 수 있다.
윤리적 측면(Responsible AI)
AI가 조직의 규칙과 권한을 무시한 채 코드를 생성할 경우 보안 사고, 규정 위반, 책임 소재 불명확 등의 문제가 발생할 수 있다.
본 과제는 역할 기반 접근 제어(RBAC)와 컨벤션 검증을 통해 AI의 행동 범위를 명확히 제한함으로써, 책임 있는 AI 활용(Responsible AI)을 기술적으로 구현한다.
즉, AI가 인간의 판단을 대체하는 것이 아니라 명시된 규칙 하에서 보조적으로 작동하도록 유도한다는 점에서 윤리적 의미가 있다.
오픈소스 생태계 활성화
본 프레임워크를 오픈소스로 공개함으로써 누구나 자유롭게 사용·확장·기여할 수 있다.
다양한 린터, LLM 프로바이더, AI 에이전트 연동 사례가 커뮤니티 주도로 축적될 수 있으며, 표준 기반의 협업 도구 생태계가 자연스럽게 성장하는 기반이 된다.
이는 특정 기업에 종속되지 않는 건강한 기술 생태계 형성에 기여한다.

기술개발 일정 및 추진체계

개발 일정

  • 9월: MCP/스키마 설계, GitHub Actions 기본 프레임워크 구축, 파서/로더 착수
  • 10~11월: 정적 규칙 검증 모듈 및 핵심 검증 엔진 구현
  • 11~12월: PR 연동 고도화, 내부 통합 테스트/시나리오 검증, 안정화 및 베타 테스트

구성원 및 추진체계

추진체계
팀장과 팀원 협업 중심의 모듈 분담형 추진체계로 운영(설계–구현–통합–검증 단계별 책임 명확화).
주간 회의로 진행상황을 공유하고, 이슈/리스크를 조기 식별·조정하였다.
구성원/역할
* 이*관 — MCP 정책 파서/규칙 로더, 통합 테스트·시나리오 검증
* 박*환 — MCP 설계 및 핵심 스키마 정의, GitHub Actions 기반 PR 연동/피드백 기능, 통합 테스트·시나리오 검증
* 박*익 — MCP 설계 및 핵심 스키마 정의, GitHub Actions 기반 PR 연동/피드백 기능, 통합 테스트·시나리오 검증
* 배*찬 — 정적 규칙 검증 모듈, GitHub Actions 기반 PR 연동/피드백 기능, 통합 테스트·시나리오 검증

설계

설계사양

제품의 요구사항

본 과제의 목적은 사용자가 자연어 한 줄만으로 팀의 컨벤션을 쉽게 정의할 수 있게 하고, 해당 컨벤션이 바이브 코딩 도구의 작업 과정에서 지속적으로 적용 및 검증되도록 하는 것이다.

사용자는 Agent(MCP 활용), Web dashboard, CLI command를 통해 다양한 방식으로 컨벤션을 정의할 수 있다. 컨벤션은 Git을 통해 소스코드와 함께 버전관리되며, GitHub 사용자는 별도의 추가 절차 없이 팀과 컨벤션을 공유할 수 있다.

바이브 코딩 도구는 MCP를 사용해 작업에 필요한 컨벤션만 선택적으로 가져와 컨텍스트를 최적화한다. 작업 완료 후에는 MCP를 통해 컨벤션 검증을 수행하며, 이 과정은 역할 기반 접근제어(RBAC)와 기존 linter 도구를 결합하여 체계적으로 수행된다. 이를 통해 LLM-as-a-judge 방식 대비 더 빠른 성능과 높은 정확성을 확보한다.

검증 결과는 MCP가 반환하며, 바이브 코딩 도구는 이를 기반으로 컨벤션 위반 사항을 인지하고 교정 작업을 수행하도록 유도한다.

요구사항 목록

번호 요구사항 D/W 비고
1 시스템은 컨벤션을 쉽게 편집하기 위한 편집기를 제공해야 한다. D 상(컨벤션 편집 및 공유)
2 사용자는 간단하게 한 줄의 자연어로 컨벤션을 편집할 수 있어야 한다. D 상(컨벤션 편집 및 공유)
3 사용자는 팀원과 컨벤션을 공유할 수 있어야 한다. D 중(컨벤션 편집 및 공유)
4 사용자의 컨벤션은 반드시 최신 상태를 유지하고 있어야 한다. W 하(컨벤션 편집 및 공유)
5 사용자는 “파일 I/O는 try/except 사용”과 같은 자연어로 정의된 규칙을 적용할 수 있어야 한다. D 상(컨벤션 지원 유형)
6 사용자는 작업에 대한 변경사항의 범위를 제한할 수 있어야 한다. D 상(컨벤션 지원 유형)
7 사용자는 라인 길이, 들여쓰기, 따옴표 등 정적 분석 가능한 규칙을 적용할 수 있어야 한다. D 상(컨벤션 지원 유형)
8 사용자는 본인이 사용하고 있는 바이브 코딩 툴에 간단히 시스템을 연동할 수 있어야 한다. D 상(시스템 설치)
9 사용자는 커버리지/복잡도 등 메트릭의 임계값을 설정할 수 있어야 한다. W 하(시스템 설정)
10 사용자는 시스템을 통해 쉽게 코드에 컨벤션을 강제할 수 있도록 해야 한다. D 상(컨벤션 적용)
11 바이브 코딩 툴은 컨벤션을 지속적으로 확인할 수 있어야 한다. D 상(컨벤션 적용)
12 사용자는 시스템의 처리 결과를 확인할 수 있어야 한다. D 상(컨벤션 적용)
13 사용자는 생성된 코드가 컨벤션에 맞는지 확인할 수 있어야 한다. D 상(컨벤션 적용)
14 사용자는 생성된 코드를 간단하게 수정할 수 있어야 한다. D 상(컨벤션 적용)
15 시스템은 요청과 처리 결과에 대한 로그를 기록해야 한다. W 하(감사 지표)


요구사항 평가

번호 요구사항 평가 방법 평가 기준
1 시스템은 컨벤션을 쉽게 편집하기 위한 편집기를 제공해야 한다. UI 내에서 컨벤션 편집 기능 접근 가능 여부, 편집/저장 동작을 테스트한다. 편집기 접근 가능, 수정 내용이 정상 저장 및 반영됨
2 사용자는 간단하게 한 줄의 자연어로 컨벤션을 편집할 수 있어야 한다. 자연어로 입력한 규칙(예: “줄 끝에 세미콜론 금지”)이 시스템에 인식되어 반영되는지 테스트한다. 자연어 입력 → 규칙 형태로 변환 및 저장 성공
3 사용자는 팀원과 컨벤션을 공유할 수 있어야 한다. 특정 사용자가 작성한 컨벤션을 팀원 계정에서 접근 및 복제 가능 여부를 테스트한다. 공유 링크 또는 협업 기능으로 팀원이 접근 가능, 팀 권한 관리 정상 작동
4 사용자의 컨벤션은 반드시 최신 상태를 유지하고 있어야 한다. 여러 클라이언트에서 동시에 접근 후 동기화 상태를 확인한다. 변경 사항 발생 시 자동 갱신 또는 수동 새로고침으로 최신 상태 유지됨
5 사용자는 “파일 I/O는 try/except 사용”과 같은 자연어로 정의된 규칙을 적용할 수 있어야 한다. 예시 자연어 규칙 입력 후 코드에 적용 결과를 확인한다. 시스템이 자연어 규칙을 인식하고 코드 분석/검증에 반영함
6 사용자는 작업에 대한 변경사항의 범위를 제한할 수 있어야 한다. 파일 단위의 적용 범위 설정 후 결과를 확인한다. 선택한 범위 내에서만 작업이 수행됨. 위반 시 경고 또는 수정 요청
7 사용자는 라인 길이, 들여쓰기, 따옴표 등 정적 분석 가능한 규칙을 적용할 수 있어야 한다. 정적 분석 규칙을 활성화한 후 코드 검사를 실행한다. 지정된 정적 규칙 위반 시 경고 또는 수정 제안 출력
8 사용자는 본인이 사용하고 있는 바이브 코딩 툴에 간단히 시스템을 연동할 수 있어야 한다. Claude Code, Codex CLI 등 주요 툴과의 연동을 시험한다. 간단한 설정(예: npm 커맨드 한 줄 입력)만으로 연동 및 기능 동작 확인
9 사용자는 커버리지/복잡도 등 메트릭의 임계값을 설정할 수 있어야 한다. 설정 UI에서 임계값 입력 후 코드 분석을 수행한다. 설정값에 따라 경고 또는 리포트가 정확히 출력됨
10 사용자는 시스템을 통해 쉽게 코드에 컨벤션을 강제할 수 있도록 해야 한다. 매 작업마다 컨벤션 검토 호출 유무를 확인한다. 컨벤션 검토가 모든 작업에서 이루어지는지 검증
11 바이브 코딩 툴은 컨벤션을 지속적으로 확인할 수 있어야 한다. 바이브 코딩 도구가 작업 계획에 따라 적절한 컨벤션을 요청하는지 확인한다. 컨벤션 요청이 모두 성공하는지 확인
12 사용자는 시스템의 처리 결과를 확인할 수 있어야 한다. 코드 분석 또는 컨벤션 검사 후 결과 화면/리포트 표시를 확인한다. 처리 결과(통과/경고/에러 등)가 명확하게 시각화되어 표시됨
13 사용자는 생성된 코드가 컨벤션에 맞는지 확인할 수 있어야 한다. 자동 생성된 코드에 대해 컨벤션 검사를 수행한다. 생성된 코드가 설정된 컨벤션 기준을 충족하거나 위반 시 경고 발생
14 사용자는 생성된 코드를 간단하게 수정할 수 있어야 한다. 코드 생성 후 바로 편집/수정 가능 여부를 확인한다. 생성 코드에 대해 컨벤션 위반 사항을 바로 해결하도록 지시할 수 있는지 검증
15 시스템은 요청과 처리 결과에 대한 로그를 기록해야 한다. 요청 수행 후 로그 파일/DB를 확인한다. 모든 요청과 처리 결과가 시간/사용자 정보와 함께 기록됨

설계 사양

a) CLI Tool
* Language — Go
* CLI Framework — Cobra, survey/v2
* Protocol — Model Context Protocol (go mcp sdk)
b) Web Dashboard
* Framework — Go net/http
* Language — Go, JavaScript
* UI/CSS — Tailwind CSS
c) External Linter Integration
* Linter — ESLint, Prettier, TSC, Pylint, Checkstyle, PMD, golangci-lint


개념설계안 - 컨벤션 구조화 및 CLI 기반 호출 모델

본 설계안은 사용자가 자연어로 정의한 코드 컨벤션을 구조화하고, 바이브 코딩 툴이 CLI를 통해 이를 불러와 검증 및 피드백하는 전체 흐름을 정의한 모델이다. 규칙 정의부터 평가와 피드백까지가 자동으로 순환되는 구조를 갖으며, 자동 피드백 루프를 통해 지속적인 품질 개선이 가능하다.

1. Rule Source (규칙 소스)
사용자가 텍스트 형태로 정의한 컨벤션 규칙이 저장되는 영역이다.
규칙이 수정·업데이트될 때마다 시스템은 최신 규칙 집합을 반영한다.
2. LLM Agent (자연어 규칙 해석기)
LLM 에이전트는 규칙 텍스트를 파싱하고 의미를 분석하여 실행 가능한 코드 규칙 형태로 변환한다.
이 단계에서 규칙의 의미적 해석과 제약(Constraint) 추출이 수행된다.
결과적으로 평가 모듈이 이해할 수 있는 ‘명세화된 규칙 코드’를 생성한다.
3. Evaluation (검증 단계)
분석 대상 코드에 필요한 컨벤션 컨텍스트를 수집하고, LLM이 생성한 규칙 코드와 비교하여 평가한다.
코드 내 위반 여부를 판단하며, 위반 항목이 발견되면 라인 번호, 규칙명 등 세부 사유를 기록한다.
본 단계는 정적 분석과 의미 분석을 결합하여 수행된다.
4. Feedback (피드백 단계)
규칙 위반이 발견된 경우 위반 사유를 정리하고 수정 방법을 제시하며, 사용자는 수정 후 재검증을 요청할 수 있다.
위반이 없는 경우 작업 통과로 처리되어 다음 단계로 진행한다.

이론적 계산 및 시뮬레이션

1. LLM Validation Batching & Optimization (LLM 배치 최적화)
목표 — 다수의 의미적 규칙 검증을 배치로 묶어 처리하여 비용과 지연을 최소화한다.
# 동일 파일 및 카테고리별로 작업을 그룹화하여 배치를 구성한다.
# 각 배치마다 컨텍스트 압축을 수행한다(중복 규칙 설명 제거, 변경 라인 ±5줄만 추출).
# Rate limit을 고려하여 병렬 실행으로 동시 처리한다.
# 구조화된 JSON 응답을 파싱하여 개별 규칙 결과로 분해한다.
2. Dependency Engine (레이어드 아키텍처 보호)
목표 — 레이어 간 의존 방향 제약을 강제하여 아키텍처 경계를 보호한다.
이론적 배경 및 계산
# 모듈 의존 그래프 G=(V,E)를 구축한다 (복잡도: O(|V|+|E|), V=모듈, E=의존 관계).
# 각 모듈에 레이어 번호 ℓ(v)를 할당한다.
# 모든 간선 (u,v) ∈ E에 대해 ℓ(u) ≥ ℓ(v)인 경우를 위반으로 탐지한다(상위 레이어가 하위 레이어에 의존하는 경우).
레이어 할당은 파일 경로 글롭 패턴 매칭으로 수행한다(예: src/domain/ → L1, src/app/ → L2).
적용 예로는 클린 아키텍처의 domain ← app ← ui 방향 강제, 마이크로서비스 경계 보호, 보안 모듈 격리 등이 있다.

상세설계 내용

1) 아키텍쳐 설계

패키지 구조 및 의존성

아키텍쳐설계.png

계층 구성요소 설명

Layer Name Packages Responsibility
L0 Bootstrap cmd/sym Entry point, provider registration via init()
L1 Commands internal/cmd CLI command implementations (Cobra)
L2 Gateways internal/mcp, internal/server External interfaces (MCP stdio, HTTP REST)
L3 Core converter, validator, importer, policy, roles Business logic
L4 Adapters internal/linter/*, internal/llm/* External tool integration

횡단 관심사 구성요소 설명

Type Packages Purpose
Infrastructure internal/util/git, util/config, util/env Helper functions, no business logic
Contracts pkg/schema Shared data types (DTOs), no behavior

아키텍쳐 다이어그램

아키텍쳐다이어그램.png

LLM Provider 아키텍처 다이어그램

LLM아키텍쳐다이어그램.png


2) 상세 설계

a) 클래스 다이어그램

클래스다이어그램.png


b) 시퀀스 다이어그램

-Validate 시퀀스 다이어그램-

시퀀스다이어그램.png


-Registry Pattern 시퀀스다이어그램-

Registry Pattern 시퀀스 다이어그램.png


c) 유즈케이스 다이어그램

유즈케이스다이어그램2.png


3) 인터페이스 설계

a) 사용자 역할별 인터페이스 개요

사용자 역할 주 사용 인터페이스 주요 목적
정책 설정자 (팀 리더, 시니어 개발자) CLI Command, Vibe Coding Tool(MCP 연동), Web Dashboard

1. 코드 정책(user-policy.json)의 생성·수정·관리
2. 역할 기반 접근 제어(RBAC) 정의

정책 소비자 (모든 개발자) Vibe Coding Tool(MCP 연동)

AI에게 코드 관련 작업을 요청하고, MCP 정책이 적용된 결과를 텍스트로 확인


b) CLI Command 인터페이스

명령어 서브커맨드 설명 주요 플래그
sym init - 프로젝트 초기화 --force, --skip-mcp, --skip-llm
sym dashboard - 웹 대시보드 실행 --port (기본: 8787)
sym my-role - 현재 역할 확인/변경 --json, --select
sym policy path 정책 파일 경로 확인/설정 --set
sym policy validate 정책 파일 유효성 검사 -
sym convert - 컨벤션 변환 --input, --output-dir
sym validate - Git 변경사항 컨벤션 검증 --policy, --staged, --timeout
sym import - 외부 문서에서 컨벤션 추출 --mode (append/clear)
sym category list 카테고리 목록 조회 -
sym category add 카테고리 추가 --file
sym category edit 카테고리 편집 --name, --description, --file
sym category remove 카테고리 삭제 --file
sym convention list 컨벤션 목록 조회 --category, --language
sym convention add 컨벤션 추가 --category, --languages, --severity, --file
sym convention edit 컨벤션 편집 --new-id, --say, --severity, --file
sym convention remove 컨벤션 삭제 --file
sym mcp - MCP 서버 시작 (stdio) --config
sym llm status LLM 프로바이더 상태 확인 -
sym llm test LLM 연결 테스트 -
sym llm setup LLM 설정 안내 표시 -
sym version - 버전 출력 -
sym completion - 쉘 자동완성 스크립트 생성 (bash/zsh/fish/powershell)


c) MCP Tool 인터페이스

도구명 설명 입력 파라미터 비고
list_convention 프로젝트 컨벤션 조회 category?, languages?[] 필터링 지원
validate_code Git 변경사항 검증 role? RBAC 역할 선택
list_category 카테고리 목록 조회 (없음) 전체 조회
add_category 카테고리 추가 categories[] (name, description) 배치 지원
edit_category 카테고리 편집 edits[] (name, new_name?, description?) 배치 지원
remove_category 카테고리 삭제 names[] 배치 지원
add_convention 컨벤션 추가 conventions[] (id, say, category?, ...) 배치 지원
edit_convention 컨벤션 편집 edits[] (id, new_id?, say?, ...) 배치 지원
remove_convention 컨벤션 삭제 ids[] 배치 지원
import_convention 외부 문서에서 컨벤션 추출 path, mode? LLM 사용
convert 컨벤션 변환 실행 input_path?, output_dir? 린터 설정 생성

d) Web Dashboard 인터페이스

- user-policy.json 파일을 편집하는 단일 페이지 웹 애플리케이션. 전역 설정과 규칙 관리의 두 영역으로 구성된다.


e) MCP 연동 채팅 인터페이스 상세 설계 (IDE CUI)

- 각 MCP 도구들은 별도의 GUI를 가지지 않으며, 모든 결과는 텍스트 응답의 일부로 출력된다. 사용자는 AI 코딩 도구의 설정에서 "MCP 기능 사용"을 활성화하여, 본 시스템이 제공하는 MCP 도구들을 도구 목록에 추가한다.


f) 인터페이스 연동 및 데이터 흐름도

인터페이스흐름도.png

결과 및 평가

완료 작품의 소개

프로토타입 사진 혹은 작동 장면

- 메인 UI 화면 (dashboard)

대시보드메인화면.png


- CLI Help 출력

CLIhelp.png


- Claude Code MCP 통합 화면

ClaudeCodeMCP통합.png


설치 (Configuration)

a) npm설치

Npm설치.png


b) sym init

Syminit.png


c) MCP 활성화(Cursor)

Mcp활성화cursor.png


살행 (Run)

a) CLI 내 sym init 명령어 입력: 프로젝트 내 Symphony 도구 초기화

Symphony도구초기화.png


b) CLI 내 sym dashboard 명령어 입력: 웹 대시보드 열기

대시보드열기.png


c) 웹 대시보드 - 초기 화면

대시보드메인화면.png


d) 웹 대시보드 - 전역 설정

대시보드전역설정.png


e) 웹 대시보드 - 템플릿 선택

대시보드템플릿.png


f) 웹 대시보드 - 컨벤션 가져오기

대시보드컨벤션.png


g) 코드 에디터 내 코드 작성 요청

대시보드코드에디터.png

관련사업비 내역서

활동비 지출 내역

항목(품명, 규격) 수량 단가 금액 비고
Claude Code (Max) 1 US$220.00 US$220.00 319,332원 (10월 결제)
Claude Code (Max) 1 US$220.00 US$220.00 32,310원 (11월 결제)
ChatGPT (Plus) 1 US$22.00 US$22.00 327,258원 (10월 결제)
합계 678,900원

완료작품의 평가

본 평가는 MCP를 통한 컨벤션 질의·검증 기반 코드 생성 방식과, MCP 미사용 방식(agent.md에 규칙만 주입) 간의 성능 차이를 정량·정성적으로 비교하기 위해 수행되었다.

비교 대상
* Baseline — MCP 미사용 (agent.md 기반 정적 규칙 주입)
* Experimental — MCP 사용 (list_convention / validate_code 등)
주요 평가 관점
# MCP 도구 활용도
# Keyword(필수 구현 요소) 충족률
# Retry 이후 성공 여부(자기 수정 능력)
# 전체 Task 성공률 개선 효과
평가 데이터
난이도 높은 코드 컨벤션 15개를 대상으로 하며, 각 컨벤션별로 반드시 포함되어야 하는 키워드(필수 구현 요소)와 포함되면 안 되는 키워드(금지 요소)를 함께 정의하여 평가에 사용하였다.
평가항목 평가방법 적용기준 개발 목표치 비중(%) 평가결과
1. MCP 사용률 MCP tool 호출 로그 분석 list_convention 등 필수 MCP 사용 >90% 20 96.7% (달성)
2. Keyword 충족률 필수 코드 요소 매칭 정책 키워드 누락 없음 >80% 25 88.9% (달성)
3. LLM Validation Symphony 검증 통과율 내부 검증을 통과하는지 여부 >75% 20 96.0% (달성)
4. Retry 개선 효과 Retry 전/후 violation 비교 Retry 후 통과 여부 80% 20 85.7% (달성)
5. 종합 성능 향상 Baseline 대비 Pass Rate 추출된 목표 키워드 비율 +30%p 이상 15 +46.7%p (달성)

향후계획

a) 어려웠던 내용들

규칙 위치 혼동
MCP를 사용하지 않거나 일부만 사용할 경우, 필요한 규칙을 제대로 참조하지 못해 LLM이 규칙의 출처/적용 대상을 혼동하는 문제가 발생하였다.
실패 원인 파악의 어려움
최초 실패 시점에서 왜 실패했는지 원인이 명확히 드러나지 않아, 재시도 이후에도 동일한 실수가 반복되는 사례가 있었다.
작업 복잡도 증가에 따른 규칙 누락
작업 단계가 많아질수록 규칙 누락 가능성이 증가했으며, 다단계 작업에서는 일부 필수 요소가 빠지는 사례가 발생하였다.
LLM 자체 한계(오해/추론 오류)
규칙을 조회했음에도 불구하고 코드에 정확히 반영되지 않는 경우가 존재했으며, 이는 모델의 해석 오류 또는 추론 오류로 인해 발생하였다.
복수 평가 기준 동시 최적화의 난이도
MCP 사용률, 키워드 충족, 재시도 성공률 등 다양한 지표가 동시에 존재하여, 모든 지표를 동시에 개선하는 것이 어렵게 작용하였다.
MCP 효과 설명의 난이도
결과물이 코드 형태로 나타나기 때문에, MCP가 왜 도움이 되었는지(어떤 과정이 개선되었는지)를 직관적으로 설명하는 데 한계가 있었다.

b) 차후 구현할 내용

컨벤션 규칙 추천 기능
자주 사용되는 컨벤션 규칙을 사용자에게 추천하여, 중요한 규칙을 놓치지 않도록 사전 확인 단계(추천/체크리스트)를 추가한다.
반복 실패에 대한 대안 제시(상호작용 개선)
단순 재시도에 의존하지 않고, 반복적인 실패 유형을 감지하여 사용자에게 차선(대체 구현, 단계 분해, 제약 완화안 등)을 제시하는 상호작용 기능을 제공한다.
결과 요약 보고서 기능
Pass/Fail, 위반 요약, 재시도 개선 여부 등을 한눈에 확인할 수 있도록 요약 리포트(대시보드/CLI 출력)를 추가한다.
Self-Baking 고도화
Agent의 검증 결과 및 피드백 컨텍스트를 기반으로 Convention Context를 스스로 개선(자가 보강/정제)하도록 기능을 고도화한다.