주말 아침 - 주간 AI #4

dimohy · 12월 25, 2025, 2:27오전

주말이 아닌 주 중에 올리는 주말 아침 - 주간 AI #4 입니다.

크리스마스 특집! LLM 사용의 10계명이 공개되었습니다: “LLM이 현실을 정의하게 두지 말라!” Air Canada 챗봇이 없는 정책을 지어내고, Replit Agent가 프로덕션 DB를 삭제한 충격적인 사례들과 함께, 왜 "지루한 소프트웨어 엔지니어링"이 AI 시대에도 여전히 중요한지 경고합니다. MCP는 2025년을 정의한 프로토콜로 자리잡으며 수만 개의 서버가 생태계를 형성했고, Visual Studio 2026은 AI를 개발의 중심에 놓는 혁신적 기능들을 선보입니다. AprielGuard는 16가지 안전 카테고리와 에이전틱 워크플로우까지 보호하는 통합 가드레일 모델로 등장했습니다!

주요 뉴스

Gemini 3로 실제 AI 에이전트 구축: 6개 오픈소스 프레임워크 예제

Google이 Gemini 3 기반 프로덕션급 에이전트 워크플로우 예제를 공개했습니다. ADK(Agent Development Kit), Agno, Browser Use, Eigent, Letta, mem0 등 6개 오픈소스 프레임워크와 연동하여 소매점 입지 분석, 브라우저 폼 자동화, Salesforce 대시보드 관리, 소셜 에이전트 메모리 관리 등 실전 코드를 제공합니다. Gemini 3의 thought signatures로 장기 작업에서 컨텍스트 드리프트를 방지하고, 추론 깊이와 상태 관리에 대한 정밀 제어가 가능합니다.

Claude Code Slack 베타: “Chat-First” 소프트웨어 개발의 새 시대

Anthropic이 Claude Code를 Slack에 통합했습니다. 버그 리포트나 기능 요청이 논의되는 Slack 스레드에서 바로 Claude를 태그하면, 대화 컨텍스트를 해석해 코딩 작업을 시작합니다. IDE를 열지 않고도 PR 생성까지 완료되며, GitHub Copilot의 Teams 통합, OpenAI Codex의 Slack 연동과 함께 “채팅 플랫폼이 개발의 시작점이 되는” 산업 트렌드를 형성합니다. 일부에서는 복잡한 시스템에서의 기술 부채 우려도 제기됩니다.

GPT-5.2-Codex 출시: 프론티어급 에이전틱 코딩과 사이버보안 역량

OpenAI가 가장 진보된 에이전틱 코딩 모델 GPT-5.2-Codex를 출시했습니다. SWE-Bench Pro와 Terminal-Bench 2.0에서 SOTA를 달성하며, 대규모 리팩토링, 코드 마이그레이션, 기능 구현에서 장시간 컨텍스트를 유지합니다. 특히 실제 React 보안 취약점(CVE-2025-55183) 발견 사례가 공개되어 화제입니다. 보안 연구자 Andrew MacPherson이 GPT-5.1-Codex-Max와 Codex CLI로 React Server Components의 취약점 3개를 단 일주일 만에 발견하고 책임감 있게 공개했습니다. Windows 환경 지원도 대폭 강화되었습니다.

Gemini 3 Flash로 개발하기: 속도를 위해 설계된 프론티어 지능

Google이 Gemini 3 Flash를 출시했습니다. GPQA Diamond 90.4%, HLE 33.7%로 프론티어급 성능을 달성하면서 2.5 Pro보다 3배 빠르고 비용은 1/4 수준입니다. SWE-bench Verified 78%로 에이전틱 코딩에 강점을 보이며, Google Antigravity, Gemini CLI, Android Studio, Vertex AI에서 즉시 사용 가능합니다. 입력 $0.50/1M 토큰, 출력 $3/1M 토큰으로 컨텍스트 캐싱 시 90% 비용 절감도 가능합니다.

ChatGPT 앱 스토어 출시

OpenAI가 ChatGPT 내에서 서드파티 앱을 검색하고 설치할 수 있는 앱 스토어를 공개했습니다. 개발자 SDK와 함께 제공되어 ChatGPT 생태계 확장의 새로운 장을 열었습니다.

2025년 AI 엔지니어링 트렌드: 에이전트, MCP, 그리고 Vibe Coding

The New Stack이 2025년 AI 개발 5대 트렌드를 정리했습니다. 1) 에이전틱 기술의 부상(OpenAI Operator, ChatGPT Agent, 기업의 신중한 도입), 2) MCP가 LLM-API 통합 표준으로 자리잡으며 Linux Foundation 산하 Agentic AI Foundation으로 이관, 3) 코딩 도구의 에이전트화(Warp, Gemini CLI, Verdent), 4) Vibe Coder 대거 유입으로 Vercel/Netlify 사용자 급증, 5) DevOps의 AI화(Replicate의 ML 컨테이너, Cloudflare 인수). "AI가 개발자를 대체한다"는 과장이지만, 개발자는 "AI 에이전트의 오케스트레이터"가 되고 있습니다.

새로운 도구/서비스

TanStack AI 알파 출시: 프레임워크 불가지론 AI 툴킷

TanStack 팀이 "AI 도구의 스위스"를 목표로 한 프레임워크 불가지론 AI 툴킷 알파를 출시했습니다. JavaScript/TypeScript, PHP, Python을 지원하며, OpenAI, Anthropic, Gemini, Ollama 어댑터를 제공합니다. HTTP, WebSocket 등 원하는 전송 계층을 사용할 수 있고, LLM의 클라이언트/서버 양측 동작을 디버깅할 수 있는 AI DevTools 패널이 포함됩니다. 기존 스택에 자유롭게 통합 가능한 설계로, 벤더 종속 없는 AI 개발을 지향합니다.

Anthropic, JavaScript 런타임 Bun 인수

속도로 유명한 JavaScript 런타임 Bun이 Anthropic에 인수되었습니다. Claude Code와 Claude Agent SDK가 Bun 실행 파일로 수백만 사용자에게 배포되며, "Bun이 망가지면 Claude Code가 망가진다"는 직접적 인센티브가 생겼습니다. Bun은 MIT 라이선스 오픈소스로 유지되며, AI 코딩 도구의 미래를 최전선에서 볼 수 있는 위치를 확보하게 됩니다.

ChatGPT에서 Replit으로 앱 빌드하기

Replit이 ChatGPT App Store에 통합되어 대화만으로 앱을 만들 수 있게 되었습니다. "@replit 레스토랑 계산 나누기 앱 만들어줘"라고 입력하면 Agent가 빌드하고 미리보기를 보여줍니다. 다크 모드 추가, 버튼 색상 변경 등 후속 요청으로 즉시 수정되며, 완성된 앱은 Replit 계정에 저장되어 DB 연결, API 통합, 커스텀 도메인 배포가 가능합니다. React를 몰라도, 배포를 몰라도 "대화 속도로 소프트웨어 생성"이 현실이 됩니다.

FunctionGemma: 엣지에서 맞춤형 Function Calling 구현하기

Google이 Gemma 3 270M 기반 Function Calling 특화 모델 FunctionGemma를 출시했습니다. 자연어를 API 호출로 변환하는 에이전트를 스마트폰이나 NVIDIA Jetson Nano 같은 엣지 디바이스에서 직접 실행할 수 있습니다. Mobile Actions 벤치마크에서 파인튜닝 후 58%→85% 정확도를 달성했으며, “TinyGarden” 게임 데모로 음성 명령 기반 게임 조작을 선보입니다. Hugging Face Transformers, Unsloth, Ollama, LiteRT-LM 등 다양한 도구 지원으로 즉시 활용 가능합니다.

Agent Skills: AI 에이전트에 새로운 역량을 부여하는 오픈 표준

Anthropic이 개발하고 오픈 소스로 공개한 Agent Skills 표준이 Cursor, VS Code, GitHub Copilot, Claude Code 등 주요 코딩 도구에 채택되었습니다. 스킬은 에이전트가 필요에 따라 로드할 수 있는 지침, 스크립트, 리소스 폴더로, 도메인 전문성, 반복 가능한 워크플로우, 새로운 기능을 패키징합니다. 한 번 작성하면 여러 에이전트 제품에서 재사용 가능하며, 기업은 조직 지식을 버전 관리되는 포터블 패키지로 캡처할 수 있습니다.

Agent Development Kit for TypeScript: 코드 퍼스트 접근법으로 AI 에이전트 구축하기

Google이 TypeScript/JavaScript 개발자를 위한 오픈소스 에이전트 프레임워크 ADK를 출시했습니다. 버전 관리, 자동 테스트, CI/CD 통합 등 기존 소프트웨어 개발 베스트 프랙티스를 에이전트 개발에 적용할 수 있습니다. Gemini 3 Pro/Flash 최적화, MCP 도구 연동, 모델 불가지론적 설계로 어디서든 배포 가능합니다.

Microsoft Foundry에 업데이트된 GPT Voice 모델 출시

Microsoft Foundry에 3가지 음성 모델이 업데이트되었습니다. Realtime-mini는 실시간 음성 에이전트용으로 음성 복제와 커스텀 보이스를 지원합니다. ASR 모델은 영어 WER 50% 감소, 침묵 환각 4배 감소를 달성했고, TTS 모델은 다국어 WER 35% 개선으로 업계 최고 수준입니다. 가격 변동 없이 성능만 향상되었습니다.

Mistral OCR 3로 기업 문서 디지털화: 74% 승률과 1,000페이지당 $2 가격

Mistral AI가 3세대 OCR 모델을 출시했습니다. 경쟁 제품 대비 74% 승률, 손글씨 인식, 복잡한 테이블 재구성, 손상된 스캔 처리에서 뛰어난 성능을 보입니다. 1,000페이지당 $2(배치 처리 시 50% 할인)의 공격적인 가격으로, "종이 데이터가 AI 도입의 병목"이라는 기업 현실을 해결합니다. 클라우드, VPC, 온프레미스 배포를 모두 지원합니다.

브라우저에서 AI 에이전트 실행하기: Hashbrown 프레임워크

브라우저에서 직접 실행되는 에이전트 프레임워크 Hashbrown이 공개되었습니다. React, Angular 지원으로 생성형 UI를 구현하고, 스트리밍 기본 지원, Skillet 스키마 라이브러리로 LLM 출력을 실시간 파싱합니다. WebAssembly로 컴파일된 QuickJS 런타임으로 보안 샌드박스에서 LLM 생성 코드를 안전하게 실행합니다.

학습 자료

LLM 사용의 10계명: 확률은 시스템이 아니다

LLM 시스템 구축 시 반드시 지켜야 할 10가지 규칙을 제시합니다. “LLM이 상태를 소유하게 하지 말라”, “LLM이 부작용의 유일한 원인이 되게 하지 말라”, “유창함을 신뢰성과 혼동하지 말라” 등의 원칙과 함께, Air Canada 챗봇이 존재하지 않는 정책을 지어낸 사건, Replit Agent가 프로덕션 DB를 삭제한 사건, McDonald’s AI 드라이브스루 실패 등 실제 기업 사례를 분석합니다. 핵심 메시지: “LLM은 현실을 해석하지, 정의하게 두어서는 안 된다.”

MCP Transport의 미래: Stateless 아키텍처로의 진화

MCP(Model Context Protocol) Transport Working Group이 Streamable HTTP 트랜스포트의 로드맵을 공개했습니다. Stateless 프로토콜로 전환하여 sticky 세션 없이 수평 확장이 가능해지고, 세션을 데이터 모델 계층으로 승격시켜 애플리케이션이 명시적으로 관리합니다. Server Cards(/.well-known/mcp.json)로 연결 전 서버 정보 검색, ETags와 TTL로 캐싱 최적화, JSON-RPC 라우팅 정보의 HTTP 경로/헤더 노출 등이 2026년 6월 명세 릴리스 목표입니다.

Microsoft Agent Framework: AIContextProvider로 에이전트에 컨텍스트 메모리 부여하기

Microsoft Agent Framework의 AIContextProvider 패턴으로 상태 유지 에이전트를 구축하는 방법을 상세히 다룹니다. InvokingAsync(LLM 호출 전)와 InvokedAsync(응답 후) 이벤트로 라이프사이클을 관리하고, 사용자 정보를 JSON으로 직렬화하여 DB에 저장하면 며칠 후에도 대화를 이어갈 수 있습니다. 퍼스널 트레이너 에이전트 예제로 체중 감량 타임라인 계산 Function Tool까지 구현합니다.

LLM 환각의 원인: 거짓말이 아니라 패턴 완성

LLM이 "거짓말"하는 것처럼 보이는 현상의 실제 원인을 분석합니다. LLM의 유일한 목표는 "다음 토큰 예측"이며, “모른다고 멈추는” 기능이 내장되어 있지 않습니다. 자신감 있는 어조는 진실 신호가 아니라 스타일 신호이고, 프롬프트가 모호하거나 열린 질문일수록 환각이 증가합니다. 해결책: 출처 인용 요청, 불확실성 플래그, 범위 제약, 탐색과 검증 분리 등 가드레일 설계가 핵심입니다.

Transformers v5 토크나이저: 더 단순하고, 명확하고, 모듈화된 설계

Hugging Face가 Transformers v5의 토크나이저 대대적 개편을 발표했습니다. 핵심 변화는 토크나이저 아키텍처와 학습된 어휘를 분리하여 PyTorch의 nn.Module처럼 “빈 아키텍처 인스턴스화 → 커스텀 데이터로 학습” 패턴을 가능케 한 것입니다. 모델당 파일이 2개에서 1개로, Slow/Fast 구분 없이 Rust 백엔드가 기본이 되며, LlamaTokenizer().train(files=[...]) 한 줄로 자체 토크나이저 학습이 가능해집니다.

MCP: AI와 현실 세계를 연결하는 프로토콜

CODE Magazine이 Model Context Protocol(MCP)의 심층 해설을 게재했습니다. MCP는 AI 모델이 외부 데이터 소스, 도구, 액션에 안전하고 투명하게 연결되는 오픈 표준입니다. 클라이언트-서버 아키텍처로 모델 요청 → 권한 검증 → 서버 응답 → 모델 통합의 루프를 형성하며, 캘린더 예약, 프로젝트 관리 등 실제 업무 통합이 가능합니다. 기존 RAG, 플러그인의 파편화를 해결하는 "AI의 HTTP"를 목표로 합니다.

Replit 스냅샷 엔진: AI 에이전트를 안전하게 만드는 기술

Replit이 AI 에이전트의 안전한 실험을 가능케 하는 스냅샷 엔진을 공개했습니다. Copy-on-Write 기반 Bottomless Storage로 파일시스템과 데이터베이스를 즉시 복제/롤백할 수 있습니다. 에이전트가 코드나 DB를 망가뜨려도 언제든 이전 상태로 복원 가능하며, 개발/프로덕션 DB 분리로 에이전트는 개발 DB만 접근합니다. 향후 병렬 샘플링으로 여러 에이전트가 동시에 문제를 풀고 최적 결과를 선택하는 기능도 예정입니다.

AI가 당신의 나쁜(그리고 좋은) 습관을 증폭시킬 때

JetBrains가 "AI는 마법 지팡이가 아니라 메가폰"이라는 통찰을 공유합니다. MIT 연구에 따르면 규율 있는 조직만이 AI 도입의 장기 수익을 얻습니다. 잘 정돈된 코드베이스, 읽기 쉬운 커밋 메시지, 문서화된 아키텍처 의도가 AI의 정확도를 높입니다. AI는 나쁜 팀을 좋게 만들지 않고, 이미 좋은 팀의 좋은 습관을 레버리지합니다.

인사이트

MCP가 2025년에 미친 영향: Technology Radar로 본 생태계 분석

Thoughtworks가 Technology Radar Vol.33을 통해 MCP의 2025년 영향력을 분석합니다. 수만 개의 MCP 서버가 MCP.so 같은 마켓플레이스에서 검색 가능하며, JetBrains부터 독립 오픈소스까지 생태계가 폭발적으로 성장했습니다. FastMCP(서버 개발 간소화), Context7(AI 코드 정확성), MCP-scan(보안 취약점 분석) 등 도구가 등장했고, "컨텍스트 엔지니어링"이라는 새로운 기법이 부상했습니다. 단, "naive API-to-MCP conversion"은 보안과 효율 문제로 Hold 등급으로 경고합니다.

GitHub Copilot Coding Agent 활용 예제 워크스루

GitHub Copilot Coding Agent를 다양한 진입점에서 활용하는 실전 가이드입니다. VS Code에서 Plan Mode→Agent Mode 핸드오프, github.com Agent Tasks 패널에서 실패한 워크플로우 수정, 새 저장소 생성 시 프롬프트로 즉시 스캐폴딩, 웹 채팅과 폰 앱에서 코딩 작업 위임 등을 다룹니다. MCP Private Registry에 stdio 서버 추가 예제와 함께, 실제 PR 링크로 결과를 보여주며 "프롬프트 작성법을 역으로 배울 수 있다"고 안내합니다.

AI를 무시하는 엔지니어들의 이상한 사례

저자가 "AI가 코드를 쓸 수 있다"고 했을 때, 예상과 달리 낙관론이 아닌 AI 무용론에 대한 반발이 쏟아졌습니다. 2022년 ChatGPT 경험에 머문 엔지니어들이 Claude Code, Cursor 등 현대 도구의 진화를 놓치고 있다고 지적합니다. "완벽하지 않다"와 "쓸모없다"는 다른 주장이며, AI 도구를 통합한 엔지니어와 그렇지 않은 엔지니어 간 격차가 벌어지고 있다고 경고합니다. "최근 6개월 내 안 써봤다면 의견이 구식"이라는 직설적 메시지.

JetBrains IDE에서 BYOK(Bring Your Own Key) 정식 출시

JetBrains가 IDE의 AI 채팅과 Junie, Claude Agent에서 자체 API 키를 사용할 수 있는 BYOK 기능을 정식 출시했습니다. Anthropic, OpenAI 및 OpenAI API 호환 제공자를 연결할 수 있으며, JetBrains AI 구독 없이도 사용 가능합니다. 벤더 종속 없이 선호하는 모델을 선택하고, 비용을 직접 관리하며, API 키는 로컬에만 저장되어 JetBrains와 공유되지 않습니다. Google Gemini, Azure, Amazon Bedrock 추가도 예정입니다.

AI 시대에 아키텍트의 위치: In, On, Out of the Loop

InfoQ가 AI 시대 아키텍트 역할의 재정의를 다룬 심층 기사를 게재했습니다. “Three Loops” 모델로 In(협업), On(감독), Out(자율) 상태에서 아키텍트가 AI 에이전시를 오케스트레이션하는 메타-디자이너가 됩니다. ArchAI, Neo4j GraphRAG 같은 도구로 분석 역량을 확장하되, 생성 모델 과의존은 "스킬 위축"과 암묵지 손실을 초래합니다. AI가 자율 운영되는 Out 모드에서 아키텍트는 거버넌스 구조 설계에 집중해야 합니다.

AI 물결 타기: Microsoft Entra Agent ID로 AI 에이전트 관리, 거버넌스, 보호하기

Microsoft가 IDC의 “3년 내 13억 AI 에이전트” 전망에 대응해 Entra Agent ID를 공개했습니다. Agent Registry로 조직 내 에이전트를 통합 관리하고, Blueprint로 권한/역할/정책을 템플릿화하여 일괄 적용합니다. Conditional Access, Identity Protection으로 위험 에이전트를 자동 차단하고, Lifecycle Workflows로 스폰서 변경 시 자동 알림/재할당합니다. "에이전트도 사용자처럼 ID 관리 대상"이라는 새로운 패러다임을 제시합니다.