주말아침 - 주간AI #3

dimohy · 12월 17, 2025, 3:39오후

OpenAI가 GPT-Image-1.5로 이미지 생성의 새 시대를 열고, Visual Studio 2026은 Copilot을 품은 "드라마 없는 디버깅"을 선보입니다. Cursor는 런타임 로그로 버그를 추적하는 Debug Mode를, Google은 ADK로 멀티 에이전트 8대 패턴을 공개했습니다. JetBrains는 ACP로 “에이전트 잠금 없는” 개방 생태계를 선언하며, GPT-5.2와 DeepSeek-V3.2가 Microsoft Foundry에서 동시 출격! NVIDIA의 Nemotron 3 Nano는 100만 토큰 컨텍스트로 에이전트 시대를 가속합니다!

주요 뉴스

GPT-5.2 소개

OpenAI가 전문 지식 업무를 위한 가장 강력한 모델 GPT-5.2를 출시했습니다. SWE-Bench Pro에서 55.6%로 SOTA를 달성하고, 44개 직종의 GDPval 평가에서 전문가를 70.9% 이기거나 동점을 기록했습니다. 장문맥 처리, 도구 호출, 비전 능력이 대폭 향상되었으며 API에서 즉시 사용 가능합니다.

Adobe, ChatGPT 내에서 Photoshop, Express 및 Acrobat 무료 출시

Adobe가 Photoshop, Express, Acrobat을 ChatGPT에 통합하여 사용자가 자연어 프롬프트로 이미지를 편집하고 문서를 관리할 수 있게 되었습니다. 이 기능은 에이전트 AI와 MCP를 기반으로 하며 ChatGPT 사용자에게 무료로 제공됩니다.

2026년 AI 7대 트렌드 - Microsoft

Microsoft가 2026년을 "AI가 도구에서 파트너로 진화하는 해"로 전망했습니다. AI 에이전트가 디지털 동료가 되고, AI 보안이 필수로 강화되며, 헬스케어 AI가 실제 환자에게 도달합니다. 양자 컴퓨팅과 AI의 융합, 연구 프로세스 자동화, 코드의 맥락을 이해하는 “저장소 인텔리전스” 등 개발자가 주목해야 할 핵심 트렌드를 총정리했습니다.

DeepSeek-V3.2 및 DeepSeek-V3.2-Speciale, Microsoft Foundry에 출시

Microsoft Foundry에 DeepSeek의 차세대 추론 모델이 Azure급 보안과 함께 등장했습니다. DeepSeek Sparse Attention(DSA)으로 3배 빠른 추론, 50% 메모리 절감을 달성하고, 전체 훈련 연산의 10%를 강화학습에 투자해 "생각하는 법"을 학습했습니다. Speciale 버전은 도구 호출 없이 순수 추론에 올인하여 올림피아드급 문제에서 최고 성능을 발휘합니다.

새로운 ChatGPT Images 출시 - GPT-Image-1.5

OpenAI가 새로운 플래그십 이미지 생성 모델 GPT-Image-1.5를 출시했습니다. 업로드된 이미지 편집 시 조명, 구도, 얼굴 유사성을 일관되게 유지하면서 원하는 부분만 정밀하게 수정할 수 있습니다. 생성 속도가 4배 빨라졌고, 텍스트 렌더링과 복잡한 지시 따르기 능력이 대폭 향상되었습니다. API에서도 GPT Image 1.5로 사용 가능하며, 입출력 비용이 20% 절감되었습니다.

새로운 도구/서비스

Gemini Deep Research로 빌드하기

Google이 Gemini Deep Research 에이전트를 Interactions API를 통해 개발자에게 공개했습니다. Gemini 3 Pro 기반으로 환각을 줄이고 보고서 품질을 극대화하도록 훈련되었으며, HLE와 BrowseComp 벤치마크에서 SOTA를 달성했습니다. 복잡한 웹 리서치를 자동화하는 강력한 도구입니다.

Docker Model Runner, Windows에서 vLLM 지원

Docker Desktop for Windows에서 WSL2와 NVIDIA GPU를 활용한 vLLM 고성능 추론이 가능해졌습니다. docker model run 명령 하나로 LLM을 실행할 수 있어, Windows 개발자도 프로덕션 환경과 동일한 추론 엔진으로 로컬 AI 개발이 가능합니다.

Microsoft Agent Framework 만나보기 — 당신의 .NET 에이전트 툴킷

Microsoft가 .NET 및 Python을 지원하는 오픈 소스 AI 에이전트 구축 SDK인 Microsoft Agent Framework(MAF)를 출시했습니다. Semantic Kernel의 오케스트레이션과 AutoGen의 멀티 에이전트 패턴을 결합하여 복잡한 워크플로우를 쉽게 구현할 수 있습니다.

Claude-Mem: 코딩 세션 중 Claude의 모든 활동을 캡처하고 압축하여 미래 세션에 컨텍스트를 주입하는 플러그인

Claude Code를 위한 플러그인으로, 세션 간의 컨텍스트를 지속적으로 유지해줍니다. 도구 사용 내역을 캡처하고 요약하여 다음 세션에 자동으로 주입함으로써, 장기 프로젝트에서도 Claude가 이전 작업을 기억하고 이어갈 수 있게 돕습니다.

GPT-5.2 프롬프팅 가이드

OpenAI가 GPT-5.2 전용 프롬프팅 가이드를 공식 쿡북에 공개했습니다. 출력 간결성 제어, 범위 드리프트 방지, 장문맥 회상 개선, 환각 완화 등 실전 프롬프트 패턴을 상세히 다룹니다. 특히 reasoning_effort 파라미터 조절과 compaction API를 통한 컨텍스트 확장 기법이 핵심입니다.

Docker MCP Toolkit으로 ChatGPT에 MCP 서버 추가하기

ChatGPT Developer Mode와 Docker MCP Toolkit을 연결하여 실제 데이터베이스 쿼리, GitHub 커밋, 웹 스크래핑을 대화로 수행하는 방법을 소개합니다. SQLite, Stripe, Firecrawl 등 7개 MCP 서버로 경쟁사 가격을 모니터링하고 자동 재가격 책정을 수행하는 데모를 통해 MCP의 실전 활용법을 보여줍니다.

Tinker 정식 출시 및 비전 입력 지원

Thinking Machines Lab의 파인튜닝 플랫폼 Tinker가 대기자 명단을 종료하고 정식 출시되었습니다. Kimi K2 Thinking(1조 파라미터 추론 모델), OpenAI API 호환 인터페이스, Qwen3-VL 기반 비전 입력이 추가되어 이미지 분류 등 멀티모달 파인튜닝이 가능해졌습니다.

GPT-image-1.5, Microsoft Foundry에서 사용 가능

OpenAI의 GPT-Image-1.5가 Microsoft Foundry에서 정식 출시되었습니다. 프롬프트 정합성 91.2%, 다이어그램/플로차트 정확도 96.9%로 벤치마크 최고 성능을 기록합니다. 브랜드 로고와 핵심 비주얼을 편집 간에도 일관되게 보존하여 마케팅, 이커머스, UI/UX 디자인 워크플로우에 최적화되었습니다. Azure의 보안과 거버넌스가 기본 제공됩니다.

Visual Studio 2026의 Copilot 디버깅 - 드라마 없는 디버깅

Visual Studio 2026이 Copilot과 통합된 차세대 디버깅 경험을 선보입니다. 예외 발생 시 전체 저장소, 과거 버그, PR 이력까지 분석하여 근본 원인을 제시합니다. 인라인 값 표시로 조건문, 루프 변수, 반환값을 즉시 확인할 수 있고, "Debug with Copilot"으로 테스트 실패 시 에이전트가 자동으로 수정-테스트-반복합니다.

Cursor Debug Mode - 런타임 로그로 버그 추적

Cursor 2.2에 런타임 정보 기반의 Debug Mode가 추가되었습니다. 버그 설명 → 에이전트가 코드 분석 및 로깅 삽입 → 버그 재현 시 실제 데이터 수집 → 정확한 수정안 제안의 흐름으로, 추측성 코드 수백 줄 대신 2~3줄의 정밀한 수정을 제공합니다. Human-in-the-loop 검증으로 수정이 확인될 때까지 반복하며, 기존 에이전트로 풀기 어려웠던 까다로운 버그를 안정적으로 해결합니다.

A2UI 소개: 에이전트 기반 인터페이스를 위한 오픈 프로젝트 - Google

Google이 에이전트가 UI를 동적으로 생성하고 전송할 수 있는 A2UI(Agent-to-UI) 프로토콜을 오픈소스로 공개했습니다. JSON 기반 선언적 포맷으로 보안을 보장하면서 Flutter, Web Components, Angular 등 다양한 프레임워크에서 네이티브 렌더링이 가능합니다. A2A 프로토콜과 결합해 멀티 에이전트 환경에서도 안전하게 UI를 교환할 수 있습니다.

Nemotron 3 Nano - 효율적이고 개방적인 에이전트 모델의 새 표준 - NVIDIA

NVIDIA가 316억 파라미터 중 36억만 활성화하는 하이브리드 Mamba-Transformer MoE 아키텍처의 Nemotron 3 Nano를 공개했습니다. 100만 토큰 컨텍스트 윈도우, Qwen3-30B 대비 3.3배 빠른 처리량, Thinking ON/OFF 모드를 지원합니다. NeMo Gym과 함께 모든 학습 레시피, 데이터셋, RL 환경을 완전 오픈소스로 공개하여 커뮤니티의 RL 훈련 접근성을 높였습니다.

학습 자료

Interactions API: 모델과 에이전트를 위한 통합 기반

Google이 Gemini 모델과 에이전트(Gemini Deep Research 등)를 단일 RESTful 엔드포인트로 통합하는 Interactions API를 공개했습니다. 서버 측 상태 관리, 백그라운드 실행, 원격 MCP 도구 지원 등 에이전트 애플리케이션 개발에 필요한 핵심 기능을 제공합니다.

Gemini와 Cloud Run으로 생성형 AI 앱의 지연 시간을 줄이는 방법

Google Cloud Run과 Gemini를 활용하여 글로벌 저지연 AI 아키텍처를 구축하는 방법을 상세히 다룹니다. 3개 대륙에 걸친 ‘삼각 배포’ 전략과 글로벌 로드 밸런서를 통해 사용자에게 가장 가까운 서버로 라우팅하고 위치 기반 개인화를 구현하는 실전 가이드입니다.

AI로 13만 줄의 Rust 코드 작성에서 얻은 교훈

Microsoft Azure의 RSL 합의 프로토콜을 Rust로 재구현한 6주간의 여정을 공유합니다. Claude Code, Codex CLI 등 AI 에이전트를 활용해 13만 줄, 1,300개 이상의 테스트를 작성했습니다. AI가 작성한 코드 계약(contracts)으로 Paxos 안전성 버그를 조기 발견하고, 23K→300K ops/sec으로 성능을 최적화한 실전 노하우가 담겨 있습니다.

Stack Overflow MCP 서버로 HP가 소프트웨어 개발 라이프사이클을 현대화하는 방법

HP가 Stack Overflow의 MCP 서버를 활용해 4,000명 이상의 개발자 간 조직 지식 사일로를 허무는 사례를 소개합니다. 에이전트 SDLC 실험에서 MCP가 "프레임워크로서 성공의 증거"가 되었으며, 개발자가 AI를 "지휘"하여 생산성을 극대화하는 미래상을 제시합니다.

ADK 멀티 에이전트 패턴 개발자 가이드 - Google

Google이 Agent Development Kit(ADK)를 활용한 8가지 멀티 에이전트 디자인 패턴을 공개했습니다. Sequential Pipeline(조립 라인), Coordinator/Dispatcher(컨시어지), Parallel Fan-Out/Gather(문어), Hierarchical Decomposition(러시아 인형), Generator-Critic(편집자), Iterative Refinement(조각가), Human-in-the-Loop(안전망), Composite(혼합) 패턴을 의사코드와 함께 상세히 설명합니다. 마이크로서비스처럼 에이전트도 역할을 분리해야 신뢰성이 높아집니다.

Agent 3의 대규모 자가 테스트를 위한 REPL 기반 검증 - Replit

Replit이 Agent 3가 200분 이상 자율 작업을 가능하게 한 REPL 기반 검증 시스템을 공개했습니다. “포템킨 인터페이스”(작동하는 것처럼 보이지만 실제론 연결 안 된 UI)를 잡아내기 위해 코드 실행 + 브라우저 자동화를 결합했습니다. 노트북 환경에서 변수와 세션이 유지되어 에이전트가 반복적으로 탐색하고 검증할 수 있으며, 세션당 $0.20의 비용으로 수백 단계 테스트를 수행합니다.

인사이트

AI는 코드를 쓸 수 있다. 하지만 당신의 일을 대신할 수는 없다

"프로그래밍은 업무가 아니라 작업이다"라는 관점에서 AI 시대 개발자의 역할을 재정의합니다. OpenAI가 Windsurf에 30억 달러를 제안하고 Anthropic이 Bun을 인수한 이유는 AI가 대체할 수 없는 엔지니어의 판단력, 맥락 이해, 문제 정의 능력 때문이라고 분석합니다.

'AI 네이티브’란 무엇이며 왜 MCP가 핵심인가?

'클라우드 네이티브’의 발전 과정에 빗대어 'AI 네이티브’의 정의를 탐구합니다. 단순한 도구 사용을 넘어 표준화되고 상호 운용 가능한 에이전트 워크플로우를 가능하게 하는 Model Context Protocol(MCP)이 미래 AI 아키텍처의 핵심 패턴임을 강조합니다.

장기 실행 에이전트를 위한 효과적인 하네스 설계 - Anthropic 엔지니어링

Anthropic이 여러 컨텍스트 창에 걸쳐 작업하는 장기 에이전트의 핵심 문제—“한 번에 너무 많이 시도”, “조기 완료 선언”—를 해결하는 2단계 하네스 구조를 공개했습니다. 초기화 에이전트가 기능 목록과 진행 파일을 설정하고, 코딩 에이전트가 점진적으로 진행하며 깔끔한 상태를 유지하는 패턴으로, claude-progress.txt와 git 커밋을 활용해 세션 간 맥락을 전달합니다.

Gemini 오디오 모델 업데이트: 라이브 음성 에이전트와 실시간 번역

Google이 Gemini 2.5 Flash Native Audio를 대폭 업그레이드했습니다. 함수 호출 정확도가 ComplexFuncBench에서 71.5%로 업계 최고이며, 개발자 지시 준수율 90%, 멀티턴 대화 품질이 크게 향상되었습니다. 또한 70개 이상 언어에서 화자의 억양과 톤을 보존하는 실시간 음성-음성 번역이 Google 번역 앱에 베타로 출시되었습니다.

AI, MCP, 그리고 데이터 호딩의 숨겨진 비용 - O’Reilly

MCP의 편리함이 만드는 “데이터 호딩” 함정을 경고합니다. AI가 방대한 데이터를 처리해 합리적인 답변을 내놓으니 아키텍처 문제를 인식하지 못하고, 개발자는 데이터 설계 스킬을 쌓을 기회를 놓칩니다. 명사가 아닌 동사로 도구를 설계하고(getCustomer()→checkEligibility()), 토큰 사용 대비 실제 참조율을 대시보드화하는 등 실전 가이드를 제공합니다.

에이전트, 프로토콜, 그리고 편들지 않는 이유 - JetBrains

JetBrains가 ACP(Agent Client Protocol)와 GitHub AgentHQ의 차이를 설명하고, 개방성에 대한 입장을 밝혔습니다. ACP는 JetBrains와 Zed가 함께 만든 IDE-에이전트 간 오픈 프로토콜(LSP의 AI 버전)이고, AgentHQ는 GitHub 생태계 전용 에이전트 관리 플랫폼입니다. JetBrains는 복수 프로토콜 지원, 에이전트 잠금 없음, 시장이 채택하는 표준 수용을 약속하며, "에이전트는 어디서든 작동해야 한다"는 철학을 강조합니다.