주말아침 - 주간AI #14

dimohy · 3월 8, 2026, 11:44오후

GPT-5.4가 컴퓨터 사용 능력(OSWorld 75%)과 100만 토큰 컨텍스트를 앞세워 등장하고, Google은 Gemini 3.1 Flash-Lite로 $0.25/1M 입력이라는 파격적 가격을 제시했습니다. OpenAI와 Amazon의 $50B 전략적 파트너십, 6천만 건 돌파한 Copilot 코드 리뷰, 그리고 Clinejection으로 드러난 AI 코딩 에이전트의 프롬프트 인젝션 위험까지—이번 주는 AI의 규모와 보안이 동시에 화두입니다. Cursor Automations의 상시 가동 에이전트, VS Code 1.110의 공유 메모리·브라우저 에이전트, MCP C# SDK v1.0 정식 출시 등 개발 도구 생태계가 급변하고 있으며, Martin Fowler의 "하네스 엔지니어링"과 Anthropic의 에이전트 워크플로우 패턴 가이드는 에이전트 시대의 개발 방법론을 재정의합니다. TypeScript가 AI 편의성 루프를 타고 GitHub 1위 언어로 등극하고, Chip Huyen은 "실행이 아닌 비전이 해자"라 선언하며, $400B 데이터센터 투자에 맞선 풀뿌리 반란까지—AI 시대의 기술·문화·인프라 지형이 동시에 요동치는 한 주입니다.

주요 뉴스

GPT-5.4 출시: OpenAI의 가장 강력한 프론티어 모델

OpenAI가 GPT-5.4를 공개했습니다. 네이티브 컴퓨터 사용 능력(OSWorld 75%), 100만 토큰 컨텍스트 윈도우, 도구 검색으로 토큰 47% 절감 등이 핵심입니다. SWE-Bench Pro 57.7%, GDPval 83%를 기록하며, 입력 $2.50/M·출력 $15/M 가격으로 ChatGPT에서 GPT-5.2 Thinking을 대체합니다. 범용 모델 최초로 네이티브 CUA(Computer Use Agent)를 탑재했습니다.

Gemini 3.1 Flash-Lite: Google의 가장 빠르고 저렴한 Gemini 3 모델

Google이 Gemini 3.1 Flash-Lite를 출시했습니다. 입력 $0.25/1M, 출력 $1.50/1M의 파격적 가격이 특징입니다. 2.5 Flash 대비 첫 토큰 응답 시간 2.5배, 출력 속도 45% 빨라졌으며, GPQA Diamond 86.9%, Arena.ai Elo 1432를 달성했습니다. AI Studio와 Vertex AI에서 사고 수준(thinking level) 조절이 가능합니다.

OpenAI-Amazon 전략적 파트너십: $50B 투자와 독점 클라우드 계약

OpenAI와 Amazon이 전략적 파트너십을 체결했습니다. Amazon이 $50B를 투자하고, AWS Bedrock에서 '상태 유지 런타임 환경(Stateful Runtime Environment)'을 공동 개발합니다. AWS가 OpenAI Frontier의 독점 서드파티 클라우드가 되며, 2GW Trainium 용량을 확보합니다. 향후 8년간 $100B 규모로 확대될 예정입니다.

6천만 건의 Copilot 코드 리뷰: GitHub AI 리뷰의 급성장

GitHub Copilot 코드 리뷰가 4월 출시 이후 10배 성장하여 6천만 건을 돌파했습니다. GitHub 전체 리뷰의 5분의 1을 AI가 수행하며, 리포지토리 컨텍스트를 활용하는 에이전틱 아키텍처를 갖추고 있습니다. 리뷰의 71%가 실행 가능한 피드백을 제공하고, WEX 사는 약 30% 더 많은 코드를 출시하게 되었다고 보고했습니다.

악성 AI 어시스턴트 확장 프로그램: 90만 설치로 LLM 대화 유출

ChatGPT·DeepSeek을 사칭하는 Chromium 확장 프로그램이 LLM 대화 기록을 탈취하고 있습니다. 약 90만 건 설치, 2만 개 이상 기업 테넌트에 침투했으며, deepaichats.com·chatsaigpt.com으로 데이터를 유출합니다. 업데이트 시 텔레메트리를 자동 재활성화하는 방식으로 탐지를 회피합니다.

Clinejection: AI 코딩 에이전트를 노린 프롬프트 인젝션 공격

Cline의 GitHub 이슈 트리아지(claude-code-action)를 악용한 프롬프트 인젝션 공격이 발견되었습니다. 악성 이슈 제목이 Claude를 속여 독이 든 npm 패키지를 설치하게 하고, 11GB 정크 데이터로 캐시를 오염시키는 ‘cacheract’ 기법으로 이슈 트리아지 워크플로우에서 야간 릴리스 워크플로우까지 침투했습니다. cline@2.3.0이 손상되어 철회되었습니다.

MCP C# SDK v1.0 정식 출시: 2025-11-25 사양 완전 지원

.NET용 MCP(Model Context Protocol) C# SDK가 v1.0 정식 버전을 출시했습니다. 향상된 인증 탐색, 도구·리소스·프롬프트 아이콘, 점진적 범위 동의, URL 모드 유도(elicitation), 샘플링 내 도구 호출, OAuth CIMD, 장기 실행 HTTP 폴링, 실험적 Tasks 프리미티브 등을 지원합니다. Microsoft.Extensions.AI를 기반으로 합니다.

새로운 도구/서비스

Cursor Automations: 항상 켜져 있는 AI 에이전트 자동화

Cursor가 Automations 기능을 출시했습니다. 스케줄, Slack 메시지, Linear 이슈, GitHub PR, PagerDuty 인시던트, 커스텀 웹훅 등으로 트리거되는 상시 에이전트를 제공합니다. 클라우드 샌드박스에서 MCP 지원과 함께 실행되며, 보안 리뷰, 에이전틱 코드오너, 인시던트 대응, 주간 요약, 버그 트리아지 등의 활용 사례가 있습니다.

Cursor in JetBrains: ACP를 통한 IntelliJ·PyCharm·WebStorm 지원

Cursor가 Agent Client Protocol(ACP)을 통해 JetBrains IDE에서 사용 가능해졌습니다. IntelliJ IDEA, PyCharm, WebStorm에서 OpenAI, Anthropic, Google, Cursor의 프론티어 모델에 접근할 수 있으며, 보안 코드베이스 인덱싱과 시맨틱 검색을 제공합니다. 유료 플랜 사용자에게 무료로 제공됩니다.

OpenAI Codex Windows 출시: 네이티브 샌드박스와 PowerShell 지원

OpenAI Codex가 Windows를 정식 지원합니다. 네이티브 Windows 샌드박스, PowerShell 지원, WinUI 스킬을 갖추었으며, 50만 명 이상이 대기자 명단에 있습니다. Mac 버전은 첫 주 100만+ 다운로드, 주간 활성 사용자 160만 명을 기록했습니다. 무료 ChatGPT 사용자를 포함한 모든 티어에서 이용 가능합니다.

Microsoft Foundry: Azure AI를 통합하는 엔드투엔드 AI 플랫폼

Microsoft가 Azure AI Foundry를 'Microsoft Foundry’로 리브랜딩하며 통합 AI 플랫폼으로 확장했습니다. Azure OpenAI와 오픈소스 모델 접근, 개발·오케스트레이션 도구, 평가·안전·책임 있는 AI, 엔터프라이즈 통합(Azure, Fabric, Power Platform, Entra)을 하나로 묶었습니다.

Claude Code 음성 모드: /voice 명령으로 음성 코딩

Anthropic이 Claude Code에 음성 모드를 도입했습니다. /voice 명령으로 전환하며, 현재 약 5% 사용자에게 롤아웃 중입니다. Claude Code의 연간 환산 매출은 $25B 이상으로, 2026년 초 대비 두 배 성장했습니다. 주간 활성 사용자도 1월 이후 두 배로 늘었습니다.

VS Code 2026년 2월(1.110): 에이전트 대규모 업데이트

VS Code 1.110이 에이전트 기능을 대폭 강화했습니다. 대용량 출력 처리(임시 파일), 코딩·CLI·리뷰 에이전트 간 공유 메모리, 수동 /compact로 컨텍스트 압축, 응답 중 가이드, /fork로 병렬 세션, 라이프사이클 자동화 훅, 슬래시 커맨드 스킬, UI 검증용 브라우저 에이전트 도구, Copilot CLI 통합 등이 포함됩니다.

학습 자료

소프트웨어 엔지니어링 루프에서의 인간과 에이전트

Martin Fowler 팀의 Kief Morris가 소프트웨어 개발에서 인간의 위치를 세 단계로 정의합니다. ‘루프 밖’(바이브 코딩), ‘루프 안’(모든 코드 검토), ‘루프 위’(하네스 엔지니어링)로 구분하며, '루프 위’에서 에이전트의 작업 루프를 설계·관리하는 것이 최적이라고 주장합니다. 궁극적으로 에이전트가 스스로 하네스를 개선하는 ‘에이전틱 플라이휠’ 개념을 제시합니다.

AI 에이전트를 위한 일반적인 워크플로우 패턴과 사용 시점

Anthropic이 프로덕션에서 가장 많이 사용되는 세 가지 에이전트 워크플로우 패턴을 정리했습니다. 순차(Sequential)는 단계별 의존성이 있을 때, 병렬(Parallel)은 독립 작업을 동시에, 평가자-최적화자(Evaluator-Optimizer)는 반복적 품질 개선이 필요할 때 사용합니다. 가장 단순한 패턴부터 시작하고, 단일 에이전트로 충분하면 워크플로우를 만들지 말라고 조언합니다.

AI 지원 코딩에는 바이브 이상이 필요하다: 컨테이너와 샌드박스

Docker COO Mark Cavage와의 Stack Overflow 팟캐스트입니다. 강화된 컨테이너(Hardened Containers)와 에이전트 샌드박스의 중요성을 논의합니다. AI 에이전트가 마이크로서비스처럼 동작하기 시작하면서, 컨테이너가 에이전틱 워크플로우의 핵심 인프라가 되고 있다고 설명합니다. Docker Hardened Images는 무료로 제공됩니다.

내부 데이터를 위한 MCP 서버 구축 방법

TypeScript로 프로덕션급 MCP 서버를 구축하는 종합 튜토리얼입니다. 서버 스켈레톤부터 도구 설계 원칙, Bearer 토큰·OAuth 인증, 사용자별 데이터 접근 범위 제한, 내부 API 래핑, RAG 도구 구현, Docker 배포, Claude Desktop·커스텀 앱 연동까지 전 과정을 다룹니다. "MCP는 AI를 위한 USB-C 포트"라는 비유가 핵심입니다.

토큰 효율성 vs 인지 효율성: AI 에이전트를 위한 IaC 선택

Terraform HCL과 Pulumi TypeScript를 Claude Opus 4.6·GPT-5.2-Codex로 벤치마킹한 결과입니다. HCL은 생성 시 토큰을 21~33% 절약하지만, 리팩토링에서 Opus + Pulumi가 전체 파이프라인 비용을 41% 절감($0.146 vs $0.249)했습니다. Pulumi는 수리 0회로 5/5 배포 성공, Terraform은 매 실행마다 자가 수리가 필요했습니다. TypeScript의 타입 시스템이 AI에게 더 나은 오류 신호를 제공합니다.

프롬프트의 아키텍처 이해하기

효과적인 프롬프트의 4단계 구조를 설명합니다. 컨텍스트/역할(AI의 관점 정의), 목표/작업(구체적 요청), 세부사항/조건(요구사항과 제약), 출력 형식(응답 형태 지정)으로 구성됩니다. 모호한 지시, 한 번에 너무 많은 요청, 모순된 정보 제공 등 흔한 실수를 피하고, AI 결과를 복사-붙여넣기하지 말고 반드시 이해한 후 사용하라고 강조합니다.

분석 → 구현 → 성찰: AI 에이전트를 활용한 이슈 해결 실전 기법

AI 에이전트로 이슈를 해결하는 3단계 패턴을 제시합니다. 분석 단계에서 TDD 방식으로 실패하는 테스트를 작성하고, 구현 단계에서 Red/Green 루프로 반복하며, 성찰 단계에서 아키텍처 무결성·유지보수성·보안 관점으로 에이전트에 질문합니다. Copilot Instructions 설정, 컨텍스트 윈도우 관리, 디버그 뷰 활용 등 실용적 팁도 포함합니다.

인사이트

AI 에이전트 코딩 회의론자의 상세한 전향기

Max Woolf의 AI 코딩 에이전트 체험기를 Simon Willison이 소개합니다. YouTube 스크레이퍼부터 scikit-learn의 Rust 포팅까지 점점 야심찬 프로젝트를 시도하며, "Opus 4.6/Codex 5.3은 몇 달 전 모델보다 한 차원 뛰어나다"고 결론짓습니다. 이를 공개적으로 말하면 AI 과대광고처럼 들리지만 실제 경험이라는 점에서 의미 있는 증언입니다.

의도치 않은 오케스트레이터: 에이전틱 엔지니어링과 AI 주도 개발

Andrew Stellman이 AI 주도 개발(AIDD) 방법론을 소개합니다. Octobatch(21,000줄 Python)를 75시간 만에 구축하며, Claude와 Gemini에 각각 역할을 부여하고 검증·실패 복구를 관리했습니다. 핵심 교훈: LLM은 복잡성을 과대평가하고, 코드 삭제보다 추가를 선호하며, 아키텍처는 실패에서 나왔고, 개발 히스토리 자체가 데이터셋입니다.

Chip Huyen: 만들 것인가, 말 것인가 — AI가 모든 것을 할 수 있을 때

전 Netflix 연구원 Chip Huyen이 Pragmatic Summit에서 "AI가 거의 모든 것을 복제할 수 있다면 무엇이든 만들 이유가 있는가?"라고 질문합니다. 자신의 제품이 AI로 즉시 복제된 경험을 공유하며, "소프트웨어를 설명할 수 있다면 AI가 만들 수 있다"고 단언합니다. 진정한 가치는 문화적·행동적·도메인 특화 맥락에 있으며, 실행이 아닌 비전과 책임이 새로운 해자라고 주장합니다.

GitHub 데이터로 본 AI 도구의 '편의성 루프': 프로그래밍 언어 선택의 변화

GitHub Octoverse 데이터에 따르면 TypeScript가 전년 대비 66% 성장하여 GitHub 1위 언어(월간 기여자 264만 명)가 되었습니다. AI가 특정 기술을 쉽게 만들면 개발자가 몰리고, 더 많은 학습 데이터가 생기며, AI가 더 잘해지는 ‘편의성 루프’ 현상이 원인입니다. LLM 오류의 94%가 타입 체크 실패이며, 정적 타이핑 언어가 AI 시대에 유리합니다. Anders Hejlsberg는 "새 언어는 실질적으로 불리하다"고 경고합니다.

데이터센터 반란이 시작되었다: AI 인프라의 지역 정치학

하이퍼스케일러가 연간 $400B를 데이터센터에 투자하지만 AI 매출은 $20B에 불과한 20:1 비율입니다. 미시간 1.4GW 시설은 100만 가구 전력에 맞먹고, 주민 전기료가 25~30% 인상되었습니다. 2025년 4~6월에만 $98B 규모 프로젝트가 차단·지연되었으며, 애리조나·조지아에서 초당적 연합이 승인 관리를 축출했습니다. 유틸리티들이 분석가 예측의 2배를 건설 중이어서 ‘유령 인프라’ 우려도 제기됩니다.

추론 모델은 사고의 사슬을 제어하기 어려워한다, 그리고 그것은 좋은 일이다

OpenAI가 13개 프론티어 추론 모델의 CoT(Chain-of-Thought) 제어 가능성을 측정한 CoT-Control 평가를 발표했습니다. 13,000개 이상의 과제에서 모든 모델의 제어 가능성이 0.1%~15.4%로 매우 낮았습니다. GPT-5.2 Thinking은 금지어 “XOR” 사용을 피하려다 패닉하면서도 계속 사용하는 모습을 보였습니다. 낮은 제어 가능성은 CoT 모니터링 기반 안전 감시가 여전히 신뢰할 수 있음을 의미합니다.