GPT-5 시스템 카드 추가 사항: GPT-5-Codex | OpenAI

https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/


GPT-5-Codex 시스템 카드 부록

개요

GPT-5-Codex는 Codex 환경에서 에이전틱 코딩에 최적화된 GPT-5 버전입니다. 이 모델은 실제 코딩 작업에서 강화학습을 통해 훈련되었으며, 인간의 스타일과 PR 선호도를 반영하는 코드를 생성하고 테스트 통과까지 반복적으로 수행합니다.

사용 가능한 플랫폼:

  • Codex CLI (로컬 터미널/IDE)

  • Codex IDE 확장

  • Codex 웹 (클라우드)

  • GitHub

  • ChatGPT 모바일 앱

1. 기본 모델 안전성 평가

1.1 금지 콘텐츠 평가

GPT-5-Codex는 Codex CLI, IDE 확장, 클라우드 환경, GitHub 작업에 특화되어 구축되었으며 다양한 도구 사용을 지원합니다.

Production Benchmarks 평가 결과:

평가 항목 GPT-5-Codex GPT-5-Thinking OpenAI o3
비폭력적 혐오 0.926 0.883 0.842
개인정보 0.922 0.877 0.830
괴롭힘/위협 0.719 0.755 0.666
성적/착취적 0.958 0.931 0.939
성적/미성년자 0.945 0.958 0.957
극단주의 0.946 0.954 0.920
혐오/위협 0.859 0.822 0.677
불법/비폭력 0.858 0.790 0.717
불법/폭력 0.935 0.912 0.829
자해/의도 0.958 0.950 0.824
자해/지침 0.919 0.955 0.864

중요한 성과: GPT-5-Codex는 모든 기본 안전성 평가에서 OpenAI o3를 능가하는 성능을 보였습니다.

1.2 탈옥 공격 방어

StrongReject 벤치마크를 사용한 탈옥 공격 방어 평가:

평가 항목 GPT-5-Codex GPT-5-Thinking OpenAI o3
불법/비폭력 범죄 프롬프트 0.992 0.995 0.985
폭력 프롬프트 0.997 0.999 0.992
남용/허위정보/혐오 프롬프트 0.993 0.999 0.995
성적 콘텐츠 프롬프트 0.995 0.995 0.991

2. 모델별 위험 완화 조치

2.1 유해 작업 방지

2.1.1 위험 설명

AI 기반 소프트웨어 엔지니어링의 악의적 사용(예: 멀웨어 개발) 방지가 중요하며, 동시에 커널 엔지니어링과 같은 합법적 사용 사례를 저해하지 않도록 설계되었습니다.

2.1.2 완화 조치

안전 훈련:

  • 기존 ChatGPT 정책과 안전 훈련 데이터를 확장

  • Codex를 위한 멀웨어 개발 관련 작업 거부를 위한 상세 정책 개발

  • 합성 데이터 파이프라인을 통한 다양한 멀웨어 관련 시나리오 생성

  • 고위험 요청 거부, 방어적 콘텐츠만 제공, 이중 사용 시나리오 적절 처리 훈련

멀웨어 거부 평가 결과:

평가 항목 GPT-5-Codex Codex-1
멀웨어 거부 (골든 세트) 1.000 0.980

2.2 프롬프트 인젝션 방어

2.2.1 위험 설명

프롬프트 인젝션은 공격자가 악의적 지침을 주입하여 모델의 동작을 조작하는 공격입니다. Codex의 네트워크 호출과 웹 검색 기능으로 인해 공격 표면이 확장됩니다.

잠재적 위험:

  • 데이터 유출 (사용자 코드베이스 누출)

  • 유해한 코드 변경 (백도어 삽입)

  • 데이터 파괴 (파일/데이터베이스 삭제)

2.2.2 완화 조치

안전 훈련:

  • Instruction Hierarchy 프레임워크 기반 새로운 안전 훈련 데이터 생성

  • Codex 환경에 특화된 프롬프트 인젝션 평가 도구 개발

평가 유형:

  • 현재 코딩 작업 종료 시도

  • 특정 행동 지시 (예: “HACKED!” 출력)

코딩 중심 프롬프트 인젝션 평가 결과:

평가 항목 GPT-5-Codex Codex-1
Codex 환경에서 프롬프트 인젝션 공격 성공적 무시 0.980 0.980

3. 대비 체계 (Preparedness)

3.1 생물학 및 화학 영역

GPT-5 시스템 카드에서 설명한 대로 높은 위험(High risk) 등급으로 분류되며, GPT-5와 동일한 보호 조치가 적용됩니다.

3.2 사이버보안 영역

GPT-5-Codex는 CTF(Capture-the-Flag)와 사이버 레인지 평가에서 상당한 개선을 보였으나, 사이버보안 영역에서 높은 능력(High capability) 임계값에는 도달하지 않았습니다.

적용된 보호 조치:

  • 잠재적 피해에 대한 추가 모니터링

  • 고객 대상 보안 운영 가이드 제공

보안 가이드: Codex security guide

4. 제품별 위험 완화 조치

4.1 에이전트 샌드박스

4.1.1 클라우드 환경

  • OpenAI에서 호스팅하는 격리된 컨테이너 환경

  • 기본적으로 네트워크 액세스 비활성화

  • 사용자 호스트 시스템과의 상호작용 차단

4.1.2 로컬 환경

MacOS:

  • Seatbelt 정책을 사용한 샌드박싱

Linux:

  • seccomp와 landlock 조합 활용

기본 샌드박싱 기능:

  • 네트워크 액세스 비활성화

  • 현재 작업공간으로 파일 편집 제한

  • 사용자가 필요시 전체 액세스 승인 가능

4.2 네트워크 액세스 관리

4.2.1 점진적 배포 접근법

초기에는 네트워크가 완전히 비활성화된 샌드박스 환경으로 출시했으며, 사용자 피드백에 따라 유연성을 제공하기로 결정했습니다.

4.2.2 사용자 제어 가능한 네트워크 설정

  • 프로젝트별 네트워크 액세스 설정

  • 사용자 정의 허용 목록/차단 목록 제공

  • 신뢰할 수 있는 도메인으로 액세스 제한 권장

네트워크 액세스 위험:

  • 프롬프트 인젝션

  • 자격 증명 유출

  • 라이선스 제한이 있는 코드 사용

주의사항:

  • 출력 내용을 신중히 검토

  • 신뢰할 수 있는 도메인으로 액세스 제한

  • 안전한 HTTP 메서드만 사용

참고 자료

[1] A. Souly, Q. Lu, D. Bowen, T. Trinh, E. Hsieh, S. Pandey, P. Abbeel, J. Svegliato, S. Emmons, O. Watkins, et al., “A strongreject for empty jailbreaks,” arXiv preprint arXiv:2402.10260, 2024.

[2] E. Wallace, K. Xiao, R. Leike, L. Weng, J. Heidecke, and A. Beutel, “The instruction hierarchy: Training llms to prioritize privileged instructions.” [2404.13208] The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions, 2024.