OpenAI, 구글, 클로드 다 마찬가지... 입력 길이 길어지면 생각보다 훨씬 더 성능 떨어진다 - 어떻게 대응해야 하나 | 안됭공학

dimohy · 9월 6, 2025, 5:28오전

LLM 컨텍스트 길이와 성능 저하 현상 분석

주요 발견사항

컨텍스트 로트(Context Rot) 현상

프로마에서 발표된 흥미로운 리포트: “Context how increasing 인풋 토큰 임팩트 LM 퍼포먼스”
핵심 발견: 입력하는 프롬프트가 길어질수록 LLM 성능에 부정적 영향을 미침
정량적 측정 결과: LM의 성능이 입력길이가 길어질수록 일관성을 유지하지 못하고 예측 불가능하게 저하되는 현상 발견

현재 컨텍스트 윈도우 현황

대폭 확장된 컨텍스트 윈도우: 200K, 128K, 200K, 심지어 1백만 토큰까지 지원
GPT-4: 25K까지 지원
라마 스카웃: 10백만 토큰 지원
과거 대비 개선: 과거에는 쪼개서 처리했던 시절에서 한꺼번에 처리 가능한 시대로 발전

실험 결과 및 성능 분석

주요 모델별 성능 저하 패턴

테스트 대상 모델:

Claude Sonnet 4
GPT-4.1
Qwen 3 (32억 파라미터)
Gemini 2.5 Flash

공통 현상: 토큰 수가 증가할수록 모든 모델에서 일관되게 성능 저하

Claude 4: 상대적으로 양호하나 여전히 길이에 따라 성능 저하
10^4 토큰 수준: 모든 모델에서 굉장히 많은 성능 저하 관찰

컨텍스트 윈도우의 한계

처리 메커니즘: GPU에서 프롬프트를 처리할 때 특정 윈도우, 특정 영역에 있는 것만 이해 가능
토큰의 이해: 단어보다 더 세분화된 LLM이 이해하는 기본 단위
벡터 변환: 모든 토큰이 수천 차원의 벡터로 변환되어 저장

벤치마크 분석

Needle in a Haystack 벤치마크의 한계

기본 개념: 건초더미에서 바늘 찾기 - 많은 정보에서 특정 정보를 찾아내는 능력 테스트
벤치마크 점수: 상당한 개선 효과 보임
실제 한계점:
단순 검색 과제에 치중
잘 알려진 문장을 바늘로 제시하고 관련 없는 긴 문서에서 찾아내는 방식
직접적인 단어 일치 능력 평가에 위주
실제 의미론적 이해를 요구하는 복잡한 과제 대표성 부족

새로운 실험 방법론

과제 복잡성 일정 유지 + 입력 길이 변화:

기존: “What was the best writing advice I got from my college classmate?”
디스트랙터 추가: “I think the best writing tip I received it from my colleague professor was to write”
결과: 컬리지 클래스메이트에 대한 질문에 컬리지 프로페서로 혼동 유발

상세 실험 결과

디스트랙터 영향 분석

파란색 라인: High Similarity (높은 유사성)
기타 색상: Low Similarity (낮은 유사성)
실험 결과:
디스트랙터 0개: 기본 성능
디스트랙터 1개: 성능 저하 시작
디스트랙터 다수: 엄청난 성능 저하

모델별 디스트랙터 취약성

GPT 모델: 디스트랙터에 굉장히 취약
Qwen: 마찬가지로 취약성 보임
Claude: 상대적으로 안정적인 성능
Gemini: 평균적인 수준
중국 모델 Cohere: 길이 증가에 따라 지속적 성능 저하

유사성과 성능의 상관관계

코사인 유사성 계산 활용
짧은 입력길이: Needle in a Haystack에서 양호한 성능
긴 입력길이: 성능 저하 현상
책 단위 입력: 유사한 내용이 많으면 찾을 확률 현저히 감소

모델별 상세 성능 비교

Claude 계열

Claude 3.5: 그나마 양호한 성능 유지
Claude Opus: 최근 버전들이 상대적으로 버틸 수 있으나 여전히 성능 저하 존재

GPT 계열

전반적 상태: 완전히 망가진 상태
초반부터: 성능이 급격히 떨어지는 패턴

Gemini 계열

특이 현상: 일부 구간에서 역주행하는 경우 발견
최종 결과: 끝부분에서는 여전히 성능 저하

Qwen 계열

전반적 성능: 다른 모델들과 마찬가지로 전반적 성능 저하

중요한 실용적 시사점

주의사항

성능 비균일성: LLM 길이가 길어질수록 일관된 성능 유지 불가
단순 검색도 취약: 비판적인 검색이나 텍스트 복사 같은 과제에서도 동일한 현상 관찰
디스트랙터 영향: 정확한 단어가 존재해도 찾지 못하는 경우 발생

실용적 팁

정보 제시 방식 중요성: 관련 정보 존재 여부뿐만 아니라 정보 제시 방식이 성능에 직접적 영향
프롬프트 엔지니어링에서 컨텍스트 엔지니어링으로: 모델의 컨텍스트 윈도우를 고려한 입력 설계 필요
자료 선택의 중요성: 어떤 자료를 사용하느냐에 따라 성능에 상당한 영향

미래 발전 방향

새로운 벤치마크 필요성

현재 한계: Needle in a Haystack보다 훨씬 더 종합적인 벤치마크 개발 필요
평가 방향: LLM 모델들을 더 정확하게 평가할 수 있는 체계적 벤치마크 구축

컨텍스트 엔지니어링의 중요성

패러다임 전환: 프롬프트 엔지니어링에서 컨텍스트 엔지니어링으로
성능 최적화: 컨텍스트 윈도우 특성을 고려한 입력 설계가 성능에 직접적 영향

결론

이 연구는 LLM의 컨텍스트 길이 증가가 단순히 더 많은 정보 처리 능력을 의미하지 않음을 보여줍니다. 실제로는 길이 증가에 따른 체계적인 성능 저하 현상이 존재하며, 이는 AI 및 향후 AGI, ASI 발전에 있어 중요한 한계점으로 작용할 수 있습니다. 따라서 단순히 더 긴 컨텍스트를 제공하는 것보다는 효율적인 컨텍스트 활용 방법론 개발이 필요합니다.