Anthropic 사용자들, Claude AI 모델의 성능 저하를 보고

The Rising Storm: Anthropic Faces User Backlash Over Claude Model Performance

최근 몇 주간, AI 커뮤니티는 Anthropic의 주력 모델에 의존하는 파워 유저와 개발자들 사이에서 커지는 좌절감으로 들끓고 있습니다. X, Reddit 및 다양한 개발자 포럼을 통해 Claude Opus와 최근 도입된 Claude Code의 성능이 상당히 저하되었다는 주장이 잇따르고 있습니다. 높은 등급의 액세스를 위해 프리미엄 구독료를 지불하는 이 사용자들은 AI 거대 기업의 모델 업데이트에 대한 일관성과 투명성에 의문을 제기하고 있습니다.

Creati.ai에서는 이러한 논의를 면밀히 모니터링해 왔습니다. 단순한 일화적 소문으로 시작된 이야기는 이제 "모델 너핑(model nerfing)"에 대한 광범위한 논쟁으로 발전했습니다. 이는 AI 기업들이 계산 비용을 절감하고, 지연 시간을 최소화하거나, 더 제한적인 출력으로 동작을 유도하기 위해 고의로 모델의 성능을 저하시킨다는 의구심입니다.

The Nature of the Allegations

이러한 불만은 특정 분야에 국한되지 않습니다. 오히려 "가장 인간적"이고 유능한 AI를 구축한다는 Anthropic의 명성에 다각적인 도전을 제기하고 있습니다. 개발자들은 특히 Claude Opus가 이전 버전에 비해 성능이 떨어진다고 믿는 몇 가지 핵심 영역을 지적합니다.

파워 유저들이 식별한 주요 우려 사항은 다음과 같습니다:

코딩 효율성: 개발자들은 복잡한 리팩토링 능력을 인정받았던 Claude Code가 이제 더 많은 구문 오류를 생성하며, 다중 파일 아키텍처 추론에 어려움을 겪고 있다고 보고합니다.
추론 능력: 복잡한 논리 퍼즐이나 긴 형식의 학술적 글쓰기 작업을 수행하는 사용자들은 모델이 더 "게을러졌다"고 말하며, 이전에는 반복적이고 사려 깊은 해결책을 제시하던 것과 달리 이제는 피상적인 답변만을 제공한다고 지적합니다.
지시사항 준수: 모델이 맞춤형 시스템 프롬프트에 덜 순응하게 되었으며, 부정적인 제약을 자주 무시하거나 역할극 위주의 작업 중에 캐릭터를 이탈하는 경우가 많아졌다는 의견이 지배적입니다.

Comparative Impact on Workflows

이러한 우려의 규모를 파악하기 위해, 우리는 모델 동작의 변화에 대해 커뮤니티로부터 받은 피드백을 분류했습니다.

성능 측면	3월 이전 관찰	현재 사용자 경험
코드 완성	최소한의 컨텍스트로도 매우 정확함	빈번한 환각 현상 및 구문 버그 발생
논리적 추론	심층적이고 다단계적인 사고 과정	피상적이고 순환적인 논리
프롬프트 준수	사용자가 정의한 제약을 엄격히 준수	스타일적 경계의 빈번한 "망각"
작업 처리량	부하 상태에서도 일관된 성능	피크 시간대 출력 품질의 변동성

The Shadow of the "Compute Crunch"

이번 반발의 핵심에는 "컴퓨트 크런치(compute crunch)" 이론이 있습니다. 고성능 GPU, 특히 NVIDIA의 H100에 대한 전 세계적 수요가 사상 최고치를 기록하면서, 업계 분석가들은 Anthropic과 같은 기업들이 추론 비용을 최적화해야 하는 엄청난 압박을 받고 있다고 시사합니다.

비판론자들은 구독료를 인상하지 않고 수익률을 유지하기 위해 공급업체들이 "더 무거운" 모델 가중치를 증류(distilled) 또는 양자화(quantized) 버전으로 은밀히 교체하고 있을 수 있다고 주장합니다. 이러한 버전은 비용 효율적이고 실행 속도는 빠르지만, 파워 유저들이 의존해 온 미묘한 성능과 신뢰성을 잃게 되는 경우가 많습니다.

그러나 기술적 현실은 결코 간단하지 않습니다. 이러한 우려에 대해 질문을 받았을 때, 업계 전문가들은 AI 모델이 본질적으로 "비결정론적"이라는 점을 강조하곤 합니다. 기본 인프라에 대한 업데이트, 학습 데이터 새로 고침 주기, 심지어 안전 가드레일 구현의 미세한 변화까지도 개발자가 정량화하기 어려운 방식으로 모델의 "성격"과 효능에 의도치 않게 영향을 미칠 수 있습니다.

Transparency and the Trust Deficit

이 문제의 핵심은 엔지니어링 성능뿐만 아니라 기업 커뮤니케이션의 심각한 격차에 있을 수 있습니다. 역사적으로 "헌법적 AI(Constitutional AI)"와 안전의 챔피언임을 자처해 온 Anthropic은 이제 투명성에 대한 질문에 직면해 있습니다.

특정 모델 "체크포인트"에 대한 버전 관리가 부재하다는 것은, 사용자들이 자신의 특정 사용 사례에서 더 나은 성능을 보였던 이전 버전의 모델로 되돌릴 방법이 없다는 것을 의미합니다. 개발자가 Claude Opus의 동작을 기반으로 파이프라인을 구축할 때, 그들은 해당 동작이 안정적이기를 기대합니다. 발밑의 "블랙박스"가 흔들리면 엔터프라이즈급 도입에 필요한 신뢰는 무너져 내리기 시작합니다.

Recommended Steps for Anthropic

개발자 커뮤니티의 신뢰를 회복하기 위해, 파워 유저들은 다음과 같은 조치를 점점 더 강력하게 요구하고 있습니다:

버전 관리 제공: API 사용자를 위해 이전 모델 체크포인트에 대한 액세스 허용.
더 명확한 변경 로그: 모델 가중치나 안전 필터가 업데이트될 때 상세한 기술 보고서 제공.
일관성 벤치마크: 모델 변경과 병행하여 실시간으로 업데이트되는 추론 작업에 대한 공개적이고 검증 가능한 벤치마크 게시.

Looking Ahead: The Future of AI Model Stability

차세대 거대언어모델(LLM)을 바라보며, 이번 에피소드는 전체 산업에 있어 중요한 분기점이 될 것입니다. AI의 "허니문 단계"는 거의 끝났다고 볼 수 있습니다. 개발자와 파워 유저는 초기 단계의 "와우 효과(wow factor)"를 넘어 모델을 중요한 소프트웨어 의존성으로 대하기 시작했습니다.

Anthropic이 리더십 지위를 유지하려면 안전과 비용 효율성에 대한 약속과 실질적인 신뢰성 필요성 사이에서 균형을 맞춰야 합니다. 인지된 성능 저하가 기술적 최적화의 결과이든, 변화하는 안전 우선순위의 결과이든 한 가지는 확실합니다. AI 커뮤니티는 더 이상 "블랙박스" 업데이트에 만족하지 않습니다. 그들은 의사 결정 과정에 참여하기를 원하며, 자신들이 의존하는 도구가 그 도구가 구축된 기준을 유지하기를 기대합니다.

Creati.ai는 앞으로도 이러한 모델의 성능을 계속 추적하여, 기술적 편차(technical drift)와 의도적인 모델 최적화를 구별하는 데 필요한 객관적인 데이터를 독자들에게 제공할 것입니다. 빠르게 변화하는 파운데이션 모델 환경 속에서 Anthropic 및 경쟁사들의 추가 업데이트를 분석할 예정이니 계속 지켜봐 주시기 바랍니다.