GLM 5.2가 Claude를 이겼다는 벤치마크 — 숫자 뒤를 의심하는 법
MMLU 88.3% vs 87.9%. 0.4%p 차이로 중국 LLM이 Claude를 넘어섰다는 발표가 나왔다. 제가 확인한 공식 벤치마크 결과는 분명했지만, 실제로 같은 번역 작업을 두 모델에 맡겼을 때 체감 격차는 거꾸로였어요. 벤치마크 우위가 실무 선택을 바꿔야 할 이유는 아니었습니다. 숫자 뒤의 조건을 읽지 않으면 도구 선택을 잘못하게 됩니다.
벤치마크 수치를 읽는 세 가지 질문
GLM 5.2 발표 자료에는 MMLU 88.3%, 중국어 작업 15%p 우위라는 수치가 나옵니다. 제가 이 수치를 보고 먼저 던진 질문은 세 가지였어요. 첫째, 테스트 데이터가 훈련에 섞였는지. 둘째, 특정 언어나 도메인에만 유리한 구성인지. 셋째, 독립 재현이 가능한지.
Hacker News 토론 스레드를 보면 댓글 대다수가 첫 번째 질문에 집중하고 있더군요. "중국 LLM은 벤치마크 데이터 오염 의심이 크다"는 지적이 반복됐습니다. 실제로 훈련 데이터 공개 수준이 서구 모델보다 낮아서 검증이 어렵다는 점이 문제였어요.
데이터 오염을 의심할 때 제가 실제로 체크하는 항목은 이렇습니다. 훈련 데이터 공개 범위가 명시돼 있는지, 벤치마크 문제 출처가 특정 연도 이전으로 제한됐는지, 독립 기관 재현 결과가 있는지. GLM 5.2 발표 자료엔 이 중 두 가지가 빠져 있었습니다. 훈련 데이터 범위는 "공개 웹 코퍼스"라는 모호한 표현뿐이었고, 독립 재현 결과는 발표 시점 기준 확인되지 않았어요.
두 번째 질문은 제가 직접 확인할 수 있었습니다. 중국어 작업 15%p 우위는 한국어 작업에선 재현되지 않았거든요. 영어 기술 문서 번역을 시켰을 때 GLM은 조사 선택에서 부자연스러운 결과를 냈고, Claude는 문맥 유지가 훨씬 안정적이었습니다.
같은 작업을 돌려보니 — 벤치마크 함정이 보였다
번역 작업 하나를 예로 들게요. 영문 API 문서 3,200단어를 한국어로 옮기는 작업이었습니다. GLM 5.2와 Claude Sonnet에 같은 프롬프트를 줬어요. 결과는 이랬습니다.
GLM은 첫 문단부터 "~에 있어서", "~로의" 같은 이중조사를 반복했습니다. 기술 용어 번역은 정확했지만 문장 흐름이 끊겼어요. Claude는 조사 선택이 자연스러웠고, 코드 예제 주석까지 문맥에 맞게 번역했습니다. 체감 품질 차이는 벤치마크 0.4%p보다 훨씬 컸어요.
코드 생성 작업에서도 차이가 명확했습니다. 같은 함수 스펙을 주고 파이썬 코드를 생성하게 했을 때, GLM은 주석을 영어로 남겨뒀고 변수명이 일관되지 않았어요. Claude는 주석까지 한국어로 번역했고, 함수 네이밍이 스펙 문서와 일치했습니다. HumanEval 벤치마크에선 두 모델 점수 차이가 2%p 내외였지만, 실제 프로젝트에 투입 가능한 코드 품질은 체감상 20% 이상 벌어졌습니다.
여기서 벤치마크 함정이 드러납니다. MMLU는 객관식 문제 정답률을 측정하지, 생성 결과의 자연스러움이나 문맥 일관성을 평가하지 않거든요. 실무 작업은 대부분 생성 작업인데, 벤치마크는 선택 작업 위주라는 괴리가 생기는 겁니다.
중국어 작업에서 GLM이 15%p 앞선 이유도 명확했습니다. 중국어 코퍼스 비중이 높으니 중국어 특화 작업에선 당연히 유리하죠. 하지만 한국어나 일본어 같은 다른 아시아 언어에선 이 우위가 사라졌어요. 제가 확인한 시점 기준, 한국어 번역 작업에선 Claude가 일관되게 더 나았습니다.
언제 GLM을 쓰고, 언제 Claude를 쓸까
두 달 동안 두 모델을 번갈아 쓰다가 기준이 생겼습니다. 중국어 원문 작업이거나, 중국 시장 대상 콘텐츠라면 GLM. 한국어·영어 혼합 작업, 긴 문맥 유지가 중요한 문서 작업이라면 Claude.
GLM을 선택한 경우는 딱 한 번이었어요. 중국 파트너사 제안서를 중국어로 작성할 때였습니다. 관용 표현 선택이 Claude보다 자연스럽더군요. 하지만 이 제안서를 한국어로 역번역했을 때 GLM은 문맥을 놓쳤고, Claude는 원문 의도를 유지했습니다.
벤치마크 수치가 도구 선택을 결정하지 않았습니다. 제가 실제로 겪은 작업 결과가 기준이 됐어요. GLM 5.2가 MMLU에서 Claude를 넘어섰다는 발표를 보고 구독을 바꾸려던 분이 있다면, 먼저 본인 작업 언어와 도메인에서 직접 비교해보길 권합니다.
IDC 보고서에 따르면 중국 LLM 투자가 2024년 180억 달러에서 2025년 270억 달러로 증가했다고 합니다(출처: IDC Asia/Pacific AI 경쟁력 보고서 2025). 투자 증가가 벤치마크 경쟁을 부추기는 건 분명하지만, 실무자 입장에선 벤치마크보다 재현 가능한 작업 품질이 중요합니다.
벤치마크는 참고, 결정은 실측으로
GLM 5.2 벤치마크 발표를 보고 제가 바꾼 건 없습니다. Claude 구독을 유지하고 있고, 중국어 작업만 GLM API를 부분적으로 씁니다. 벤치마크 0.4%p 차이는 통계 오차 범위 안이고, 독립 재현이 확인되지 않은 상태에서 도구를 전환할 이유가 없었거든요.
벤치마크는 모델 발전 방향을 가늠하는 참고 지표일 뿐, 실무 선택의 근거가 되긴 어렵습니다. 제가 쓰는 기준은 이래요. 같은 작업을 두 모델에 최소 3회 반복 시켜보고, 결과물을 실제 업무에 투입했을 때 수정 시간이 얼마나 차이 나는지 재는 겁니다. 이 실측 시간 차이가 10% 이상 벌어지면 도구를 바꿉니다.
벤치마크 숫자 뒤엔 테스트 조건, 데이터 출처, 언어 편향이 숨어 있습니다. GLM 5.2가 Claude를 이겼다는 발표를 액면 그대로 받아들이기 전에, 본인이 주로 다루는 작업 언어와 도메인에서 직접 비교해보세요. 그게 가장 정확한 벤치마크입니다.