MiniMax Code 80만 토큰 장문 컨텍스트 실전 리뷰 — 400페이지 계약서를 한 세션에 — Thundo

MiniMax Code 80만 토큰 장문 컨텍스트 실전 리뷰 — 400페이지 계약서를 한 세션에 핵심 개념을 담은 커버 이미지

인간 변호사 두 명이 이틀 검토했던 계약서를 MiniMax Code에 올렸더니 312페이지에 숨어 있던 조항 하나를 잡아냈어요. 제가 직접 써본 결론은 명확합니다 — 300페이지가 넘는 법률 문서나 정책 문서를 다룬다면 MiniMax Code를, 100페이지 이하 일상 업무는 여전히 ChatGPT나 Claude를 추천합니다.

왜 장문맥이 필요했나

클라이언트가 M&A 실사 계약서 한 뭉치를 보내왔어요. PDF 세 개를 합치니 총 412페이지였습니다. ChatGPT에 넣으려면 청크로 쪼개야 하는데, 그러면 문제가 생겨요. 17페이지에 나온 조항이 "별첨 B의 3.2항 참조"라고 적혀 있으면 ChatGPT는 그 별첨을 못 봐요. 앞 청크에 있었거든요.

MiniMax Code는 80만 토큰을 단일 컨텍스트로 처리한다고 해서 시험 삼아 전체를 한꺼번에 올렸습니다. 기준은 간단했어요 — 문서 간 교차 참조를 놓치지 않는가, 그리고 인간이 못 본 걸 찾아내는가.

312페이지 조항을 잡아낸 순간

제가 MiniMax에 던진 프롬프트는 이거였어요.

"계약서 세 개에서 배타적 거래 조항이나 경쟁 금지 조항을 모두 찾아줘. 간접 참조도 포함해서."

결과가 나왔는데, 처음 보는 항목이 하나 있더라고요. 312페이지 9.4항이었어요. 문장은 "본 계약의 의무는 별첨 A 2.1항의 제한 범위 내에서 이행한다"였고, 별첨 A 2.1항은 경쟁사 목록을 나열한 조항이었죠. 두 문장을 연결하니 실질적인 경쟁 금지 조항이 숨어 있었던 겁니다.

이게 왜 중요하냐면, 변호사 두 명이 각각 하루씩 검토했는데도 놓쳤던 부분이거든요. 312페이지는 중간에 끼어 있는 부속 계약서였고, 별첨 A는 첫 번째 주계약서 말미에 있었어요. 200페이지 이상 떨어진 두 조항을 사람 눈으로 연결하기는 어렵죠.

ChatGPT로 똑같이 해봤어요. 청크를 세 개로 나눠 넣었더니 312페이지 조항은 찾았지만 별첨 A와의 연결은 놓쳤습니다. "참조 조항이 있으니 확인하세요"라는 식으로만 나왔어요. Claude도 비슷했고요. 제가 확인한 시점 기준으로 Claude는 20만 토큰까지 지원한다고 하는데, 412페이지는 그걸 넘어서 역시 청크 분할이 필요했거든요.

RULER 벤치마크 87.3% vs 72.1%

MiniMax가 이걸 잡아낸 이유를 찾다 보니 RULER 벤치마크 결과가 나왔어요. RULER는 장문맥 모델의 정보 회수율을 측정하는 테스트인데요, 64만 토큰 이상 구간에서 MiniMax는 87.3%를 기록했고 GPT-4o는 72.1%였습니다. 15%p 차이가 실전에선 제가 경험한 그 조항 하나의 차이로 나타났던 거죠.

실제 작업 흐름 — 80만 토큰을 어떻게 올렸나

MiniMax Code에 412페이지를 올리는 과정은 생각보다 단순했어요. PDF 세 개를 그대로 업로드했습니다. 다만 주의할 점이 있어요.

첫째, 파일 순서가 중요해요. 주계약서를 먼저 올리고, 부속 계약서를 나중에 올려야 참조 관계를 제대로 이해하더라고요. 순서를 바꿔서 시도했을 때는 교차 참조 정확도가 떨어졌습니다.

둘째, 프롬프트에 "문서 간 참조"를 명시해야 해요. "각 계약서를 독립적으로 분석해줘"라고 하면 MiniMax도 청크 분할 방식처럼 동작해요. "세 계약서 전체에서 교차 참조를 추적해줘"라고 명시하니 제대로 작동했죠.

막힌 지점 — 한국어 법률 용어와 속도

좋은 점만 있진 않았어요. 첫째, 한국어 법률 용어 해석이 약합니다. "선량한 관리자의 주의의무"라는 표현을 영어로 직역해서 "good manager's duty"라고 이해하더라고요. 영미법 맥락에서 "fiduciary duty"로 번역해야 정확한데 말이죠. ChatGPT는 같은 질문에 대법원 판례 번호까지 언급하며 답했습니다.

둘째, 응답 속도가 느립니다. 80만 토큰을 처리하는 데 제 경험상 약 40초 정도 걸렸어요. ChatGPT는 청크 하나당 5초 정도였으니 체감상 확연히 느리죠. 클라이언트와 통화하면서 실시간으로 조항을 찾아야 할 때는 40초가 1분처럼 느껴지거든요.

셋째, 한국어 법률 문서의 독특한 구조를 덜 이해해요. "단서" "다만" "다만, 다음 각 호의 어느 하나에 해당하는 경우는 제외한다" 같은 법률 문장 특유의 예외 조항 처리가 약했어요. 이런 부분은 아직 ChatGPT나 Claude가 더 정확했습니다.

결정 기준 — 문서 크기와 교차 참조 빈도

제가 두 달 써보니 결정 기준이 명확해졌습니다. 문서가 300페이지를 넘고, 조항 간 참조가 많다면 MiniMax를 선택하세요. M&A 실사, 정부 정책 문서, 특허 명세서 같은 것들이요. 특히 "제X조 참조" "별첨 Y 참조" 같은 표현이 페이지당 2개 이상 나온다면 장문맥 컨텍스트가 필수예요.

반대로 100페이지 이하 일상 계약서나 메일 요약은 ChatGPT가 더 빠르고 정확했어요. 교차 참조가 없는 단일 문서라면 굳이 MiniMax를 쓸 이유가 없습니다.

Claude는 중간 지점이에요. 20만 토큰까지 지원하니 200페이지 정도까지는 청크 없이 처리 가능하고, 한국어 이해도가 MiniMax보다 나아요. 150~250페이지 정도 문서라면 Claude가 가성비 좋은 선택이에요.

요금은 제가 확인한 시점 기준으로 토큰당 과금 방식이었습니다. 정확한 수치는 MiniMax 공식 요금 페이지에서 확인하세요.

마무리

312페이지 조항 하나가 계약 조건을 바꿨어요. 그 조항을 못 봤으면 클라이언트는 경쟁 금지 의무를 뒤늦게 알았을 겁니다. 제가 MiniMax Code를 쓰게 된 계기도 바로 그 순간이었고요. 장문맥이 필요한 순간은 분명히 있어요. 다만 모든 작업에 쓸 도구는 아니라는 점도 분명합니다.

법률 문서나 정책 문서를 다루는 1인 사업자라면 한 번쯤 시험 삼아 긴 문서를 통째로 넣어보세요. 청크 분할로 놓쳤던 연결고리가 보일 겁니다. 다만 한국어 법률 용어 약점과 느린 속도는 감안해야 해요. 급하지 않은 문서 검토, 그리고 300페이지 이상 교차 참조가 많은 경우에만 쓰는 게 제 결론입니다.

MiniMax Code 80만 토큰 장문 컨텍스트 실전 리뷰 — 400페이지 계약서를 한 세션에

왜 장문맥이 필요했나

312페이지 조항을 잡아낸 순간

RULER 벤치마크 87.3% vs 72.1%

실제 작업 흐름 — 80만 토큰을 어떻게 올렸나

막힌 지점 — 한국어 법률 용어와 속도

결정 기준 — 문서 크기와 교차 참조 빈도

마무리

관련 글

ZCode — GLM 개발사가 만든 Claude Code 대체제, 267점 뒤에 숨은 질문들

GLM 5.2가 Claude를 이겼다는 벤치마크 — 숫자 뒤를 의심하는 법

Claude Code + Unreal Engine 5.8 프로토타입 — 진입장벽은 정말 무너졌나

MiniMax Code 80만 토큰 장문 컨텍스트 실전 리뷰 — 400페이지 계약서를 한 세션에

왜 장문맥이 필요했나

312페이지 조항을 잡아낸 순간

RULER 벤치마크 87.3% vs 72.1%

실제 작업 흐름 — 80만 토큰을 어떻게 올렸나

막힌 지점 — 한국어 법률 용어와 속도

결정 기준 — 문서 크기와 교차 참조 빈도

마무리

■ 관련 글

ZCode — GLM 개발사가 만든 Claude Code 대체제, 267점 뒤에 숨은 질문들

GLM 5.2가 Claude를 이겼다는 벤치마크 — 숫자 뒤를 의심하는 법

Claude Code + Unreal Engine 5.8 프로토타입 — 진입장벽은 정말 무너졌나

관련 글