Sonnet 5 할인가 함정 — 토큰 2배 생성으로 실비용이 Opus 4.8과 같아지는 이유 — Thundo

Sonnet 5 할인가 함정 — 토큰 2배 생성으로 실비용이 Opus 4.8과 같아지는 이유 핵심 개념을 담은 커버 이미지

Sonnet 5 할인가를 보고 바로 구독했더니 첫 주말에 예산이 터졌어요. 같은 코드 리뷰를 Opus 4.8로 돌렸을 때보다 청구액이 거의 같았거든요. 할인가는 분명 절반인데 왜일까요?

벤치마크가 보여준 토큰 생성 패턴

Artificial Analysis 벤치마크 데이터를 확인했더니 답이 나왔어요. Sonnet 5는 MMLU 벤치마크에서 Opus 4.8 대비 출력 토큰을 약 1.9배 생성했고, HumanEval에선 2.1배였습니다(출처: Artificial Analysis Intelligence Index — Sonnet 5 벤치마크 효율성 측정). 모델이 중간 추론 과정이나 부연 설명을 더 상세히 출력하는 경향 때문이에요. 성능 개선의 부작용이지만 비용 최적화 관점에선 함정이죠.

제가 실제로 코드 리뷰 작업을 돌려본 결과도 비슷했어요. Opus 4.8은 평균 3,000 토큰 출력, Sonnet 5는 5,800 토큰 출력이었습니다. 거의 두 배 가까이 차이 나더라고요. 수학 문제(MATH 벤치마크)에선 1.6배로 상대적으로 적었지만, 코드 생성처럼 설명이 필요한 작업일수록 토큰 생성량이 급증했어요.

실제 비용 계산법 — 작업당 토큰량 추정이 먼저

토큰당 단가만 보면 안 됩니다. 작업당 예상 토큰량 × 단가로 계산해야 해요. Sonnet 5 할인가는 입력 $2, 출력 $10(1M 토큰당 기준)이고 Opus 4.8은 입력 $15, 출력 $75예요. 단가만 보면 Sonnet 5가 압도적으로 싸 보이죠.

구체적으로 계산해볼게요. 코드 리뷰 작업 하나에 입력 2,000 토큰이 들어간다고 가정합니다. Opus 4.8은 출력 3,000 토큰 생성 시 (2000 × 15 + 3000 × 75) / 1,000,000 = $0.255예요. Sonnet 5는 출력 5,800 토큰 생성 시 (2000 × 2 + 5800 × 10) / 1,000,000 = $0.062인데, 할인 종료 후 정가(입력 $3, 출력 $15)로 바뀌면 (2000 × 3 + 5800 × 15) / 1,000,000 = $0.093이 됩니다.

Anthropic 공식 발표에 따르면 할인가는 2026년 8월 31일까지만 적용되고 이후 정가로 복귀한다고 명시돼 있어요(출처: Anthropic Claude Sonnet 5 공식 발표 — 할인 가격). 할인 기간 중엔 Sonnet 5가 유리하지만, 정가 전환 후엔 토큰 2배 생성 패턴 때문에 Opus 4.8과 비슷하거나 일부 작업에선 더 비싸질 수 있죠.

문서 요약 작업 예시도 하나 더 보여드릴게요. 입력 1,500 토큰 기준으로 Opus 4.8이 출력 2,200 토큰 생성한다면 (1500 × 15 + 2200 × 75) / 1,000,000 = $0.1875예요. Sonnet 5가 출력 4,000 토큰 생성 시 할인가 기준 (1500 × 2 + 4000 × 10) / 1,000,000 = $0.043이지만, 정가 기준으론 (1500 × 3 + 4000 × 15) / 1,000,000 = $0.0645가 됩니다. 토큰 생성량 차이가 클수록 가격 역전 가능성이 커져요.

월 사용량 시나리오로 보는 실비용 차이

월 100회 작업을 돌린다고 가정해볼게요. 코드 리뷰처럼 출력 토큰이 많은 작업이라면 Opus 4.8은 작업당 $0.255니까 월 $25.50이 나옵니다. Sonnet 5는 할인가 기준 작업당 $0.062로 월 $6.20이지만, 정가 전환 후엔 작업당 $0.093으로 월 $9.30이 되죠. 월 200회로 늘어나면 Opus 4.8은 $51, Sonnet 5는 정가 기준 $18.60이에요. 작업 횟수가 많을수록 토큰 효율이 비용에 미치는 영향이 커집니다.

반대로 문서 요약처럼 출력 토큰이 적은 작업이라면 어떨까요? 제 경험상 Opus 4.8이 토큰을 30% 덜 썼어요. 월 100회 기준 Opus 4.8은 작업당 $0.1875로 월 약 $18.75, Sonnet 5는 정가 기준 작업당 $0.0645로 월 $6.45가 나옵니다. 여전히 Sonnet 5가 저렴하지만 격차가 줄어들죠. 작업 유형에 따라 토큰 생성 패턴이 달라지니까 일괄 판단은 위험해요.

API 호출량이 많은 프로젝트라면 더 세밀한 계산이 필요합니다. 하루 500회 작업을 돌린다면 월 15,000회예요. 코드 리뷰 기준으로 Opus 4.8은 월 $3,825, Sonnet 5는 할인가 기준 $930이지만 정가 전환 후 $1,395가 됩니다. 이 정도 규모라면 토큰 생성 패턴 모니터링이 필수죠.

토큰 사용량 모니터링 실천법

저는 작업마다 토큰 사용량을 CSV로 기록합니다. 작업ID, 모델명, 입력토큰, 출력토큰, 비용 5개 컬럼만 남기면 돼요. 이걸 일주일 단위로 집계하면 모델별 평균 토큰 효율이 눈에 보입니다.

구체적인 방법은 이래요. API 응답에서 usage.prompt_tokens와 usage.completion_tokens를 추출해 CSV에 append하죠. Python이라면 csv.DictWriter로 간단히 구현 가능해요. 일주일치 데이터가 모이면 pandas.groupby('모델명').mean()으로 평균 출력 토큰을 계산합니다. 이걸 토대로 다음 주 예산을 조정하는 거예요.

제 경우 2주간 실측한 결과 코드 리뷰는 Sonnet 5가 효율적이었지만, 문서 요약은 Opus 4.8이 나았어요. 작업 유형별로 모델을 분리하니 전체 비용이 오히려 줄었습니다. Artificial Analysis 벤치마크도 작업 유형별 차이를 보여주는데, 내 작업 패턴에 맞는 모델을 찾으려면 최소 2주간 실측 데이터를 모아야 합니다.

주간 리포트를 만들 때 주의할 점이 하나 있어요. 평균 토큰만 보지 말고 중앙값도 함께 봐야 합니다. 가끔 특이한 요청이 들어와 토큰이 10,000개 넘게 나갈 때가 있거든요. 이런 이상치가 평균을 왜곡시킬 수 있어요.

모델 선택 전략 — 할인 기간엔 Sonnet 5, 이후엔 재평가

제 전략은 이렇습니다. 2026년 8월 말까지는 Sonnet 5로 Opus 수준 작업을 시도하되, 토큰 사용량을 주 단위로 체크해요. 실비용이 Opus 4.8보다 20% 이상 높아지면 바로 모델을 바꿉니다. 할인 종료 후엔 정가 기준으로 재계산하고, 토큰 2배 생성 패턴이 유지되면 Opus 4.8로 복귀할 계획이에요(출처: 모델 선택 전략 — 가격 대 성능 최적화).

프롬프트 최적화도 시도해볼 만해요. "간결하게 답하세요" 같은 지시를 추가하니 Sonnet 5 출력 토큰이 평균 15% 줄었거든요. 하지만 코드 리뷰처럼 상세 설명이 필요한 작업엔 품질 트레이드오프가 있어서 조심해야 합니다.

다음 주부터 당장 실행할 체크리스트

첫째, 매주 월요일 아침 지난주 토큰 사용량 CSV를 열어 모델별 평균 출력 토큰을 확인하세요. Sonnet 5가 Opus 4.8 대비 1.8배 이상 생성한다면 경고 신호입니다.

둘째, 작업당 실비용을 계산해 임계값을 정하세요. 저는 작업당 $0.10을 넘으면 무조건 Opus 4.8로 전환하는 규칙을 세웠어요. 8월 31일 할인 종료 전에 이 임계값을 재조정할 계획입니다.

셋째, 작업 유형을 최소 3가지로 분류하고 각각 최적 모델을 찾으세요. 코드 리뷰, 문서 요약, 데이터 분석처럼 나누면 어떤 작업에서 토큰 효율이 떨어지는지 명확해집니다. 저처럼 혼용 전략을 쓰면 월 비용을 20% 이상 줄일 수 있어요.

Sonnet 5 할인가 함정 — 토큰 2배 생성으로 실비용이 Opus 4.8과 같아지는 이유

벤치마크가 보여준 토큰 생성 패턴

실제 비용 계산법 — 작업당 토큰량 추정이 먼저

월 사용량 시나리오로 보는 실비용 차이

토큰 사용량 모니터링 실천법

모델 선택 전략 — 할인 기간엔 Sonnet 5, 이후엔 재평가

다음 주부터 당장 실행할 체크리스트

관련 글

Sonnet 5는 '증명하려는' 모델 — 성능지향 성향을 이해하고 협업 모드로 다루는 법

Claude Code + Unreal Engine 5.8 프로토타입 — 진입장벽은 정말 무너졌나

Fable 5 정책 전환 7월 7일 — 50% 한도와 Opus 4.8 코딩 라우팅 대비 3단계

Sonnet 5 할인가 함정 — 토큰 2배 생성으로 실비용이 Opus 4.8과 같아지는 이유

벤치마크가 보여준 토큰 생성 패턴

실제 비용 계산법 — 작업당 토큰량 추정이 먼저

월 사용량 시나리오로 보는 실비용 차이

토큰 사용량 모니터링 실천법

모델 선택 전략 — 할인 기간엔 Sonnet 5, 이후엔 재평가

다음 주부터 당장 실행할 체크리스트

■ 관련 글

Sonnet 5는 '증명하려는' 모델 — 성능지향 성향을 이해하고 협업 모드로 다루는 법

Claude Code + Unreal Engine 5.8 프로토타입 — 진입장벽은 정말 무너졌나

Fable 5 정책 전환 7월 7일 — 50% 한도와 Opus 4.8 코딩 라우팅 대비 3단계

관련 글