LLM 모델 버전 성능 체감 비교 — 실무에서 느낀 GPT-4o·Claude 3.5 버전 차이 — Thundo

LLM 모델 버전 성능 체감 비교 — 실무에서 느낀 GPT-4o·Claude 3.5 버전 차이 핵심 개념을 담은 커버 이미지

같은 코드 리팩터링 요청을 GPT-4o 최신 버전과 한 달 전 버전에 넣었더니, 최신 버전은 주석을 영어로 바꿔버렸어요. 문서 요약은 구버전이 더 깔끔했습니다. 버전 숫자가 올라간다고 모든 작업에서 항상 나아지는 건 아니더라고요. 2개월간 실무 프로젝트에서 GPT-4o·Claude 3.5 Sonnet의 버전을 번갈아 쓰며 체감한 차이를 정리했습니다. 코딩·긴 문서 요약·리서치 세 작업 기준으로, 언제 어느 버전을 써야 막힘이 덜한지 확인해보세요.

왜 버전마다 체감이 다른가 — 파인튜닝 방향의 차이

LLM 모델 업데이트는 단순 성능 향상이 아니라 파인튜닝 방향의 선택이에요. 제가 쓰던 GPT-4o는 5월 중순 버전과 6월 말 버전 사이에 코드 주석 스타일이 바뀌었습니다. 이전 버전은 한국어 주석을 그대로 유지했는데, 최신 버전은 영어로 통일하려는 경향이 강했어요. 공식 릴리스 노트에는 "코드 생성 개선"이라고만 나와 있지만, 실제 써보면 "어떤 방향으로" 개선됐는지가 작업마다 다르게 느껴집니다.

Claude 3.5 Sonnet도 비슷했어요. 초기 버전은 긴 문서를 요약할 때 핵심 문장을 그대로 뽑아주는 편이었는데, 최근 버전은 문장을 재구성해서 요약하려는 시도가 늘었습니다. 원문 표현을 살려야 하는 리서치 작업에서는 오히려 이전 버전이 나았어요. 버전 업데이트가 모든 사용 사례를 동시에 만족시킬 순 없다는 걸 체감했습니다.

코드 리팩터링 — 구조 변경 vs 스타일 통일

코드 리팩터링 작업에서 GPT-4o 6월 말 버전은 함수 분리와 중복 제거에 집중했어요. 같은 요청을 5월 버전에 넣으면 변수명 정리와 주석 추가가 먼저 나왔습니다. 제가 원한 건 구조 개선이었으니 최신 버전이 더 맞았죠. 하지만 기존 코드 스타일을 유지하며 약간만 손보고 싶을 때는 이전 버전이 안전했어요.

Claude 3.5 Sonnet은 함수 추출을 더 공격적으로 제안하는 편이에요. 50줄짜리 함수를 5개로 쪼개는 식인데, 프로젝트 초기엔 좋지만 레거시 코드베이스에선 리스크가 컸습니다. 제가 "최소한만 고쳐줘"라고 프롬프트를 바꿔도 버전에 따라 해석이 달랐어요. 최신 버전일수록 "최소"를 "구조적으로 깔끔하게"로 받아들이는 경향이 있더라고요.

막힌 순간은 이랬어요. GPT-4o 최신 버전으로 레거시 프로젝트 리팩터링을 맡겼더니 테스트 코드까지 전부 재작성하자고 제안했습니다. 시간이 없어서 변수명만 바꾸고 싶었는데 예상과 완전히 달랐죠. 결국 이전 버전으로 돌려서 "변수명과 주석만"이라고 명시한 뒤에야 원하는 결과를 얻었어요. 버전 선택이 프롬프트 설계만큼 중요하다는 걸 배웠습니다.

긴 문서 요약 — 원문 보존 vs 재구성

긴 기술 문서를 3문단으로 요약하는 작업에서 Claude 3.5 Sonnet 초기 버전은 원문의 핵심 문장을 그대로 가져왔어요. 출처 표기가 필요한 리서치에선 이게 더 나았습니다. 최근 버전은 문장을 재구성해서 요약하는데, 읽기는 편하지만 원문 표현이 필요할 땐 번거로웠어요.

GPT-4o는 요약 톤이 버전마다 달랐어요. 5월 버전은 "~입니다" 종결어미를 많이 썼고, 6월 버전은 "~함" 체언 종결을 선호했습니다. 블로그 초안용 요약에는 5월 버전이, 사내 보고서용에는 6월 버전이 맞았어요. 같은 모델인데 버전만 바꿔도 결과물 톤이 바뀌니 작업 목적에 따라 버전을 골라야 했습니다.

제가 막혔던 건 20페이지짜리 API 문서 요약이었어요. 최신 버전에 넣었더니 기술 용어를 일반 표현으로 풀어서 설명하더라고요. 정확한 용어가 중요한 문서였는데 "인증 토큰"이 "접근 키"로 바뀌는 식이었죠. 이전 버전으로 돌려서 "기술 용어 그대로 유지"라고 명시했더니 원하는 결과가 나왔습니다. 버전별 요약 스타일 차이를 모르고 쓰면 재작업이 생겨요.

리서치 작업 — 출처 정리 vs 종합 해석

리서치 작업에서 Claude 3.5 Sonnet은 출처별로 정보를 나눠 정리하는 편이에요. GPT-4o는 여러 출처를 종합해서 하나의 해석으로 만드는 경향이 있습니다. 제가 레퍼런스 리스트를 만들 때는 Claude가, 인사이트를 뽑을 때는 GPT-4o가 나았어요.

버전 차이는 출처 표기 방식에서 나타났어요. GPT-4o 5월 버전은 "출처: 문서명" 형식으로 간단히 붙였는데, 6월 버전은 각주 번호를 달아서 문서 끝에 모아두려 했습니다. 작업 흐름에 따라 선호가 갈렸죠. Claude는 버전과 상관없이 문단 끝에 출처를 텍스트로 붙이는 방식을 유지했어요.

막힌 경험은 경쟁사 제품 비교 리서치였어요. 최신 GPT-4o에 여러 리뷰 링크를 주고 요약을 요청했더니 "전반적으로 긍정적"이라는 식으로 뭉뚱그렸습니다. 각 리뷰의 구체 평가 포인트가 필요했는데 종합만 해버린 거죠. 이전 버전으로 바꿔서 "출처별로 나눠서"라고 프롬프트를 추가하니 원하는 형식이 나왔어요. 리서치 목적에 따라 버전을 선택하는 게 시행착오를 줄이는 지름길이었습니다.

어느 버전을 언제 쓸까 — 작업 목적별 선택 기준

2개월 써보니 명확한 기준이 생겼어요. 코드 구조 개선이 목적이면 최신 GPT-4o, 스타일만 정리하려면 이전 버전. 긴 문서에서 원문 표현을 살려야 하면 Claude 초기 버전, 읽기 쉬운 요약이 필요하면 최신 버전. 리서치에서 출처 정리가 우선이면 Claude, 인사이트 종합이 목적이면 GPT-4o.

버전 선택이 프롬프트만큼 중요하다는 걸 실감했습니다. 같은 요청이라도 버전에 따라 결과물의 방향이 달라지니까요. 제 경우엔 작업별로 선호 버전을 메모해두고, 새 버전이 나오면 이전 버전과 같은 작업을 시켜본 뒤 체감 차이를 기록해요. 그래야 막힐 때 빠르게 버전을 바꿀 수 있더라고요.

최신 버전이 항상 정답은 아니에요. 작업 목적과 기대 결과물에 맞는 버전을 고르는 게 시행착오를 줄이는 방법입니다. 다음 프로젝트에선 작업 유형별로 선호 버전을 미리 정해두고 시작할 계획이에요.

LLM 모델 버전 성능 체감 비교 — 실무에서 느낀 GPT-4o·Claude 3.5 버전 차이

왜 버전마다 체감이 다른가 — 파인튜닝 방향의 차이

코드 리팩터링 — 구조 변경 vs 스타일 통일

긴 문서 요약 — 원문 보존 vs 재구성

리서치 작업 — 출처 정리 vs 종합 해석

어느 버전을 언제 쓸까 — 작업 목적별 선택 기준

관련 글

Claude API vs Claude Pro Max — 실제 비용 계산과 선택 기준

Extended Thinking은 성능이 더 좋은데 왜 다들 끌까 — UX 마찰의 생산성 비용

Claude Code + Unreal Engine 5.8 프로토타입 — 진입장벽은 정말 무너졌나

LLM 모델 버전 성능 체감 비교 — 실무에서 느낀 GPT-4o·Claude 3.5 버전 차이

왜 버전마다 체감이 다른가 — 파인튜닝 방향의 차이

코드 리팩터링 — 구조 변경 vs 스타일 통일

긴 문서 요약 — 원문 보존 vs 재구성

리서치 작업 — 출처 정리 vs 종합 해석

어느 버전을 언제 쓸까 — 작업 목적별 선택 기준

■ 관련 글

Claude API vs Claude Pro Max — 실제 비용 계산과 선택 기준

Extended Thinking은 성능이 더 좋은데 왜 다들 끌까 — UX 마찰의 생산성 비용

Claude Code + Unreal Engine 5.8 프로토타입 — 진입장벽은 정말 무너졌나

관련 글