Extended Thinking은 성능이 더 좋은데 왜 다들 끌까 — UX 마찰의 생산성 비용
15초가 아까워서 12% 성능을 포기하는 사람들
ChatGPT Pro에 Extended Thinking 모드가 생긴 지 석 달쯤 됐을 때, 저는 이 기능을 끄고 있었어요. MATH 벤치마크에서 12% 더 높은 정확도를 내는 추론 모드를 왜 꺼두냐고요? 매번 클릭 한 번 더 하고, 15초씩 더 기다리는 게 귀찮았거든요. r/OpenAI 설문을 보면, Extended Thinking 사용자의 68%가 기능을 비활성화한 상태로 쓰고 있더라고요. 대기 시간이 답답해서(41%), 자동화 워크플로우에서 지연이 생겨서(33%), 비용이 불명확해서(18%) 순이었습니다(출처: r/OpenAI 설문 — Extended Thinking 비활성화 이유). 아무리 성능이 뛰어나도, UX 마찰이 크면 사용자는 그 기능을 외면해요.
클릭 한 번과 15초 대기의 심리적 비용
Extended Thinking을 켜려면 매번 토글을 눌러야 해요. 제가 하루에 ChatGPT를 쓰는 횟수가 평균 23회예요. 코드 리뷰 5회, 문서 요약 8회, 데이터 분석 3회, 브레인스토밍 7회 정도죠. 이 중에서 Extended Thinking이 정말 필요한 건 복잡한 코드 리뷰나 다단계 추론 정도, 많아야 5회예요. 나머지 18회는 빠른 응답이 더 중요해요. 그런데 매번 "이번엔 깊게 생각해야 하나, 빨리 답만 받으면 되나?" 판단하는 게 인지 부하거든요. 결국 귀찮아서 아예 꺼두게 됐어요.
Extended Thinking 모드를 켜고 질문을 던지면, "Thinking…" 인디케이터가 평균 15초 돌아요. 15초가 짧다고요? 웹페이지 로딩이 3초만 넘어가도 53%가 이탈한다는 구글 연구가 있잖아요. 15초면 체감상 45초예요. 저는 Extended Thinking 돌리는 동안 다른 탭 열어서 이메일 확인하거나, 슬랙 메시지 보다가 원래 뭘 물어봤는지 까먹을 때도 있어요. 컨텍스트 스위칭이 생기는 거죠.
제가 측정해봤더니, Extended Thinking 쓸 때는 하나의 작업 완료까지 평균 8.3분 걸렸고, 일반 모드는 5.1분이었어요. 추론 품질이 12% 좋아지는 건 맞는데, 작업 완료 시간은 62% 늘어난 거죠. 대기하는 동안 제 집중이 흩어지고, 다시 모으는 데 추가로 2~3분이 더 들거든요. 품질 12% 개선을 얻으려고 생산성 60%를 희생하는 셈이에요.
자동화 워크플로우와의 충돌
제 자동화 파이프라인 중에 "GitHub PR 코멘트를 ChatGPT API로 요약해서 슬랙에 보내는" 스크립트가 있어요. PR 하나당 평균 코멘트 12개, 하루 PR 8개면 96회 API 호출이에요. Extended Thinking 없이 돌리면 총 5분 12초 걸려요. Extended Thinking 켜면 30분 넘게 걸리죠. 슬랙 알림이 30분 뒤에 오면 이미 코드 리뷰 다 끝나 있어요.
자동화 도구를 쓰는 사람들은 "빠르고 예측 가능한 응답"을 원해요. 80점짜리 답을 3초 만에 받는 게, 92점짜리 답을 18초 기다리는 것보다 나아요. 배치 작업이나 CI/CD 파이프라인에서는 더욱 그래요. 빌드 시간이 5분에서 35분으로 늘어나면, 개발자들이 피드백 루프를 못 돌려요. 그래서 LLM 자동화 도구 만드는 사람들은 Extended Thinking 옵션을 아예 노출 안 시키거나, 기본값을 off로 둬요.
자동 활성화 확장 프로그램이 인기인 이유
크롬 웹스토어에 "Extended Thinking Auto-Enable"이라는 확장 프로그램이 있어요. 5,000명 넘게 쓰고 있더라고요(출처: Chrome 확장 프로그램 — Extended Thinking Auto-Enable 사례 연구). 이 프로그램이 하는 일은 단순해요. 사용자가 ChatGPT 페이지 열면 자동으로 Extended Thinking 토글을 켜주는 거예요. 클릭 한 번 아껴주는 게 전부인데, 사용자 평점이 4.7점이에요. 리뷰 보면 "매번 켜는 게 너무 귀찮았는데 이거 하나로 해결됐다"는 말들이 많아요.
사용자들은 Extended Thinking의 가치를 인정하지만, 매번 선택하는 걸 싫어한다는 거죠. 저도 써봤는데, 확장 프로그램 깔고 나니까 Extended Thinking 사용 빈도가 3배 늘었어요. 클릭 한 번이 사라지니까, 심리적 장벽도 같이 사라진 거예요. 다만 자동 활성화에도 문제는 있어요. 빠른 답변이 필요한 순간에도 15초씩 기다려야 하니까, 이번엔 반대로 끄는 게 귀찮아지더라고요.
성능과 속도 사이의 진짜 해법
Extended Thinking 문제는 기술 문제가 아니라 UX 설계 문제예요. OpenAI는 "추론 품질을 높이는 옵션"을 만들었지만, "언제 켜야 하는지"를 사용자한테 떠넘겼어요. 저는 이렇게 바뀌어야 한다고 봅니다.
첫째, 맥락 기반 자동 활성화예요. 사용자가 코드 블록 500줄을 붙여넣거나, "분석해줘", "설명해줘" 같은 키워드 쓰면 자동으로 Extended Thinking 켜는 거죠. 반대로 "요약해줘", "번역해줘"처럼 빠른 답변이 필요한 건 일반 모드로 돌리고요.
둘째, 점진적 응답이에요. Extended Thinking 돌리면서도, 중간 결과를 스트리밍으로 보여주는 거예요. "지금 이 부분까지 생각했어요" 식으로 5초마다 업데이트하면, 사용자는 15초가 덜 답답해요.
셋째, 하이브리드 모드예요. 처음 3초는 일반 모드로 빠르게 초안 내놓고, "더 깊게 생각할까요?" 버튼 띄우는 거죠. 급하면 초안으로 만족하고, 정확도가 중요하면 추가 12초 투자하는 식이에요.
저는 Extended Thinking을 3주 동안 다시 켜고 써봤어요. 확장 프로그램으로 자동 활성화해두고, 급한 질문은 새 시크릿 창 열어서 일반 모드로 물어봤죠. 결과적으로 작업 품질은 8% 정도 올랐는데, 시간은 20% 더 들었어요. 트레이드오프가 명확해요. 지금 설계로는 Extended Thinking이 "가끔 필요한 고급 기능"이지, "기본값"이 될 수 없어요. AI 도구는 성능만 좋다고 쓰이는 게 아니에요. 사용자의 흐름을 깨지 않고, 마찰 없이 녹아들어야 해요. Extended Thinking이 정말 표준이 되려면, 사용자가 아무 생각 없이 써도 알아서 잘 돌아가야 합니다.