AI 자동화에 사람 검수 단계를 일부러 남겨두는 이유 — 18개 워크플로우를 4개월 굴린 결론
자동화 워크플로우를 짜다 보면 끝까지 자동화하고 싶은 유혹이 생겨요. 제 경우엔 지난 4개월 동안 Make.com으로 이메일 분류부터 슬랙 알림까지 총 18개 시나리오를 굴렸는데, 처음엔 전부 end-to-end로 연결했어요. 그런데 3주 차에 고객 문의 메일 한 통이 스팸 폴더로 빠진 걸 뒤늦게 발견했죠. 저는 AI 자동화 워크플로우 중간에 사람 검수 단계를 의도적으로 남겨두는 게 오히려 생산성을 높인다고 생각해요. 왜냐면 완전 자동화는 에러 비용을 키우고, 학습 기회를 빼앗거든요.
완전 자동화는 에러 비용을 키운다
첫 번째 근거는 경험에서 나왔어요. 제가 운영하는 Make 시나리오 중 하나는 "첨부파일 있는 Gmail → 구글 드라이브 자동 저장"인데, 처음엔 필터 조건만 달고 바로 저장하게 짰어요. 2주 동안 47개 파일이 쌓였는데, 그 중 8개가 광고 PDF였더라고요. 드라이브 용량 17%를 쓸데없이 먹은 거죠. 자동화가 돌아간 횟수 자체는 많았지만, 쓸모있는 결과물 비율은 83% 정도였어요.
두 번째 사례는 Zapier로 만든 "HubSpot 신규 리드 → 슬랙 알림 → Notion DB 자동 등록" 워크플로우예요. 완전 자동으로 3개월 돌렸더니 Notion 페이지가 312개 쌓였는데, 실제 follow-up한 건 58건뿐이었어요. 나머지 254건은 중복 리드, 테스트 데이터, 스팸이었죠. 자동화는 멈추지 않았지만, 제가 Notion 정리하는 데 쓴 시간은 주당 40분씩 누적됐어요.
세 번째 문제는 에러 발견 지연이에요. ChatGPT API로 고객 문의 요약을 자동 생성하는 스크립트를 돌렸는데, 어느 날 API 응답 형식이 바뀌어서 요약문 끝에 JSON 꼬리표가 붙기 시작했어요. 5일 동안 23건이 그 상태로 슬랙에 올라갔고, 고객사 담당자가 "이거 뭐예요?"라고 물어본 뒤에야 알았죠. 사람 검수 단계가 하나라도 있었다면 첫 1건에서 잡혔을 텐데, 완전 자동화는 에러를 대량 복제했어요.
검수 단계가 학습 기회를 만든다
사람 검수를 남겨두면 도구 사용법을 체득하게 돼요. 제가 n8n으로 "RSS 피드 → GPT 요약 → 이메일 발송" 워크플로우를 짰을 때, 처음엔 요약문을 바로 보내게 했어요. 그런데 매일 아침 8시에 받은 메일 10통 중 3통은 요약이 너무 짧거나 핵심을 빗나갔어요. 그래서 중간에 "Google Sheets에 쌓기 → 내가 아침에 5분 훑기 → 버튼 클릭으로 발송" 단계를 추가했죠. 2주 정도 그렇게 하니까 어떤 RSS 소스가 GPT 요약에 잘 맞는지, 프롬프트를 어떻게 조정해야 하는지 감이 왔어요. 결국 검수 비율이 30%에서 8%로 떨어졌고, 이제는 주 2회만 확인해도 돼요.
두 번째로, 검수 단계는 예외 케이스를 발견하게 해줘요. Airtable + Zapier로 "신규 계약서 → 서명 요청 자동 발송" 플로우를 굴렸는데, 계약서 템플릿이 2종류(개인/법인)라서 자동화 조건을 "계약서 이름에 'corp' 포함 시 법인 템플릿"으로 짰어요. 그런데 어느 날 개인 고객 이름이 "Acorp"여서 법인 템플릿이 날아간 적이 있었죠. 제가 발송 전 구글 시트에서 1분 훑어보는 습관이 있었기에 발견했고, 조건을 "corp"로 수정했어요. 완전 자동이었다면 고객에게 잘못된 서류가 갔을 거예요.
세 번째는 도구 조합 감각이에요. Claude Code + Make + Notion을 엮어서 "블로그 초안 자동 생성" 파이프라인을 만들었는데, 초반 20편은 제가 Notion 페이지를 하나하나 열어서 제목·본문·태그를 검토했어요. 그 과정에서 Claude가 같은 키워드를 3번 이상 반복하면 SEO는 좋지만 가독성이 떨어진다는 걸 알았죠. 프롬프트에 "키워드 밀도 15% 이하" 조건을 추가했더니 검수 수정 비율이 60%에서 22%로 줄었어요. 검수 단계가 없었다면 그 패턴을 못 잡았을 거예요.
예상 반론과 답
"검수 단계를 두면 자동화 의미가 없지 않나요?"라는 반론이 있을 수 있어요. 저도 처음엔 그렇게 생각했어요. 하지만 실제로는 검수 시간이 원래 작업 시간의 10~15%밖에 안 들어요. Gmail 분류 자동화 전엔 하루 30분씩 메일함을 뒤졌는데, 지금은 Make가 80% 분류하고 제가 아침 5분만 확인해요. 시간은 83% 줄었지만 정확도는 올라갔죠.
"AI가 발전하면 검수가 필요 없어지지 않을까요?"라는 의견도 있어요. 맞는 말이에요. GPT-4가 나오면서 요약 품질이 확실히 좋아졌고, Claude 3.5는 코드 생성 정확도가 높아요. 하지만 비즈니스 맥락은 AI가 모르는 부분이 많아요. 제가 Make로 "고객 문의 → 긴급도 분류" 자동화를 했는데, "내일까지"라는 단어가 있으면 긴급으로 분류하게 짰어요. 그런데 "내일까지는 괜찮아요"라는 문장도 긴급으로 잡혔죠. 언어 모델이 아무리 좋아져도 도메인 특수성은 사람이 체크해야 해요.
"검수 단계를 자동화하면 되지 않나요?"라는 제안도 있어요. 예를 들어 "AI 요약 → GPT로 품질 검증 → 통과 시 발송" 같은 2단 자동화죠. 저도 시도해봤어요. n8n으로 "RSS 요약문을 Claude가 다시 평가(1~5점)" 노드를 추가했는데, 4점 이상만 통과시키게 했어요. 그런데 3주 후 확인해보니 Claude가 준 점수 기준이 일관성이 없었어요. 같은 품질인데 어떤 날은 5점, 어떤 날은 3점이었죠. AI로 AI를 검증하는 건 기준 표류 위험이 있어요. 사람이 10건만 샘플링해도 그 패턴은 금방 잡혀요.
결론
완전 자동화는 목표가 아니라 함정이에요. 저는 18개 워크플로우 중 12개에 의도적으로 사람 검수 단계를 남겨뒀어요. 구글 시트 1분 훑기, 슬랙 알림 확인 후 버튼 클릭, Notion 페이지 제목만 스캔하기 같은 가벼운 개입이죠. 이 단계들 덕분에 에러 대량 복제를 막았고, 도구 사용법을 체득했으며, 자동화 품질이 점진적으로 개선됐어요. 자동화 도구를 쓸 때 스스로에게 물어보세요. "이 단계를 완전히 믿어도 될까, 아니면 5분 검수로 리스크를 10배 줄일 수 있을까?" 저는 후자를 선택했고, 생산성과 신뢰성을 둘 다 잡았어요.