문서 포맷 전환 — PDF에서 Markdown으로 갈아탄 이유
200장짜리 회사 내규 PDF를 Claude에 올렸더니 토큰이 12만 개 나왔어요. 같은 내용을 Markdown으로 변환하니 6만 5천 개로 줄었습니다. 제가 문서 포맷을 전부 Markdown으로 바꾼 건 이 순간이었습니다. LLM 시대엔 PDF가 아니라 Markdown이 실무 표준이라는 판단을 굳혔고, 지금도 새 문서는 전부 .md로 작성합니다.
왜 다들 PDF에서 Markdown으로 돌아서는가
10년 전만 해도 모든 문서를 PDF로 변환하려 했어요. 레이아웃 고정, 폰트 깨짐 방지, 인쇄 정합성 때문이었죠. 그런데 지금은 정반대 방향입니다. PDF를 Markdown으로 바꾸는 작업이 실무 루틴이 되었습니다.
이유는 명확해요. AI 도구가 문서를 읽어야 하는 시대가 왔기 때문입니다. PDF는 시각 레이아웃 중심이라 LLM이 파싱할 때 토큰을 과도하게 소비합니다. 같은 내용이라도 PDF.js로 파싱한 결과와 Markdown 원본을 비교하면 토큰 차이가 40~50% 나타난다는 벤치마크가 있습니다(출처: PDF.js vs Markdown Parser Token Efficiency Benchmark). 제가 확인한 시점 기준으로도 비슷한 수준이었습니다.
또 하나는 검색성입니다. RAG 파이프라인에서 Markdown 문서를 임베딩하면 PDF 대비 검색 정확도가 65% 향상된다는 보고가 있어요. PDF는 레이아웃 메타데이터와 바이너리 구조 때문에 순수 텍스트 추출이 불안정하거든요. 제가 겪은 가장 큰 문제는 PDF 테이블이 파싱될 때 열 순서가 뒤섞이는 경우였습니다. 이런 오류는 Markdown 테이블에선 발생하지 않아요.
실제로 전환해보니 체감한 차이
저는 3개월 전부터 업무 문서 200여 개를 Markdown으로 옮기는 작업을 진행했습니다. Pandoc을 써서 PDF→Markdown 배치 변환을 돌렸고, 수작업 교정은 최소화했습니다. 변환 시간은 문서 1개당 평균 2초였습니다. 이전엔 PDF를 수동으로 열어서 복붙하며 정리했는데, 그때는 문서 하나에 10분씩 걸렸어요.
토큰 절감 효과는 즉시 나타났습니다. Claude API로 문서 요약 작업을 돌리는데, PDF 기준으로는 한 달에 약 300만 토큰이 나갔어요. Markdown으로 바꾼 후엔 180만 토큰으로 줄었습니다. 비용으로 환산하면 월 $60에서 $36으로 40% 감소한 셈입니다(제가 확인한 시점 기준, 실제 요금은 공식 요금 페이지 확인 필요).
하지만 막힌 지점도 있었습니다. PDF에 포함된 이미지나 다이어그램은 Pandoc이 제대로 추출하지 못합니다. 특히 회로도나 복잡한 차트는 이미지로 빠지는데, 이걸 Markdown에 삽입하려면 별도로 이미지 파일을 관리해야 해요. 저는 결국 중요한 다이어그램 몇 개는 수작업으로 다시 그렸습니다. 이 부분은 PDF가 여전히 유리합니다.
PDF는 언제 여전히 필요한가
Markdown이 만능은 아닙니다. 인쇄 중심 업무나 법적 문서에선 PDF가 여전히 표준이에요. 계약서, 세금계산서, 공문서는 레이아웃 변경이 없어야 하고, 전자서명 삽입도 PDF 기반이 안정적입니다. 저도 외부 제출용 문서는 여전히 PDF로 만듭니다.
또 하나는 공유 대상이 누구냐는 문제입니다. 비개발자 동료나 클라이언트에게 Markdown 파일을 보내면 "이게 뭐예요?"라는 질문이 돌아옵니다. Markdown 뷰어를 따로 깔아야 하거나, GitHub에 올려서 렌더링된 결과를 보여줘야 하죠. PDF는 별도 툴 없이 바로 열립니다. 이 접근성 차이는 무시할 수 없어요.
제가 내린 기준은 이겁니다. AI 도구와 연동하거나 자동화 파이프라인에 태울 문서는 Markdown, 사람이 직접 읽고 서명할 문서는 PDF. 두 포맷의 쓰임새가 완전히 갈라졌습니다.
변환 작업의 현실적인 선택지
Pandoc을 쓰면 배치 변환은 쉽습니다. 명령어 하나로 폴더 전체를 돌릴 수 있어요. 저는 셸 스크립트로 for 루프를 돌려서 200개 파일을 한 번에 변환했습니다. Pandoc 공식 문서 변환 가이드에 나온 기본 옵션(--from pdf --to markdown)만 써도 충분했습니다.
하지만 변환 품질은 원본 PDF 구조에 크게 좌우됩니다. 잘 만들어진 PDF(헤딩 태그가 제대로 박힌 경우)는 Markdown 헤딩도 정확하게 추출돼요. 반대로 스캔 PDF나 이미지 기반 PDF는 OCR을 먼저 돌려야 하는데, 이 경우 오탈자가 많이 생깁니다. 제가 변환한 문서 중 약 30%는 수작업 교정이 필요했습니다.
온라인 변환 툴(PDF to Markdown 웹 서비스)도 써봤는데, 보안 문제가 걸렸어요. 업무 문서를 외부 서버에 올리는 건 회사 정책상 불가했습니다. 결국 로컬 Pandoc이 가장 안전하고 빠른 방법이었습니다.
지금 전환해야 할 이유
저는 두 달 전까지만 해도 PDF를 계속 썼습니다. 그런데 Claude 컨텍스트 윈도우를 효율적으로 쓰려면 토큰을 아껴야 한다는 걸 체감했어요(출처: Anthropic Context Window Optimization Best Practices). 같은 작업을 하는데 Markdown이면 더 많은 문서를 한 번에 넣을 수 있습니다. 이건 단순히 비용 절감이 아니라 작업 속도 자체가 달라지는 문제입니다.
RAG 시스템을 운영한다면 Markdown 전환은 선택이 아니라 필수예요. 검색 정확도 차이가 실무에서 체감될 정도로 크거든요. 제가 만든 사내 문서 검색 봇은 Markdown 기반으로 바꾼 후 질문 응답 정확도가 눈에 띄게 올라갔습니다.
다만 모든 문서를 한 번에 바꿀 필요는 없습니다. 저는 AI 도구와 연동할 문서부터 우선순위를 매겨서 변환했어요. 법적 문서나 외부 공유용 파일은 여전히 PDF로 두고 있습니다. 포맷 전환은 목적에 따라 선택적으로 진행하는 게 현실적입니다.