긴 문서를 LLM으로 처리하는 방법: 토큰 분할 전략과 Timeout 방지 구조 정리

대형 보고서, PDF 변환 문서, OCR 결과 JSON 등을 LLM에 바로 넣으면 대부분 Timeout이 발생한다.
이유는 단순하다. LLM은 문단을 이해하는 것이 아니라 토큰을 읽기 때문이다.
따라서 긴 문서를 처리할 때는 “의미 단위”가 아니라 “토큰 단위”로 접근해야 한다.

1. 왜 LLM에서 Timeout이 발생하는가

Timeout이 발생하는 주요 원인은 다음 세 가지다.

Context window 초과
출력 토큰까지 계산하지 않음
한 번에 너무 많은 작업을 요구

LLM 호출 시 실제 사용되는 토큰은 다음과 같다.

총 사용 토큰 = 입력 토큰 + 출력 토큰 + 시스템 프롬프트

예를 들어 입력 1500, 출력 300, 시스템 200이라면 실제로는 2000 토큰이 필요하다.
실무에서는 모델 최대 컨텍스트의 50~60%만 사용하는 것이 안전하다.

2. 토큰 기반 분할 전략 (안전형 기본 구조)

1단계: 의미 무시, 토큰 기준 분할

Chunk size: 1200 ~ 1500 토큰
Overlap: 100 ~ 150 토큰
문단, 장, 절 구조는 무시

LLM은 문단을 이해하지 않는다. 토큰을 읽는다.
따라서 1차 분할은 반드시 토큰 기준으로 수행해야 한다.

2단계: Chunk 내부에서만 의미 복원

헤더 감지
문단 태깅
type 기반 병합

전역 문단 구조를 유지하려고 하면 오히려 실패 확률이 높아진다.
의미 복원은 chunk 내부에서만 수행한다.

3단계: 결과 재조립

Chunk별 요약
Chunk별 데이터 추출
최종 병합

3. 업계에서 사용하는 긴 문서 처리 패턴

패턴 A: Sliding Window Chunking

[0~1500]
   overlap 150
       [1350~2850]

가장 일반적이며 안정적인 방식이다.
문맥 손실을 최소화하고 RAG와 궁합이 좋다.

패턴 B: Hierarchical Summarization

Chunk별 요약
요약본을 다시 그룹 요약
최종 요약 생성

대형 보고서 요약에 적합하다.
단계적으로 압축하기 때문에 Timeout 가능성이 낮다.

패턴 C: Map-Reduce 방식

Map 단계: 각 Chunk에서 필요한 정보만 추출

Reduce 단계: 추출 결과를 통합 및 정제

예: 각 chunk에서 VOC 성능 수치만 추출 → 마지막에 표 생성

패턴 D: Retrieval 기반 처리 (RAG)

Chunk 생성
Embedding 저장
질문 시 관련 chunk만 LLM에 투입

전체 문서를 한 번에 태우지 않는다.
대규모 문서 시스템에서 가장 안정적인 구조다.

4. Timeout 발생 시 실전 대응 방법

1. 입력 토큰 축소

Chunk 크기 줄이기
불필요한 필드 제거
숫자/표 중심 추출

2. 출력 토큰 제한

max_output_tokens = 300

출력도 context에 포함되므로 반드시 제한해야 한다.

3. 작업 분리

잘못된 방식:

요약 + 분석 + 표 생성 + 결론 도출을 한 번에 수행

권장 방식:

1. 요약
2. 분석
3. 표 생성

4. 모델 선택 조정

저추론 모델은 Timeout이 잦음
Reasoning 모델은 안정성 높음 (비용 증가)

5. 긴 문서 처리 표준 파이프라인

PDF → JSON → CSV(flat)
       ↓
Token Chunk (1200~1500)
       ↓
Overlap 100~150
       ↓
병렬 LLM 처리
       ↓
결과 병합
       ↓
최종 문서 재구성

이 구조는 대형 보고서, OCR 데이터, 공공 문서 처리에 가장 안정적인 방식이다.

6. 반드시 피해야 할 방식

문단 기준 1차 분할
장/절 기준 대형 chunk 생성
5000 토큰 이상 chunk 사용
한 번에 모든 작업을 수행

이 방식들은 거의 100% Timeout으로 이어진다.

결론

긴 문서를 LLM으로 처리할 때 핵심은 단 하나다.

의미 단위로 자르지 말고 토큰 단위로 자른다.
의미는 나중에 복원한다.

이 원칙을 지키면 대부분의 Timeout 문제는 사라진다.

AstroScent

긴 문서를 LLM으로 처리하는 방법: 토큰 분할 전략과 Timeout 방지 구조 정리

긴 문서를 LLM으로 처리하는 방법: 토큰 분할 전략과 Timeout 방지 구조 정리

1. 왜 LLM에서 Timeout이 발생하는가

2. 토큰 기반 분할 전략 (안전형 기본 구조)

1단계: 의미 무시, 토큰 기준 분할

2단계: Chunk 내부에서만 의미 복원

3단계: 결과 재조립

3. 업계에서 사용하는 긴 문서 처리 패턴

패턴 A: Sliding Window Chunking

패턴 B: Hierarchical Summarization

패턴 C: Map-Reduce 방식

패턴 D: Retrieval 기반 처리 (RAG)

4. Timeout 발생 시 실전 대응 방법

1. 입력 토큰 축소

2. 출력 토큰 제한

3. 작업 분리

4. 모델 선택 조정

5. 긴 문서 처리 표준 파이프라인

6. 반드시 피해야 할 방식

결론

Leave a Reply Cancel reply

Comments

Archives

Categories