Browsing:

Category: career-horoscope

2222

회사


1111




eee

// =============================// SemanticChunkUtil.java// ============================= import java.util.; import java.util.regex.; public class SemanticChunkUtil { } // =============================// FileChunkWriter.java// ============================= import java.nio.file.*;import java.io.IOException;import java.util.List; public class FileChunkWriter { } // =============================// FileChunkReader.java// ============================= import java.nio.file.; import java.io.IOException; import java.util.; public class FileChunkReader { Read more…


OCR JSON↓Flatten CSV↓Rule-based CSV (block_id, page_number, element_ids, merged_text)↓Token-safe chunk CSV ← 지금 만들 단계↓LLM 처리


설계 요약 CSV 읽기 page_number 기준으로 텍스트 병합 rule 기반 문단 분리 빈 줄 번호 패턴 헤더 패턴 SemanticBlock 객체로 저장 아래 코드는: CSV 읽고 페이지 단위 병합 rule-based 분리 semantic 블록 리스트 반환 이 코드가 하는 일 OCR JSON↓Flatten Read more…


semantic chunking

1. CSV를 읽어서 page_number 기준으로 텍스트를 먼저 병합하고, 페이지 태그를 삽입해 하나의 텍스트 스트림으로 만든다. 2. 그 전체 스트림을 1200~1500 토큰 기준으로 잘라서(overlap 100~150) LLM 처리용 chunk를 만든다. 3. LLM에는 이 token chunk 단위로만 태우고, page 정보는 메타데이터로 유지해 결과를 Read more…


긴 문서를 LLM으로 처리하는 방법: 토큰 분할 전략과 Timeout 방지 구조 정리

긴 문서를 LLM으로 처리하는 방법: 토큰 분할 전략과 Timeout 방지 구조 정리 대형 보고서, PDF 변환 문서, OCR 결과 JSON 등을 LLM에 바로 넣으면 대부분 Timeout이 발생한다. 이유는 단순하다. LLM은 문단을 이해하는 것이 아니라 토큰을 읽기 때문이다. 따라서 긴 문서를 Read more…


xssdd

full_text = full_text[:20000] # 테스트용 자르기