✂텍스트 스플리터
로딩 중...
CSV 데이터, 로그 파일, 목록 등 다양한 형태의 텍스트를 원하는 구분자로 분리해 줍니다. 분리된 항목을 필터링하거나 정렬하고, JSON 배열 형태로 변환하거나 다른 구분자로 다시 합칠 수 있습니다. 모든 처리는 브라우저에서 이루어지므로 데이터가 서버로 전송되지 않습니다.
사용 방법
- 1텍스트 입력
분리할 텍스트를 입력창에 붙여넣거나 직접 입력합니다. 예제 버튼으로 샘플 데이터를 빠르게 불러올 수 있습니다.
- 2구분자 선택
줄바꿈, 쉼표, 세미콜론, 공백, 탭, 파이프(|) 중 선택하거나 직접 구분자를 입력합니다.
- 3옵션 설정
공백 제거(trim), 빈 항목 제거, 중복 제거 옵션을 필요에 따라 켜거나 끕니다.
- 4결과 활용
분리된 항목 목록을 확인하고, 검색으로 필터링하거나 정렬합니다. 항목을 다시 합치거나 JSON 배열로 복사할 수 있습니다.
활용 팁
- 💡CSV 한 줄을 쉼표 구분자로 분리하면 각 컬럼 값을 빠르게 확인할 수 있습니다.
- 💡중복 제거 옵션으로 고유값 목록을 손쉽게 만들 수 있습니다.
- 💡JSON 출력을 복사해 코드에 바로 붙여넣으면 배열 선언을 빠르게 완성할 수 있습니다.
- 💡필터 검색으로 특정 단어가 포함된 항목만 추려낼 수 있습니다.
자주 묻는 질문
- Q. 텍스트 분할이 LLM에서 왜 중요한가요?
- A. LLM(대규모 언어 모델)은 한 번에 처리할 수 있는 토큰 수에 한계(컨텍스트 윈도우)가 있습니다. 긴 문서를 적절한 크기로 분할해야 RAG(검색 증강 생성) 등에서 효과적으로 활용할 수 있습니다.
- Q. 청크(Chunk) 크기는 어떻게 결정하나요?
- A. 일반적으로 256~1024 토큰 크기로 분할합니다. 너무 작으면 문맥이 끊기고, 너무 크면 관련 없는 정보가 섞입니다. 문서 유형과 사용 목적에 따라 실험적으로 조정합니다.
- Q. 오버랩(Overlap)은 무엇이고 왜 필요한가요?
- A. 청크 간 일부 내용을 겹치게 설정하는 옵션입니다. 문장이 청크 경계에서 잘리더라도 다음 청크에서 문맥을 이어갈 수 있어 검색 품질이 향상됩니다.