메인 콘텐츠로 건너뛰기
지식 기반 설정의 설정 탭을 사용하면 문서가 처리되고 청킹되는 방법을 구성할 수 있습니다. 이 설정은 콘텐츠가 청크로 분할되는 방법을 제어하며, 이는 AI 에이전트가 지식 기반에서 정보를 검색하고 사용하는 방식에 영향을 미칩니다.

개요

설정 탭에는 다음이 포함됩니다:
  • 청킹 전략 - 문서가 청크로 분할되는 방법
  • 청크 구성 - 청크의 크기와 겹침 설정
  • 청크 향상 설정 - 선택적 AI 기반 청크 풍부화

설정 접근

  1. 사이드바에서 지식 기반으로 이동
  2. KB 데이터 섹션으로 이동
  3. 설정 아이콘(톱니바퀴 아이콘) 클릭
  4. 설정 탭 선택

청킹 전략

청킹 전략은 문서가 임베딩 및 검색을 위해 더 작은, 처리 가능한 청크로 분할되는 방법을 결정합니다.

문장 청킹

문장 경계를 기반으로 텍스트를 청크로 분할하여 각 청크에 완전한 문장이 포함되도록 합니다. 적합한 용도:
  • 자연어 문서
  • 문장 컨텍스트 보존
  • 범용 콘텐츠
구성:
  • 자연어 경계를 위해 문장 토크나이저 사용
  • 청크에 완전한 문장이 포함되도록 보장
  • 가독성 및 컨텍스트 유지

의미적 청킹

문장 경계와 일치하지 않을 수 있는 의미론적으로 의미 있는 청크로 텍스트를 분할합니다. 적합한 용도:
  • 복잡한 문서
  • 의미적 컨텍스트 보존
  • 고급 검색 요구 사항
구성:
  • 청크 경계를 자동으로 결정
  • 의미적 의미 보존
  • 문장 경계와 일치하지 않을 수 있음

청크 구성

청크 구성은 문장 청킹을 선택하면 나타납니다. 이를 통해 문서가 분할되는 방법을 미세 조정할 수 있습니다.

청크 크기

각 청크의 최대 크기를 토큰/문자로 지정합니다. 기본값: 64 권장사항: 대부분의 사용 사례에 대해 64-512 토큰 고려 사항:
  • 더 큰 청크는 더 많은 컨텍스트를 보존하지만 검색 정확도가 떨어질 수 있음
  • 더 작은 청크는 더 정확하지만 컨텍스트를 잃을 수 있음
  • 컨텍스트 보존과 검색 정확도 사이의 균형
구성 방법:
  1. 청킹 전략으로 문장 청킹 선택
  2. 청크 크기 필드에 원하는 청크 크기 입력
  3. 값은 최소 1이어야 합니다

청크 겹침

인접 청크 간 겹치는 토큰/문자 수입니다. 이를 통해 청크 경계 전반에 걸쳐 컨텍스트를 유지할 수 있습니다. 기본값: 6 권장사항: 설정된 청크 크기의 10-20% 고려 사항:
  • 겹침은 중요한 정보가 청크 경계에 걸쳐 분할되는 것을 방지
  • 너무 많은 겹침은 저장 공간과 처리를 낭비
  • 너무 적은 겹침은 청크 간 컨텍스트를 잃을 수 있음
구성 방법:
  1. 청킹 전략으로 문장 청킹 선택
  2. 청크 겹침 필드에 원하는 겹침 입력
  3. 값은 음수가 아니어야 하며 청크 크기보다 작아야 합니다
예시:
  • 청크 크기가 64인 경우 권장 겹침은 6-13 토큰
  • 청크 크기가 512인 경우 권장 겹침은 51-102 토큰

청크 향상 설정

청크 향상은 더 나은 검색을 위해 추가 컨텍스트와 메타데이터로 청크를 향상시키기 위해 AI를 사용합니다.

청크 풍부화

더 나은 검색을 위해 추가 컨텍스트로 청크를 향상시키려면 청크 풍부화를 활성화합니다. 이점:
  • 더 나은 검색 정확도
  • 향상된 컨텍스트 이해
  • 향상된 검색 품질
활성화 방법:
  1. 청크 풍부화 스위치를 토글하여 활성화
  2. 풍부화를 위한 LLM 모델 선택(활성화 시 필수)
  3. 설정 저장
고려 사항:
  • 처리 시간 증가
  • LLM 모델 선택 필요
  • 연산 비용 추가
  • 검색 품질 향상

LLM 모델 선택

청크 풍부화가 활성화되면 청크 풍부화 및 콘텐츠 분석을 위해 LLM 모델을 선택해야 합니다. 사용 가능한 모델:
  • 모든 사전 정의 모델(GPT-4o, Claude, Gemini 등)
  • 프로젝트에서 구성된 사용자 지정 모델
선택 방법:
  1. 청크 풍부화 활성화
  2. LLM 모델 드롭다운 클릭
  3. 목록에서 원하는 모델 선택
  4. 설정 저장

설정 저장 및 적용

설정 저장

구성을 저장하지만 앞으로 동기화되거나 추가되는 새 문서에만 적용됩니다. 단계:
  1. 설정을 구성합니다
  2. 설정 저장 클릭
  3. 설정이 데이터베이스에 저장됩니다
  4. 새 문서는 이 설정을 사용합니다
저장된 설정은 새 문서에만 적용됩니다. 기존 문서는 원래 청킹 구성을 계속 사용합니다.

모든 문서에 적용

현재 설정을 사용하여 지식 기반의 모든 기존 문서를 다시 인덱싱합니다. 단계:
  1. 설정을 구성하고 저장합니다
  2. 모든 문서에 적용 클릭
  3. 모달에서 작업을 확인합니다
  4. 문서가 다시 동기화되는 동안 진행 상황을 모니터링합니다
발생하는 일:
  • 모든 문서가 새 설정으로 다시 동기화됩니다
  • 새 구성을 사용하여 청크가 다시 생성됩니다
  • 임베딩이 업데이트됩니다
  • 프로세스가 백그라운드에서 실행됩니다
문서 수에 따라 모든 문서에 설정을 적용하는 데 상당한 시간이 걸릴 수 있습니다. 이 프로세스는 시작되면 취소할 수 없습니다.

모범 사례

청킹 전략 선택

  1. 문장 청킹으로 시작 - 대부분의 사용 사례에 적합
  2. 의미적 청킹 사용 - 복잡하거나 기술적인 문서의 경우
  3. 둘 다 테스트 - 콘텐츠의 검색 품질 비교

청크 크기 구성

  1. 기본값(64)으로 시작 - 대부분의 콘텐츠에 대한 좋은 기준선
  2. 컨텍스트가 많은 콘텐츠의 경우 증가 - 더 많은 컨텍스트가 필요한 문서
  3. 정확한 검색의 경우 감소 - 정확한 일치가 중요한 경우
  4. 다양한 크기 테스트 - 사용 사례에 최적의 크기 찾기

청크 겹침 구성

  1. 청크 크기의 10-20% 사용 - 권장 범위
  2. 중요한 정보의 경우 증가 - 컨텍스트가 필수적인 경우
  3. 저장 효율성의 경우 감소 - 저장 공간이 문제인 경우
  4. 컨텍스트 vs 효율성의 균형 - 최적의 지점 찾기

청크 풍부화

  1. 복잡한 콘텐츠의 경우 활성화 - 단순한 청킹만으로는 충분하지 않을 때
  2. 적절한 모델 선택 - 강력한 추론 능력이 있는 모델 사용
  3. 성능 모니터링 - 처리 시간 증가 주시
  4. 품질 개선 테스트 - 향상된 검색 품질 확인

문제 해결

설정이 적용되지 않음

문제: 설정이 저장되었지만 문서가 새 구성을 사용하지 않음 해결 방법:
  1. 모든 문서에 적용을 클릭하여 기존 문서를 다시 인덱싱
  2. 설정이 올바르게 저장되었는지 확인
  3. 새 문서가 설정을 사용하고 있는지 확인
  4. 백그라운드 동기화가 완료될 때까지 기다림

낮은 검색 품질

문제: AI 에이전트가 관련 정보를 찾지 못함 해결 방법:
  1. 청크 크기 조정(더 많은 컨텍스트를 위해 더 큰 청크 시도)
  2. 청크 겹침 증가
  3. 청크 풍부화 활성화
  4. 다양한 청킹 전략 테스트

처리 시간 문제

문제: 문서 처리에 너무 오래 걸림 해결 방법:
  1. 청크 크기 줄이기
  2. 청크 풍부화 비활성화
  3. 풍부화를 위해 더 빠른 LLM 모델 사용
  4. 문서 크기 및 복잡성 확인

관련 기능

  • 커넥터 - 외부 데이터 소스 통합
  • 크롤러 - 웹 콘텐츠 자동 가져오기
  • 동기화 및 예약 - 동기화 예약 관리
  • 템플릿 - 응답 템플릿 만들기

커넥터

외부 데이터 소스 연결에 대해 알아보기

크롤러

웹 크롤러에 대해 알아보기

동기화 및 예약

동기화 예약에 대해 알아보기