개요
설정 탭에는 다음이 포함됩니다:- 청킹 전략 - 문서가 청크로 분할되는 방법
- 청크 구성 - 청크의 크기와 겹침 설정
- 청크 향상 설정 - 선택적 AI 기반 청크 풍부화
설정 접근
- 사이드바에서 지식 기반으로 이동
- KB 데이터 섹션으로 이동
- 설정 아이콘(톱니바퀴 아이콘) 클릭
- 설정 탭 선택
청킹 전략
청킹 전략은 문서가 임베딩 및 검색을 위해 더 작은, 처리 가능한 청크로 분할되는 방법을 결정합니다.문장 청킹
문장 경계를 기반으로 텍스트를 청크로 분할하여 각 청크에 완전한 문장이 포함되도록 합니다. 적합한 용도:- 자연어 문서
- 문장 컨텍스트 보존
- 범용 콘텐츠
- 자연어 경계를 위해 문장 토크나이저 사용
- 청크에 완전한 문장이 포함되도록 보장
- 가독성 및 컨텍스트 유지
의미적 청킹
문장 경계와 일치하지 않을 수 있는 의미론적으로 의미 있는 청크로 텍스트를 분할합니다. 적합한 용도:- 복잡한 문서
- 의미적 컨텍스트 보존
- 고급 검색 요구 사항
- 청크 경계를 자동으로 결정
- 의미적 의미 보존
- 문장 경계와 일치하지 않을 수 있음
청크 구성
청크 구성은 문장 청킹을 선택하면 나타납니다. 이를 통해 문서가 분할되는 방법을 미세 조정할 수 있습니다.청크 크기
각 청크의 최대 크기를 토큰/문자로 지정합니다. 기본값: 64 권장사항: 대부분의 사용 사례에 대해 64-512 토큰 고려 사항:- 더 큰 청크는 더 많은 컨텍스트를 보존하지만 검색 정확도가 떨어질 수 있음
- 더 작은 청크는 더 정확하지만 컨텍스트를 잃을 수 있음
- 컨텍스트 보존과 검색 정확도 사이의 균형
- 청킹 전략으로 문장 청킹 선택
- 청크 크기 필드에 원하는 청크 크기 입력
- 값은 최소 1이어야 합니다
청크 겹침
인접 청크 간 겹치는 토큰/문자 수입니다. 이를 통해 청크 경계 전반에 걸쳐 컨텍스트를 유지할 수 있습니다. 기본값: 6 권장사항: 설정된 청크 크기의 10-20% 고려 사항:- 겹침은 중요한 정보가 청크 경계에 걸쳐 분할되는 것을 방지
- 너무 많은 겹침은 저장 공간과 처리를 낭비
- 너무 적은 겹침은 청크 간 컨텍스트를 잃을 수 있음
- 청킹 전략으로 문장 청킹 선택
- 청크 겹침 필드에 원하는 겹침 입력
- 값은 음수가 아니어야 하며 청크 크기보다 작아야 합니다
- 청크 크기가 64인 경우 권장 겹침은 6-13 토큰
- 청크 크기가 512인 경우 권장 겹침은 51-102 토큰
청크 향상 설정
청크 향상은 더 나은 검색을 위해 추가 컨텍스트와 메타데이터로 청크를 향상시키기 위해 AI를 사용합니다.청크 풍부화
더 나은 검색을 위해 추가 컨텍스트로 청크를 향상시키려면 청크 풍부화를 활성화합니다. 이점:- 더 나은 검색 정확도
- 향상된 컨텍스트 이해
- 향상된 검색 품질
- 청크 풍부화 스위치를 토글하여 활성화
- 풍부화를 위한 LLM 모델 선택(활성화 시 필수)
- 설정 저장
- 처리 시간 증가
- LLM 모델 선택 필요
- 연산 비용 추가
- 검색 품질 향상
LLM 모델 선택
청크 풍부화가 활성화되면 청크 풍부화 및 콘텐츠 분석을 위해 LLM 모델을 선택해야 합니다. 사용 가능한 모델:- 모든 사전 정의 모델(GPT-4o, Claude, Gemini 등)
- 프로젝트에서 구성된 사용자 지정 모델
- 청크 풍부화 활성화
- LLM 모델 드롭다운 클릭
- 목록에서 원하는 모델 선택
- 설정 저장
설정 저장 및 적용
설정 저장
구성을 저장하지만 앞으로 동기화되거나 추가되는 새 문서에만 적용됩니다. 단계:- 설정을 구성합니다
- 설정 저장 클릭
- 설정이 데이터베이스에 저장됩니다
- 새 문서는 이 설정을 사용합니다
모든 문서에 적용
현재 설정을 사용하여 지식 기반의 모든 기존 문서를 다시 인덱싱합니다. 단계:- 설정을 구성하고 저장합니다
- 모든 문서에 적용 클릭
- 모달에서 작업을 확인합니다
- 문서가 다시 동기화되는 동안 진행 상황을 모니터링합니다
- 모든 문서가 새 설정으로 다시 동기화됩니다
- 새 구성을 사용하여 청크가 다시 생성됩니다
- 임베딩이 업데이트됩니다
- 프로세스가 백그라운드에서 실행됩니다
모범 사례
청킹 전략 선택
- 문장 청킹으로 시작 - 대부분의 사용 사례에 적합
- 의미적 청킹 사용 - 복잡하거나 기술적인 문서의 경우
- 둘 다 테스트 - 콘텐츠의 검색 품질 비교
청크 크기 구성
- 기본값(64)으로 시작 - 대부분의 콘텐츠에 대한 좋은 기준선
- 컨텍스트가 많은 콘텐츠의 경우 증가 - 더 많은 컨텍스트가 필요한 문서
- 정확한 검색의 경우 감소 - 정확한 일치가 중요한 경우
- 다양한 크기 테스트 - 사용 사례에 최적의 크기 찾기
청크 겹침 구성
- 청크 크기의 10-20% 사용 - 권장 범위
- 중요한 정보의 경우 증가 - 컨텍스트가 필수적인 경우
- 저장 효율성의 경우 감소 - 저장 공간이 문제인 경우
- 컨텍스트 vs 효율성의 균형 - 최적의 지점 찾기
청크 풍부화
- 복잡한 콘텐츠의 경우 활성화 - 단순한 청킹만으로는 충분하지 않을 때
- 적절한 모델 선택 - 강력한 추론 능력이 있는 모델 사용
- 성능 모니터링 - 처리 시간 증가 주시
- 품질 개선 테스트 - 향상된 검색 품질 확인
문제 해결
설정이 적용되지 않음
문제: 설정이 저장되었지만 문서가 새 구성을 사용하지 않음 해결 방법:- 모든 문서에 적용을 클릭하여 기존 문서를 다시 인덱싱
- 설정이 올바르게 저장되었는지 확인
- 새 문서가 설정을 사용하고 있는지 확인
- 백그라운드 동기화가 완료될 때까지 기다림
낮은 검색 품질
문제: AI 에이전트가 관련 정보를 찾지 못함 해결 방법:- 청크 크기 조정(더 많은 컨텍스트를 위해 더 큰 청크 시도)
- 청크 겹침 증가
- 청크 풍부화 활성화
- 다양한 청킹 전략 테스트
처리 시간 문제
문제: 문서 처리에 너무 오래 걸림 해결 방법:- 청크 크기 줄이기
- 청크 풍부화 비활성화
- 풍부화를 위해 더 빠른 LLM 모델 사용
- 문서 크기 및 복잡성 확인
관련 기능
- 커넥터 - 외부 데이터 소스 통합
- 크롤러 - 웹 콘텐츠 자동 가져오기
- 동기화 및 예약 - 동기화 예약 관리
- 템플릿 - 응답 템플릿 만들기
커넥터
외부 데이터 소스 연결에 대해 알아보기
크롤러
웹 크롤러에 대해 알아보기
동기화 및 예약
동기화 예약에 대해 알아보기