メインコンテンツへスキップ
ナレッジベースの設定タブでは、ドキュメントの処理およびチャンク分割方法を構成できます。これらの設定は、コンテンツをどのようにチャンクに分割するかを制御し、AIエージェントがナレッジベースから情報をどのように取得・利用するかに影響します。

概要

設定タブには以下の項目が含まれます:
  • チャンク戦略 - ドキュメントをチャンクに分割する方法
  • チャンク設定 - チャンクのサイズとオーバーラップの設定
  • チャンクエンリッチメント設定 - オプションのAIによるチャンクエンリッチメント

設定へのアクセス

  1. サイドバーでナレッジベースに移動します
  2. KBデータセクションに進みます
  3. 設定アイコン(歯車アイコン)をクリックします
  4. 設定タブを選択します

チャンク戦略

チャンク戦略は、ドキュメントを埋め込みや検索のために処理可能な小さなチャンクに分割する方法を決定します。

文章チャンク

テキストを文の境界に基づいてチャンクに分割し、各チャンクに完全な文が含まれるようにします。 最適な使用例:
  • 自然言語ドキュメント
  • 文のコンテキストを保持したい場合
  • 汎用コンテンツ
設定:
  • 自然言語の境界を検出するためにセレントイカナイザーを使用
  • チャンクに完全な文が含まれることを保証
  • 可読性とコンテキストを維持

セマンティックチャンク

テキストを意味的に意味のあるチャンクに分割します。文の境界と一致しない場合があります。 最適な使用例:
  • 複雑なドキュメント
  • セマンティックコンテキストを保持したい場合
  • 高度な検索要件
設定:
  • チャンクの境界を自動的に決定
  • セマンティックな意味を保持
  • 文の境界と一致しない場合がある

チャンク設定

文章チャンクを選択すると、チャンク設定が表示されます。これにより、ドキュメントの分割方法を微調整できます。

チャンクサイズ

各チャンクの最大サイズ(トークン/文字数)。 デフォルト値: 64 推奨値: 大部分のユースケースで64〜512トークン 考慮事項:
  • 大きいチャンクはより多くのコンテキストを保持しますが、検索の精度が低下する場合があります
  • 小さいチャンクはより正確ですが、コンテキストを失う場合があります
  • コンテキストの保持と検索精度のバランスを取ることが重要です
構成方法:
  1. チャンク戦略として文章チャンクを選択します
  2. チャンクサイズフィールドに希望のチャンクサイズを入力します
  3. 値は1以上である必要があります

チャンクオーバーラップ

隣接するチャンク間のオーバーラップするトークン/文字数。これにより、チャンク境界をまたいでコンテキストを維持します。 デフォルト値: 6 推奨値: 設定したチャンクサイズの10〜20% 考慮事項:
  • オーバーラップは、重要な情報がチャンク境界で分割されることを防ぎます
  • オーバーラップが多すぎると、ストレージと処理を浪費します
  • オーバーラップが少なすぎると、チャンク間のコンテキストが失われる場合があります
構成方法:
  1. チャンク戦略として文章チャンクを選択します
  2. チャンクオーバーラップフィールドに希望のオーバーラップ値を入力します
  3. 値は負数でなく、チャンクサイズより小さい必要があります
例:
  • チャンクサイズが64の場合、推奨オーバーラップは6〜13トークンです
  • チャンクサイズが512の場合、推奨オーバーラップは51〜102トークンです

チャンクエンリッチメント設定

チャンクエンリッチメントは、AIを使用してチャンクに追加のコンテキストとメタデータを付与し、より良い検索を実現します。

チャンクエンリッチメント

チャンクエンリッチメントを有効にすると、より良い検索のために追加のコンテキストでチャンクを強化します。 利点:
  • より正確な検索
  • コンテキスト理解の向上
  • 検索品質の向上
有効化方法:
  1. チャンクエンリッチメントスイッチを切り替えます
  2. エンリッチメント用のLLMモデルを選択します(有効化時に必須)
  3. 設定を保存します
考慮事項:
  • 処理時間が増加します
  • LLMモデルの選択が必要です
  • 計算コストが追加されます
  • 検索品質が向上します

LLMモデル選択

チャンクエンリッチメントが有効になっている場合、チャンクエンリッチメントとコンテンツ分析のためにLLMモデルを選択する必要があります。 利用可能なモデル:
  • すべての定義済みモデル(GPT-4o、Claude、Geminiなど)
  • プロジェクトで構成されたカスタムモデル
選択方法:
  1. チャンクエンリッチメントを有効にします
  2. LLMモデルドロップダウンをクリックします
  3. リストから希望のモデルを選択します
  4. 設定を保存します
モデル選択のヒント:
  • より良いエンリッチメントのために、推論能力が高いモデルを使用してください
  • 処理時間と品質のトレードオフを考慮してください
  • コンテンツに最適なモデルを見つけるために、さまざまなモデルをテストしてください

設定の保存と適用

設定を保存

設定を保存しますが、今後同期または追加される新しいドキュメントのみに適用されます。 手順:
  1. 設定を構成します
  2. 設定を保存をクリックします
  3. 設定がデータベースに保存されます
  4. 新しいドキュメントはこれらの設定を使用します
保存された設定は新しいドキュメントのみに適用されます。既存のドキュメントは元のチャンク設定を引き続き使用します。

すべてのドキュメントに適用

現在の設定で、ナレッジベース内のすべての既存ドキュメントを再インデックスします。 手順:
  1. 設定を構成して保存します
  2. すべてのドキュメントに適用をクリックします
  3. モーダルで操作を確認します
  4. ドキュメントが再同期されるまで進行状況を監視します
発生する処理:
  • すべてのドキュメントが新しい設定で再同期されます
  • 新しい設定でチャンクが再生成されます
  • 埋め込みが更新されます
  • 処理はバックグラウンドで実行されます
進行状況の追跡:
  • ドキュメントの同期状況のリアルタイム更新
  • 各ドキュメントの成功/失敗ステータス
  • 処理済みファイルの合計数表示
ドキュメントの数に応じて、すべてのドキュメントへの設定適用にはかなりの時間がかかる場合があります。このプロセスは開始後にキャンセルできません。

ベストプラクティス

チャンク戦略の選択

  1. 文章チャンクから始めましょう - 大部分のユースケースに最適です
  2. セマンティックチャンクを使用 - 複雑なドキュメントや技術文書向けです
  3. 両方をテスト - コンテンツの検索品質を比較しましょう

チャンクサイズの構成

  1. デフォルト値(64)から始めましょう - 大部分のコンテンツに適したベースラインです
  2. コンテキスト量が多いコンテンツには増加 - より多くのコンテキストが必要なドキュメント向けです
  3. 正確な検索には減少 - 完全一致が重要場合に使用します
  4. さまざまなサイズをテスト - ユースケースに最適なサイズを見つけましょう

チャンクオーバーラップの構成

  1. チャンクサイズの10〜20%を使用 - 推奨範囲です
  2. 重要な情報には増加 - コンテキストが不可欠な場合に使用します
  3. ストレージ効率のためには減少 - ストレージに制約がある場合に使用します
  4. コンテキストと効率のバランス - 最適なポイントを見つけましょう

チャンクエンリッチメント

  1. 複雑なコンテンツには有効化 - シンプルなチャンクでは不十分な場合に使用します
  2. 適切なモデルを選択 - 推論能力が高いモデルを使用してください
  3. パフォーマンスを監視 - 処理時間の増加に注意してください
  4. 品質の改善をテスト - エンリッチメントによる検索品質の向上を確認してください

トラブルシューティング

設定が適用されない

問題: 設定は保存されたが、ドキュメントが新しい設定を使用していない 解決策:
  1. すべてのドキュメントに適用をクリックして既存のドキュメントを再インデックスします
  2. 設定が正しく保存されたことを確認します
  3. 新しいドキュメントが設定を使用しているか確認します
  4. バックグラウンドの同期が完了するまで待ちます

検索品質が悪い

問題: AIエージェントが関連する情報を見つけていない 解決策:
  1. チャンクサイズを調整します(より多くのコンテキストのために大きくしてみてください)
  2. チャンクオーバーラップを増やします
  3. チャンクエンリッチメントを有効にします
  4. 異なるチャンク戦略をテストします

処理時間の問題

問題: ドキュメントの処理に時間がかかりすぎる 解決策:
  1. チャンクサイズを小さくします
  2. チャンクエンリッチメントを無効にします
  3. エンリッチメントにより速いLLMモデルを使用します
  4. ドキュメントのサイズと複雑さを確認します

関連機能

  • コネクタ - 外部データソースの統合
  • クローラー - Webコンテンツの自動取得
  • 同期とスケジュール - 同期スケジュールの管理
  • テンプレート - レスポンステンプレートの作成

コネクタ

外部データソースの接続について詳しく学ぶ

クローラー

Webクローラーについて詳しく学ぶ

同期とスケジュール

同期スケジューリングについて詳しく学ぶ