वेब क्रॉलर का उपयोग

वेब क्रॉलर के साथ, आप वेबसाइट के डोमेन URL का उपयोग करके किसी वेबसाइट से स्वचालित रूप से जानकारी एकत्र कर सकते हैं। डोमेन के भीतर कोई भी खोजने योग्य पृष्ठ स्वचालित रूप से Knowledge Base में जोड़ दिया जाएगा। जिन वेबसाइटों की सामग्री अक्सर अपडेट होती है, उनके लिए आप नवीनतम जानकारी जोड़ने के लिए समय-समय पर क्रॉल शेड्यूल कर सकते हैं। इसके अतिरिक्त, आप केवल अपनी वेबसाइट के विशिष्ट अनुभागों को निकालने के लिए क्रॉल पैटर्न में कुछ कीवर्ड या पथ निर्दिष्ट कर सकते हैं।

क्रॉलिंग पैटर्न

पैटर्न सरल URL स्ट्रिंग मिलान के आधार पर क्रॉल किए गए पृष्ठों या प्रक्रियाओं पर त्वरित और आसान प्रतिबंध सक्षम करते हैं। उदाहरण के लिए, http://www.example.com/sports/heres-a-sports-article.html पर केवल “sports” श्रेणी के पृष्ठ क्रॉल करने के लिए, आप /sports/ क्रॉल पैटर्न निर्दिष्ट कर सकते हैं (स्लैश शामिल करना सटीकता सुनिश्चित करता है और URL में कहीं और “sports” स्ट्रिंग से मिलान को रोकता है)। क्रॉल पैटर्न का उपयोग करके, आप क्रॉलिंग को किसी विशिष्ट उप-डोमेन तक सीमित कर सकते हैं। उदाहरण के लिए, किसी विशिष्ट डोमेन पर शुरू होने वाले क्रॉल में, आप अनावश्यक लिंक से क्रॉल को रोकने के लिए क्रॉल पैटर्न दर्ज कर सकते हैं। वेब क्रॉल कॉन्फ़िगरेशन में, आप प्रत्येक व्यक्तिगत पैटर्न को नई पंक्ति में रखकर कई पैटर्न दर्ज कर सकते हैं। ये उपलब्ध क्रॉलिंग पैटर्न हैं:

URL के प्रारंभ तक मिलान सीमित करना

URL के प्रारंभ तक पैटर्न मिलान को प्रतिबंधित करने के लिए कैरेक्ट (^) का उपयोग करें। उदाहरण के लिए, ^https://example.com प्रोसेसिंग पैटर्न केवल उन पृष्ठों की प्रोसेसिंग को सीमित करेगा जिनके URL https://example.com से शुरू होते हैं।

नकारात्मक-मिलान पैटर्न

पृष्ठों को स्पष्ट रूप से क्रॉल या प्रोसेस करने से बाहर करने के लिए “नकारात्मक मिलान” के लिए विस्मयादिबोधक बिंदु (!) का उपयोग करें।

कई पैटर्न के साथ, नकारात्मक मिलान अन्य क्रॉल पैटर्न को ओवरराइड करेंगे (Regex को छोड़कर, वे किसी भी अन्य पैटर्न से प्राथमिकता रखेंगे)।

नियमित व्यंजक क्रॉल और प्रोसेसिंग

अपने क्रॉलिंग या प्रोसेसिंग URL मिलान पर सटीक नियंत्रण के लिए, आप केवल उन्हीं URLs को क्रॉल या प्रोसेस करने के लिए एक नियमित व्यंजक (regex) बना सकते हैं जो आपकी परिभाषित व्यंजक से मेल खाते हैं। उदाहरण के लिए, “/crawl” पथ के अंतर्गत https://example.com/ पर पृष्ठों को प्रोसेस करने के लिए जिनमें “regex” शब्द हो, आप इसके समान प्रोसेसिंग regex का उपयोग कर सकते हैं: \\/crawl.*?regex। crawlbot पृष्ठों का मूल्यांकन करते समय इष्टतम प्रदर्शन के लिए एक कस्टम नियमित व्यंजक इंजन का उपयोग करता है। कैरेक्टर क्लास सिंटैक्स के संदर्भ में, जो Crawlbot पार्सिंग में आमतौर पर उपयोग किया जाता है, crawlbot सभी ASCII प्रोसेसिंग कैरेक्टर और अधिकांश Perl/Tcl शॉर्टकट का समर्थन करता है।

क्रॉलिंग और प्रोसेसिंग regex अन्य क्रॉलिंग पैटर्न के साथ एक साथ उपयोग नहीं किया जा सकता। यदि दोनों प्रदान किए जाते हैं, तो regex अन्य क्रॉल पैटर्न को ओवरराइड कर देगा।

HTML प्रोसेसिंग पैटर्न

क्रॉल HTML प्रोसेसिंग पैटर्न के आधार पर प्रोसेस किए गए पृष्ठों को सीमित करने की अनुमति देता है, जो केवल कच्चे स्रोत की जाँच करता है और क्रॉलिंग के समय JavaScript/AJAX नहीं चलाता। हालाँकि, इस विकल्प का नुकसान क्रॉल गति है। यदि आप तेज़ क्रॉलिंग गति चाहते हैं, तो आपको regex क्रॉलिंग और प्रोसेसिंग का उपयोग करना चाहिए।

क्रॉलर का उपयोग कब करें

क्रॉलर वेब से संरचित, उच्च-मूल्य वाली जानकारी निकालने के लिए डिज़ाइन किया गया है। यह उन परिदृश्यों में सबसे अच्छा काम करता है जहाँ डेटा सार्वजनिक रूप से उपलब्ध और नियमित रूप से अपडेट होता है।

सर्वोत्तम उपयोग के मामले

समाचार और मीडिया – BBC News जैसी साइटों से लेख निकालें
वित्तीय डेटा – NASDAQ जैसी स्टॉक साइटों से बाज़ार अंतर्दृष्टि एकत्र करें
ई-कॉमर्स – बाज़ारों से उत्पाद लिस्टिंग, समीक्षाएँ और मूल्य निर्धारण एकत्र करें
ज्ञान संसाधन – अपने Knowledge Base को समृद्ध करने के लिए ब्लॉग पोस्ट, फ़ोरम चर्चाएँ, या FAQ सामग्री कैप्चर करें।

क्रॉलर का उपयोग कब न करें

त्रुटियों या अनुपालन समस्याओं को रोकने के लिए इन स्थितियों में क्रॉलिंग से बचें:

प्रमाणीकरण आवश्यक – जिन वेबसाइटों के लिए लॉगिन प्रमाण-पत्र आवश्यक हैं (जैसे, LinkedIn)।
अत्यधिक गतिशील डैशबोर्ड – रीयल-टाइम डैशबोर्ड (जैसे लाइव स्टॉक टिकर) पूर्ण परिणाम नहीं दे सकते।
अत्यधिक साइट लोड – प्रत्येक साइट की उपयोग नीतियों का सम्मान करें–क्रॉलिंग से पहले हमेशा robot.txt फ़ाइल की समीक्षा करें।

नया क्रॉलर बनाएँ

अपने EKB प्रोजेक्ट में, Knowledge Base पर नेविगेट करें।
Knowledge Base में, ऊपरी-दाएँ कोने पर गियर आइकन पर क्लिक करें।
क्रॉलर टैब पर जाएँ।
+ नया बनाएँ पर क्लिक करें।
इनपुट अनुभाग में:
a। अपने क्रॉलर के लिए एक नाम दर्ज करें।
b। सीड URL प्रदान करें, उस वेबसाइट का लिंक जिसे आप क्रॉल करना चाहते हैं। यह प्रारंभिक लिंक है जो क्रॉलर द्वारा एक्सेस किया जाता है। वहाँ से, क्रॉलर वेबसाइट के भीतर उपलब्ध वेब पृष्ठों और लिंक्स का पता लगाता है।
क्रॉलर सेटिंग्स अनुभाग में:
- रूट डोमेन तक सीमित करें – यह क्रॉलर को केवल रूट डोमेन पर ध्यान केंद्रित करने के लिए सेट करता है, प्रासंगिक जानकारी निकासी को सुव्यवस्थित करता है।
- फ़ाइलें डाउनलोड करें – यदि आप चाहते हैं कि क्रॉलर क्रॉलिंग के दौरान मिली फ़ाइलों को डाउनलोड और प्रोसेस करे तो इस विकल्प को सक्षम करें।
- अधिकतम पृष्ठ क्रॉल करें – संसाधन उपयोग और दक्षता को अनुकूलित करने के लिए क्रॉल करने के लिए अधिकतम पृष्ठों की संख्या सेट करें।
- अधिकतम गहराई – सीड URL से क्रॉल करने के लिए अधिकतम गहराई सेट करें (अर्थात कितने लिंक गहरे तक फ़ॉलो करने हैं)।
- क्रॉल रणनीति – चुनें कि क्रॉलर किन पृष्ठों को पहले विज़िट करने को प्राथमिकता देता है।
  - बेस्ट फ़र्स्ट – यदि आप यह विकल्प चुनते हैं, तो आपको कीवर्ड कॉन्फ़िगर करना होगा जो क्रॉलर को इन पृष्ठों को खोजने के लिए उपयोग करने चाहिए और इन कीवर्ड का वजन।
    - बेस्ट फ़र्स्ट के लिए कीवर्ड – इस टेक्स्ट बॉक्स में कॉन्फ़िगर किए गए कीवर्ड वाले पृष्ठ पहले क्रॉल होंगे। प्रति पंक्ति एक कीवर्ड दर्ज करें।
    - कीवर्ड वजन – कीवर्ड मिलान के लिए कीवर्ड वजन कॉन्फ़िगर करें; मान जितना अधिक होगा, उतनी ही अधिक प्राथमिकता कीवर्ड मिलान को दी जाती है।
  - ब्रेड्थ फ़र्स्ट – यह विधि गहराई में जाने से पहले वर्तमान पृष्ठ से सीधे जुड़े सभी पृष्ठों को विज़िट करने को प्राथमिकता देती है।
  - डेप्थ फ़र्स्ट – यह विधि पीछे हटने और अन्य पथों का पता लगाने से पहले किसी एक लिंक पथ के साथ यथासंभव गहराई तक खोजने को प्राथमिकता देती है।
- डोमेन तक सीमित करें – रूट डोमेन के भीतर सभी उप-डोमेन को क्रॉल करने के बजाय क्रॉलर को विशिष्ट डोमेन तक सीमित करें। प्रति पंक्ति एक डोमेन दर्ज करें या सभी उप-डोमेन को क्रॉल करने के लिए खाली छोड़ दें।
- पैटर्न तक सीमित करें – वे क्रॉलिंग पैटर्न दर्ज करें जिनका उपयोग आप चाहते हैं कि क्रॉलर करे। प्रति पंक्ति एक क्रॉलिंग पैटर्न दर्ज करें।
  यदि आप कई क्रॉलिंग पैटर्न का उपयोग कर रहे हैं, तो यह पदानुक्रम है:
  1. Regex
  2. नकारात्मक मिलान
  3. सभी अन्य पैटर्न।
शेड्यूलिंग अनुभाग में, शेड्यूल किए गए क्रॉल के लिए आवृत्ति और समय परिभाषित करें:
- क्रॉलिंग सक्षम – क्रॉलिंग शेड्यूल सेट करने के लिए इस विकल्प को सक्षम करें।
- हर n दिन में दोहराएँ – वे दिन संख्या सेट करें जिनमें आप चाहते हैं कि क्रॉल चले। उदाहरण के लिए:
  - दैनिक = 1
  - साप्ताहिक = 7
  - पाक्षिक = 14
  - मासिक = 30
- अगला शेड्यूल – आपके द्वारा दर्ज किए गए दिनों की संख्या के आधार पर, आपको अगली क्रॉल तिथि दिखाई देगी।
एक बार अपने वेब क्रॉल को कॉन्फ़िगर करने के बाद, पहला क्रॉल शुरू करने के लिए अभी क्रॉल करें पर क्लिक करें। आपको निम्नलिखित टैब के साथ नए क्रॉलर के कॉन्फ़िगरेशन पेज पर रीडायरेक्ट किया जाएगा:
- अवलोकन – यहाँ आप क्रॉल अनुरोध जानकारी और स्थिति देख सकते हैं।
- सेटिंग्स – यहाँ आप क्रॉलर की सेटिंग्स संपादित कर सकते हैं। क्रॉल चलने के बाद भी आप इन सेटिंग्स को संपादित कर सकते हैं।
- क्रॉल किया गया रिपोर्ट – यह टैब क्रॉल किए जा रहे पृष्ठों पर रीयल-टाइम अपडेट प्रदान करता है।

अब आपका क्रॉलर कॉन्फ़िगर हो गया है और अपना पहला क्रॉल चला रहा है!

सर्वोत्तम प्रथाएँ

इन सर्वोत्तम प्रथाओं का पालन करने से यह सुनिश्चित होता है कि आपका क्रॉलर कुशलता से चले, अनावश्यक डुप्लीकेशन से बचे, और केवल सबसे प्रासंगिक डेटा आपके Knowledge Base में लाए।

1. स्पष्ट और संक्षिप्त सीड URLs का उपयोग करें

उन URLs को चुनें जो सीधे उस वेबसाइट अनुभाग की ओर इंगित करते हैं जिसे आप निकालना चाहते हैं।

अच्छा उदाहरण: https://www.example.com/news (केवल “news” अनुभाग को लक्षित करता है)
खराब उदाहरण: https://www.example.com?user=1234 (गतिशील पैरामीटर का उपयोग त्रुटियों या अनावश्यक क्रॉलिंग का कारण बन सकता है)

हमेशा सुनिश्चित करें:

URL एक्सेस करने योग्य है और आपके द्वारा निकाले जाने वाले डेटा से प्रासंगिक है।
जब आप क्रॉलिंग को किसी विशिष्ट अनुभाग तक सीमित करना चाहते हैं तो उप-पृष्ठों का उपयोग करें।

2. डोमेन और उप-डोमेन तक सीमित करें

अनावश्यक या असंबंधित डेटा को खींचने से बचने के लिए अपने क्रॉल को केंद्रित रखें।

रूट डोमेन तक सीमित करें – example.com को क्रॉल करना केवल उस डोमेन को कैप्चर करता है और बाहरी लिंक (जैसे otherwebsite.com) को अनदेखा करता है।
डोमेन तक सीमित करें – blog.example.com को क्रॉल करने में shop.example.com जैसे अन्य उप-डोमेन शामिल नहीं होंगे।

उदाहरण

https://www.bbc.com को क्रॉल करना, रूट डोमेन तक सीमित करें सक्षम होने पर यह सुनिश्चित करता है कि केवल BBC सामग्री शामिल हो–साइट पर जुड़े बाहरी समाचार स्रोत नहीं।

3. क्रॉलिंग और प्रोसेसिंग पैटर्न का उपयोग करें

पैटर्न आपको विनियमित करने देते हैं कि क्रॉलर क्या खींचता और प्रोसेस करता है।

क्रॉलिंग पैटर्न – परिभाषित करें कि कौन से URLs क्रॉल किए जाने चाहिए।
प्रोसेसिंग पैटर्न – निर्दिष्ट करें कि कौन सी सामग्री आपके Knowledge Base में निकाली जानी चाहिए। दोनों एक सरलीकृत regex सिंटैक्स का उपयोग करते हैं:
निहित वाइल्डकार्ड – products दर्ज करना किसी भी URL से मेल खाता है जिसमें “products” हो।
नकारात्मक (!) – !products किसी भी URL से मेल खाता है जिसमें “products” नहीं हो।
से शुरू (^) – ^https://example.com/products/ उस पथ से शुरू होने वाले URLs से मेल खाता है।
पर समाप्त ($) – products/$ “products” पर समाप्त होने वाले URLs से मेल खाता है।

उदाहरण

क्रॉलिंग पैटर्न – https://example.com/products/* > सभी उत्पाद पृष्ठ क्रॉल करता है।
प्रोसेसिंग पैटर्न – https://example.com/products/*reviews > केवल उत्पाद पृष्ठों से समीक्षाएँ निकालता है।

4. शेड्यूल किए गए क्रॉल सक्षम करें (जब आवश्यक हो)

गतिशील वेबसाइटों के लिए, अपने Knowledge Base को अद्यतित रखने के लिए क्रॉल शेड्यूल करें।

उदाहरण

दैनिक क्रॉल सक्षम करके https://www.nasdaq.com पर स्टॉक की कीमतों को ट्रैक करें।

5. दक्षता के लिए साइटमैप का उपयोग करें

यदि कोई साइट साइटमैप प्रदान करती है (जैसे, `https://example.com/sitemap.xml), तो क्रॉलर का मार्गदर्शन करने और पूर्ण कवरेज सुनिश्चित करने के लिए इसका लाभ उठाएँ।

उदाहरण

एक साइटमैप वाली समाचार वेबसाइट जो सभी हाल के लेखों को सूचीबद्ध करती है, गारंटी देती है कि कोई लेख न छूटे।

Get Started!

Offerings

Chat

Agents

Knowledge Base

Workflows

Public Chatbot

Project Settings

My Account

Platform Admin

SDK

General Information

वेब क्रॉलर का उपयोग

क्रॉलिंग पैटर्न