मुख्य सामग्री पर जाएं
वेब क्रॉलर के साथ, आप वेबसाइट के डोमेन URL का उपयोग करके किसी वेबसाइट से स्वचालित रूप से जानकारी एकत्र कर सकते हैं। डोमेन के भीतर कोई भी खोजने योग्य पृष्ठ स्वचालित रूप से Knowledge Base में जोड़ दिया जाएगा। जिन वेबसाइटों की सामग्री अक्सर अपडेट होती है, उनके लिए आप नवीनतम जानकारी जोड़ने के लिए समय-समय पर क्रॉल शेड्यूल कर सकते हैं। इसके अतिरिक्त, आप केवल अपनी वेबसाइट के विशिष्ट अनुभागों को निकालने के लिए क्रॉल पैटर्न में कुछ कीवर्ड या पथ निर्दिष्ट कर सकते हैं।

क्रॉलिंग पैटर्न

पैटर्न सरल URL स्ट्रिंग मिलान के आधार पर क्रॉल किए गए पृष्ठों या प्रक्रियाओं पर त्वरित और आसान प्रतिबंध सक्षम करते हैं। उदाहरण के लिए, http://www.example.com/sports/heres-a-sports-article.html पर केवल “sports” श्रेणी के पृष्ठ क्रॉल करने के लिए, आप /sports/ क्रॉल पैटर्न निर्दिष्ट कर सकते हैं (स्लैश शामिल करना सटीकता सुनिश्चित करता है और URL में कहीं और “sports” स्ट्रिंग से मिलान को रोकता है)। क्रॉल पैटर्न का उपयोग करके, आप क्रॉलिंग को किसी विशिष्ट उप-डोमेन तक सीमित कर सकते हैं। उदाहरण के लिए, किसी विशिष्ट डोमेन पर शुरू होने वाले क्रॉल में, आप अनावश्यक लिंक से क्रॉल को रोकने के लिए क्रॉल पैटर्न दर्ज कर सकते हैं। वेब क्रॉल कॉन्फ़िगरेशन में, आप प्रत्येक व्यक्तिगत पैटर्न को नई पंक्ति में रखकर कई पैटर्न दर्ज कर सकते हैं। ये उपलब्ध क्रॉलिंग पैटर्न हैं:
URL के प्रारंभ तक पैटर्न मिलान को प्रतिबंधित करने के लिए कैरेक्ट (^) का उपयोग करें। उदाहरण के लिए, ^https://example.com प्रोसेसिंग पैटर्न केवल उन पृष्ठों की प्रोसेसिंग को सीमित करेगा जिनके URL https://example.com से शुरू होते हैं।
पृष्ठों को स्पष्ट रूप से क्रॉल या प्रोसेस करने से बाहर करने के लिए “नकारात्मक मिलान” के लिए विस्मयादिबोधक बिंदु (!) का उपयोग करें।
कई पैटर्न के साथ, नकारात्मक मिलान अन्य क्रॉल पैटर्न को ओवरराइड करेंगे (Regex को छोड़कर, वे किसी भी अन्य पैटर्न से प्राथमिकता रखेंगे)।
अपने क्रॉलिंग या प्रोसेसिंग URL मिलान पर सटीक नियंत्रण के लिए, आप केवल उन्हीं URLs को क्रॉल या प्रोसेस करने के लिए एक नियमित व्यंजक (regex) बना सकते हैं जो आपकी परिभाषित व्यंजक से मेल खाते हैं। उदाहरण के लिए, “/crawl” पथ के अंतर्गत https://example.com/ पर पृष्ठों को प्रोसेस करने के लिए जिनमें “regex” शब्द हो, आप इसके समान प्रोसेसिंग regex का उपयोग कर सकते हैं: \\/crawl.*?regex। crawlbot पृष्ठों का मूल्यांकन करते समय इष्टतम प्रदर्शन के लिए एक कस्टम नियमित व्यंजक इंजन का उपयोग करता है। कैरेक्टर क्लास सिंटैक्स के संदर्भ में, जो Crawlbot पार्सिंग में आमतौर पर उपयोग किया जाता है, crawlbot सभी ASCII प्रोसेसिंग कैरेक्टर और अधिकांश Perl/Tcl शॉर्टकट का समर्थन करता है।
क्रॉलिंग और प्रोसेसिंग regex अन्य क्रॉलिंग पैटर्न के साथ एक साथ उपयोग नहीं किया जा सकता। यदि दोनों प्रदान किए जाते हैं, तो regex अन्य क्रॉल पैटर्न को ओवरराइड कर देगा।
क्रॉल HTML प्रोसेसिंग पैटर्न के आधार पर प्रोसेस किए गए पृष्ठों को सीमित करने की अनुमति देता है, जो केवल कच्चे स्रोत की जाँच करता है और क्रॉलिंग के समय JavaScript/AJAX नहीं चलाता। हालाँकि, इस विकल्प का नुकसान क्रॉल गति है। यदि आप तेज़ क्रॉलिंग गति चाहते हैं, तो आपको regex क्रॉलिंग और प्रोसेसिंग का उपयोग करना चाहिए।

क्रॉलर का उपयोग कब करें

क्रॉलर वेब से संरचित, उच्च-मूल्य वाली जानकारी निकालने के लिए डिज़ाइन किया गया है। यह उन परिदृश्यों में सबसे अच्छा काम करता है जहाँ डेटा सार्वजनिक रूप से उपलब्ध और नियमित रूप से अपडेट होता है।

सर्वोत्तम उपयोग के मामले

  • समाचार और मीडिया – BBC News जैसी साइटों से लेख निकालें
  • वित्तीय डेटा – NASDAQ जैसी स्टॉक साइटों से बाज़ार अंतर्दृष्टि एकत्र करें
  • ई-कॉमर्स – बाज़ारों से उत्पाद लिस्टिंग, समीक्षाएँ और मूल्य निर्धारण एकत्र करें
  • ज्ञान संसाधन – अपने Knowledge Base को समृद्ध करने के लिए ब्लॉग पोस्ट, फ़ोरम चर्चाएँ, या FAQ सामग्री कैप्चर करें।

क्रॉलर का उपयोग कब न करें

त्रुटियों या अनुपालन समस्याओं को रोकने के लिए इन स्थितियों में क्रॉलिंग से बचें:
  • प्रमाणीकरण आवश्यक – जिन वेबसाइटों के लिए लॉगिन प्रमाण-पत्र आवश्यक हैं (जैसे, LinkedIn)।
  • अत्यधिक गतिशील डैशबोर्ड – रीयल-टाइम डैशबोर्ड (जैसे लाइव स्टॉक टिकर) पूर्ण परिणाम नहीं दे सकते।
  • अत्यधिक साइट लोड – प्रत्येक साइट की उपयोग नीतियों का सम्मान करें–क्रॉलिंग से पहले हमेशा robot.txt फ़ाइल की समीक्षा करें।

नया क्रॉलर बनाएँ

  1. अपने EKB प्रोजेक्ट में, Knowledge Base पर नेविगेट करें।
  2. Knowledge Base में, ऊपरी-दाएँ कोने पर गियर आइकन पर क्लिक करें।
  3. क्रॉलर टैब पर जाएँ।
  4. + नया बनाएँ पर क्लिक करें।
  5. इनपुट अनुभाग में:
    Crawler Input a। अपने क्रॉलर के लिए एक नाम दर्ज करें।
    bसीड URL प्रदान करें, उस वेबसाइट का लिंक जिसे आप क्रॉल करना चाहते हैं। यह प्रारंभिक लिंक है जो क्रॉलर द्वारा एक्सेस किया जाता है। वहाँ से, क्रॉलर वेबसाइट के भीतर उपलब्ध वेब पृष्ठों और लिंक्स का पता लगाता है।
  6. क्रॉलर सेटिंग्स अनुभाग में:
    Crawler Settings
    • रूट डोमेन तक सीमित करें – यह क्रॉलर को केवल रूट डोमेन पर ध्यान केंद्रित करने के लिए सेट करता है, प्रासंगिक जानकारी निकासी को सुव्यवस्थित करता है।
    • फ़ाइलें डाउनलोड करें – यदि आप चाहते हैं कि क्रॉलर क्रॉलिंग के दौरान मिली फ़ाइलों को डाउनलोड और प्रोसेस करे तो इस विकल्प को सक्षम करें।
    • अधिकतम पृष्ठ क्रॉल करें – संसाधन उपयोग और दक्षता को अनुकूलित करने के लिए क्रॉल करने के लिए अधिकतम पृष्ठों की संख्या सेट करें।
    • अधिकतम गहराई – सीड URL से क्रॉल करने के लिए अधिकतम गहराई सेट करें (अर्थात कितने लिंक गहरे तक फ़ॉलो करने हैं)।
    • क्रॉल रणनीति – चुनें कि क्रॉलर किन पृष्ठों को पहले विज़िट करने को प्राथमिकता देता है।
      • बेस्ट फ़र्स्ट – यदि आप यह विकल्प चुनते हैं, तो आपको कीवर्ड कॉन्फ़िगर करना होगा जो क्रॉलर को इन पृष्ठों को खोजने के लिए उपयोग करने चाहिए और इन कीवर्ड का वजन।
        • बेस्ट फ़र्स्ट के लिए कीवर्ड – इस टेक्स्ट बॉक्स में कॉन्फ़िगर किए गए कीवर्ड वाले पृष्ठ पहले क्रॉल होंगे। प्रति पंक्ति एक कीवर्ड दर्ज करें।
        • कीवर्ड वजन – कीवर्ड मिलान के लिए कीवर्ड वजन कॉन्फ़िगर करें; मान जितना अधिक होगा, उतनी ही अधिक प्राथमिकता कीवर्ड मिलान को दी जाती है।
      • ब्रेड्थ फ़र्स्ट – यह विधि गहराई में जाने से पहले वर्तमान पृष्ठ से सीधे जुड़े सभी पृष्ठों को विज़िट करने को प्राथमिकता देती है।
      • डेप्थ फ़र्स्ट – यह विधि पीछे हटने और अन्य पथों का पता लगाने से पहले किसी एक लिंक पथ के साथ यथासंभव गहराई तक खोजने को प्राथमिकता देती है।
    • डोमेन तक सीमित करें – रूट डोमेन के भीतर सभी उप-डोमेन को क्रॉल करने के बजाय क्रॉलर को विशिष्ट डोमेन तक सीमित करें। प्रति पंक्ति एक डोमेन दर्ज करें या सभी उप-डोमेन को क्रॉल करने के लिए खाली छोड़ दें।
    • पैटर्न तक सीमित करें – वे क्रॉलिंग पैटर्न दर्ज करें जिनका उपयोग आप चाहते हैं कि क्रॉलर करे। प्रति पंक्ति एक क्रॉलिंग पैटर्न दर्ज करें।
      यदि आप कई क्रॉलिंग पैटर्न का उपयोग कर रहे हैं, तो यह पदानुक्रम है:
      1. Regex
      2. नकारात्मक मिलान
      3. सभी अन्य पैटर्न।
  7. शेड्यूलिंग अनुभाग में, शेड्यूल किए गए क्रॉल के लिए आवृत्ति और समय परिभाषित करें:
    Crawler Scheduling
    • क्रॉलिंग सक्षम – क्रॉलिंग शेड्यूल सेट करने के लिए इस विकल्प को सक्षम करें।
    • हर n दिन में दोहराएँ – वे दिन संख्या सेट करें जिनमें आप चाहते हैं कि क्रॉल चले। उदाहरण के लिए:
      • दैनिक = 1
      • साप्ताहिक = 7
      • पाक्षिक = 14
      • मासिक = 30
    • अगला शेड्यूल – आपके द्वारा दर्ज किए गए दिनों की संख्या के आधार पर, आपको अगली क्रॉल तिथि दिखाई देगी।
  8. एक बार अपने वेब क्रॉल को कॉन्फ़िगर करने के बाद, पहला क्रॉल शुरू करने के लिए अभी क्रॉल करें पर क्लिक करें। आपको निम्नलिखित टैब के साथ नए क्रॉलर के कॉन्फ़िगरेशन पेज पर रीडायरेक्ट किया जाएगा:
    Crawler Overview
    • अवलोकन – यहाँ आप क्रॉल अनुरोध जानकारी और स्थिति देख सकते हैं।
    • सेटिंग्स – यहाँ आप क्रॉलर की सेटिंग्स संपादित कर सकते हैं। क्रॉल चलने के बाद भी आप इन सेटिंग्स को संपादित कर सकते हैं।
    • क्रॉल किया गया रिपोर्ट – यह टैब क्रॉल किए जा रहे पृष्ठों पर रीयल-टाइम अपडेट प्रदान करता है।
अब आपका क्रॉलर कॉन्फ़िगर हो गया है और अपना पहला क्रॉल चला रहा है!

सर्वोत्तम प्रथाएँ

इन सर्वोत्तम प्रथाओं का पालन करने से यह सुनिश्चित होता है कि आपका क्रॉलर कुशलता से चले, अनावश्यक डुप्लीकेशन से बचे, और केवल सबसे प्रासंगिक डेटा आपके Knowledge Base में लाए।

1. स्पष्ट और संक्षिप्त सीड URLs का उपयोग करें

उन URLs को चुनें जो सीधे उस वेबसाइट अनुभाग की ओर इंगित करते हैं जिसे आप निकालना चाहते हैं।
  • अच्छा उदाहरण: https://www.example.com/news (केवल “news” अनुभाग को लक्षित करता है)
  • खराब उदाहरण: https://www.example.com?user=1234 (गतिशील पैरामीटर का उपयोग त्रुटियों या अनावश्यक क्रॉलिंग का कारण बन सकता है)
हमेशा सुनिश्चित करें:
  • URL एक्सेस करने योग्य है और आपके द्वारा निकाले जाने वाले डेटा से प्रासंगिक है।
  • जब आप क्रॉलिंग को किसी विशिष्ट अनुभाग तक सीमित करना चाहते हैं तो उप-पृष्ठों का उपयोग करें।

2. डोमेन और उप-डोमेन तक सीमित करें

अनावश्यक या असंबंधित डेटा को खींचने से बचने के लिए अपने क्रॉल को केंद्रित रखें।
  • रूट डोमेन तक सीमित करेंexample.com को क्रॉल करना केवल उस डोमेन को कैप्चर करता है और बाहरी लिंक (जैसे otherwebsite.com) को अनदेखा करता है।
  • डोमेन तक सीमित करेंblog.example.com को क्रॉल करने में shop.example.com जैसे अन्य उप-डोमेन शामिल नहीं होंगे।

उदाहरण

https://www.bbc.com को क्रॉल करना, रूट डोमेन तक सीमित करें सक्षम होने पर यह सुनिश्चित करता है कि केवल BBC सामग्री शामिल हो–साइट पर जुड़े बाहरी समाचार स्रोत नहीं।

3. क्रॉलिंग और प्रोसेसिंग पैटर्न का उपयोग करें

पैटर्न आपको विनियमित करने देते हैं कि क्रॉलर क्या खींचता और प्रोसेस करता है।
  • क्रॉलिंग पैटर्न – परिभाषित करें कि कौन से URLs क्रॉल किए जाने चाहिए।
  • प्रोसेसिंग पैटर्न – निर्दिष्ट करें कि कौन सी सामग्री आपके Knowledge Base में निकाली जानी चाहिए। दोनों एक सरलीकृत regex सिंटैक्स का उपयोग करते हैं:
  • निहित वाइल्डकार्डproducts दर्ज करना किसी भी URL से मेल खाता है जिसमें “products” हो।
  • नकारात्मक (!)!products किसी भी URL से मेल खाता है जिसमें “products” नहीं हो।
  • से शुरू (^)^https://example.com/products/ उस पथ से शुरू होने वाले URLs से मेल खाता है।
  • पर समाप्त ($)products/$ “products” पर समाप्त होने वाले URLs से मेल खाता है।

उदाहरण

  • क्रॉलिंग पैटर्नhttps://example.com/products/* > सभी उत्पाद पृष्ठ क्रॉल करता है।
  • प्रोसेसिंग पैटर्नhttps://example.com/products/*reviews > केवल उत्पाद पृष्ठों से समीक्षाएँ निकालता है।

4. शेड्यूल किए गए क्रॉल सक्षम करें (जब आवश्यक हो)

गतिशील वेबसाइटों के लिए, अपने Knowledge Base को अद्यतित रखने के लिए क्रॉल शेड्यूल करें।

उदाहरण

दैनिक क्रॉल सक्षम करके https://www.nasdaq.com पर स्टॉक की कीमतों को ट्रैक करें।

5. दक्षता के लिए साइटमैप का उपयोग करें

यदि कोई साइट साइटमैप प्रदान करती है (जैसे, `https://example.com/sitemap.xml), तो क्रॉलर का मार्गदर्शन करने और पूर्ण कवरेज सुनिश्चित करने के लिए इसका लाभ उठाएँ।

उदाहरण

एक साइटमैप वाली समाचार वेबसाइट जो सभी हाल के लेखों को सूचीबद्ध करती है, गारंटी देती है कि कोई लेख न छूटे।