क्रॉलिंग पैटर्न
पैटर्न सरल URL स्ट्रिंग मिलान के आधार पर क्रॉल किए गए पृष्ठों या प्रक्रियाओं पर त्वरित और आसान प्रतिबंध सक्षम करते हैं। उदाहरण के लिए, http://www.example.com/sports/heres-a-sports-article.html पर केवल “sports” श्रेणी के पृष्ठ क्रॉल करने के लिए, आप/sports/ क्रॉल पैटर्न निर्दिष्ट कर सकते हैं (स्लैश शामिल करना सटीकता सुनिश्चित करता है और URL में कहीं और “sports” स्ट्रिंग से मिलान को रोकता है)।
क्रॉल पैटर्न का उपयोग करके, आप क्रॉलिंग को किसी विशिष्ट उप-डोमेन तक सीमित कर सकते हैं। उदाहरण के लिए, किसी विशिष्ट डोमेन पर शुरू होने वाले क्रॉल में, आप अनावश्यक लिंक से क्रॉल को रोकने के लिए क्रॉल पैटर्न दर्ज कर सकते हैं।
वेब क्रॉल कॉन्फ़िगरेशन में, आप प्रत्येक व्यक्तिगत पैटर्न को नई पंक्ति में रखकर कई पैटर्न दर्ज कर सकते हैं।
ये उपलब्ध क्रॉलिंग पैटर्न हैं:
URL के प्रारंभ तक मिलान सीमित करना
URL के प्रारंभ तक मिलान सीमित करना
URL के प्रारंभ तक पैटर्न मिलान को प्रतिबंधित करने के लिए कैरेक्ट (
^) का उपयोग करें। उदाहरण के लिए, ^https://example.com प्रोसेसिंग पैटर्न केवल उन पृष्ठों की प्रोसेसिंग को सीमित करेगा जिनके URL https://example.com से शुरू होते हैं।नकारात्मक-मिलान पैटर्न
नकारात्मक-मिलान पैटर्न
पृष्ठों को स्पष्ट रूप से क्रॉल या प्रोसेस करने से बाहर करने के लिए “नकारात्मक मिलान” के लिए विस्मयादिबोधक बिंदु (
!) का उपयोग करें।
नियमित व्यंजक क्रॉल और प्रोसेसिंग
नियमित व्यंजक क्रॉल और प्रोसेसिंग
अपने क्रॉलिंग या प्रोसेसिंग URL मिलान पर सटीक नियंत्रण के लिए, आप केवल उन्हीं URLs को क्रॉल या प्रोसेस करने के लिए एक नियमित व्यंजक (regex) बना सकते हैं जो आपकी परिभाषित व्यंजक से मेल खाते हैं। उदाहरण के लिए, “
/crawl” पथ के अंतर्गत https://example.com/ पर पृष्ठों को प्रोसेस करने के लिए जिनमें “regex” शब्द हो, आप इसके समान प्रोसेसिंग regex का उपयोग कर सकते हैं: \\/crawl.*?regex।
crawlbot पृष्ठों का मूल्यांकन करते समय इष्टतम प्रदर्शन के लिए एक कस्टम नियमित व्यंजक इंजन का उपयोग करता है। कैरेक्टर क्लास सिंटैक्स के संदर्भ में, जो Crawlbot पार्सिंग में आमतौर पर उपयोग किया जाता है, crawlbot सभी ASCII प्रोसेसिंग कैरेक्टर और अधिकांश Perl/Tcl शॉर्टकट का समर्थन करता है।
HTML प्रोसेसिंग पैटर्न
HTML प्रोसेसिंग पैटर्न
क्रॉल HTML प्रोसेसिंग पैटर्न के आधार पर प्रोसेस किए गए पृष्ठों को सीमित करने की अनुमति देता है, जो केवल कच्चे स्रोत की जाँच करता है और क्रॉलिंग के समय JavaScript/AJAX नहीं चलाता। हालाँकि, इस विकल्प का नुकसान क्रॉल गति है।
यदि आप तेज़ क्रॉलिंग गति चाहते हैं, तो आपको regex क्रॉलिंग और प्रोसेसिंग का उपयोग करना चाहिए।
क्रॉलर का उपयोग कब करें
क्रॉलर वेब से संरचित, उच्च-मूल्य वाली जानकारी निकालने के लिए डिज़ाइन किया गया है। यह उन परिदृश्यों में सबसे अच्छा काम करता है जहाँ डेटा सार्वजनिक रूप से उपलब्ध और नियमित रूप से अपडेट होता है।सर्वोत्तम उपयोग के मामले
- समाचार और मीडिया – BBC News जैसी साइटों से लेख निकालें
- वित्तीय डेटा – NASDAQ जैसी स्टॉक साइटों से बाज़ार अंतर्दृष्टि एकत्र करें
- ई-कॉमर्स – बाज़ारों से उत्पाद लिस्टिंग, समीक्षाएँ और मूल्य निर्धारण एकत्र करें
- ज्ञान संसाधन – अपने Knowledge Base को समृद्ध करने के लिए ब्लॉग पोस्ट, फ़ोरम चर्चाएँ, या FAQ सामग्री कैप्चर करें।
क्रॉलर का उपयोग कब न करें
त्रुटियों या अनुपालन समस्याओं को रोकने के लिए इन स्थितियों में क्रॉलिंग से बचें:- प्रमाणीकरण आवश्यक – जिन वेबसाइटों के लिए लॉगिन प्रमाण-पत्र आवश्यक हैं (जैसे, LinkedIn)।
- अत्यधिक गतिशील डैशबोर्ड – रीयल-टाइम डैशबोर्ड (जैसे लाइव स्टॉक टिकर) पूर्ण परिणाम नहीं दे सकते।
- अत्यधिक साइट लोड – प्रत्येक साइट की उपयोग नीतियों का सम्मान करें–क्रॉलिंग से पहले हमेशा
robot.txtफ़ाइल की समीक्षा करें।
नया क्रॉलर बनाएँ
- अपने EKB प्रोजेक्ट में, Knowledge Base पर नेविगेट करें।
- Knowledge Base में, ऊपरी-दाएँ कोने पर गियर आइकन पर क्लिक करें।
- क्रॉलर टैब पर जाएँ।
- + नया बनाएँ पर क्लिक करें।
- इनपुट अनुभाग में:
a। अपने क्रॉलर के लिए एक नाम दर्ज करें।
b। सीड URL प्रदान करें, उस वेबसाइट का लिंक जिसे आप क्रॉल करना चाहते हैं। यह प्रारंभिक लिंक है जो क्रॉलर द्वारा एक्सेस किया जाता है। वहाँ से, क्रॉलर वेबसाइट के भीतर उपलब्ध वेब पृष्ठों और लिंक्स का पता लगाता है। - क्रॉलर सेटिंग्स अनुभाग में:
- रूट डोमेन तक सीमित करें – यह क्रॉलर को केवल रूट डोमेन पर ध्यान केंद्रित करने के लिए सेट करता है, प्रासंगिक जानकारी निकासी को सुव्यवस्थित करता है।
- फ़ाइलें डाउनलोड करें – यदि आप चाहते हैं कि क्रॉलर क्रॉलिंग के दौरान मिली फ़ाइलों को डाउनलोड और प्रोसेस करे तो इस विकल्प को सक्षम करें।
- अधिकतम पृष्ठ क्रॉल करें – संसाधन उपयोग और दक्षता को अनुकूलित करने के लिए क्रॉल करने के लिए अधिकतम पृष्ठों की संख्या सेट करें।
- अधिकतम गहराई – सीड URL से क्रॉल करने के लिए अधिकतम गहराई सेट करें (अर्थात कितने लिंक गहरे तक फ़ॉलो करने हैं)।
- क्रॉल रणनीति – चुनें कि क्रॉलर किन पृष्ठों को पहले विज़िट करने को प्राथमिकता देता है।
- बेस्ट फ़र्स्ट – यदि आप यह विकल्प चुनते हैं, तो आपको कीवर्ड कॉन्फ़िगर करना होगा जो क्रॉलर को इन पृष्ठों को खोजने के लिए उपयोग करने चाहिए और इन कीवर्ड का वजन।
- बेस्ट फ़र्स्ट के लिए कीवर्ड – इस टेक्स्ट बॉक्स में कॉन्फ़िगर किए गए कीवर्ड वाले पृष्ठ पहले क्रॉल होंगे। प्रति पंक्ति एक कीवर्ड दर्ज करें।
- कीवर्ड वजन – कीवर्ड मिलान के लिए कीवर्ड वजन कॉन्फ़िगर करें; मान जितना अधिक होगा, उतनी ही अधिक प्राथमिकता कीवर्ड मिलान को दी जाती है।
- ब्रेड्थ फ़र्स्ट – यह विधि गहराई में जाने से पहले वर्तमान पृष्ठ से सीधे जुड़े सभी पृष्ठों को विज़िट करने को प्राथमिकता देती है।
- डेप्थ फ़र्स्ट – यह विधि पीछे हटने और अन्य पथों का पता लगाने से पहले किसी एक लिंक पथ के साथ यथासंभव गहराई तक खोजने को प्राथमिकता देती है।
- बेस्ट फ़र्स्ट – यदि आप यह विकल्प चुनते हैं, तो आपको कीवर्ड कॉन्फ़िगर करना होगा जो क्रॉलर को इन पृष्ठों को खोजने के लिए उपयोग करने चाहिए और इन कीवर्ड का वजन।
- डोमेन तक सीमित करें – रूट डोमेन के भीतर सभी उप-डोमेन को क्रॉल करने के बजाय क्रॉलर को विशिष्ट डोमेन तक सीमित करें। प्रति पंक्ति एक डोमेन दर्ज करें या सभी उप-डोमेन को क्रॉल करने के लिए खाली छोड़ दें।
- पैटर्न तक सीमित करें – वे क्रॉलिंग पैटर्न दर्ज करें जिनका उपयोग आप चाहते हैं कि क्रॉलर करे। प्रति पंक्ति एक क्रॉलिंग पैटर्न दर्ज करें।
- शेड्यूलिंग अनुभाग में, शेड्यूल किए गए क्रॉल के लिए आवृत्ति और समय परिभाषित करें:
- क्रॉलिंग सक्षम – क्रॉलिंग शेड्यूल सेट करने के लिए इस विकल्प को सक्षम करें।
- हर n दिन में दोहराएँ – वे दिन संख्या सेट करें जिनमें आप चाहते हैं कि क्रॉल चले। उदाहरण के लिए:
- दैनिक =
1 - साप्ताहिक =
7 - पाक्षिक =
14 - मासिक =
30
- दैनिक =
- अगला शेड्यूल – आपके द्वारा दर्ज किए गए दिनों की संख्या के आधार पर, आपको अगली क्रॉल तिथि दिखाई देगी।
- एक बार अपने वेब क्रॉल को कॉन्फ़िगर करने के बाद, पहला क्रॉल शुरू करने के लिए अभी क्रॉल करें पर क्लिक करें। आपको निम्नलिखित टैब के साथ नए क्रॉलर के कॉन्फ़िगरेशन पेज पर रीडायरेक्ट किया जाएगा:
- अवलोकन – यहाँ आप क्रॉल अनुरोध जानकारी और स्थिति देख सकते हैं।
- सेटिंग्स – यहाँ आप क्रॉलर की सेटिंग्स संपादित कर सकते हैं। क्रॉल चलने के बाद भी आप इन सेटिंग्स को संपादित कर सकते हैं।
- क्रॉल किया गया रिपोर्ट – यह टैब क्रॉल किए जा रहे पृष्ठों पर रीयल-टाइम अपडेट प्रदान करता है।
अब आपका क्रॉलर कॉन्फ़िगर हो गया है और अपना पहला क्रॉल चला रहा है!
सर्वोत्तम प्रथाएँ
इन सर्वोत्तम प्रथाओं का पालन करने से यह सुनिश्चित होता है कि आपका क्रॉलर कुशलता से चले, अनावश्यक डुप्लीकेशन से बचे, और केवल सबसे प्रासंगिक डेटा आपके Knowledge Base में लाए।
1. स्पष्ट और संक्षिप्त सीड URLs का उपयोग करें
उन URLs को चुनें जो सीधे उस वेबसाइट अनुभाग की ओर इंगित करते हैं जिसे आप निकालना चाहते हैं।- अच्छा उदाहरण:
https://www.example.com/news(केवल “news” अनुभाग को लक्षित करता है) - खराब उदाहरण:
https://www.example.com?user=1234(गतिशील पैरामीटर का उपयोग त्रुटियों या अनावश्यक क्रॉलिंग का कारण बन सकता है)
- URL एक्सेस करने योग्य है और आपके द्वारा निकाले जाने वाले डेटा से प्रासंगिक है।
- जब आप क्रॉलिंग को किसी विशिष्ट अनुभाग तक सीमित करना चाहते हैं तो उप-पृष्ठों का उपयोग करें।
2. डोमेन और उप-डोमेन तक सीमित करें
अनावश्यक या असंबंधित डेटा को खींचने से बचने के लिए अपने क्रॉल को केंद्रित रखें।- रूट डोमेन तक सीमित करें –
example.comको क्रॉल करना केवल उस डोमेन को कैप्चर करता है और बाहरी लिंक (जैसे otherwebsite.com) को अनदेखा करता है। - डोमेन तक सीमित करें –
blog.example.comको क्रॉल करने मेंshop.example.comजैसे अन्य उप-डोमेन शामिल नहीं होंगे।
उदाहरण
https://www.bbc.com को क्रॉल करना, रूट डोमेन तक सीमित करें सक्षम होने पर यह सुनिश्चित करता है कि केवल BBC सामग्री शामिल हो–साइट पर जुड़े बाहरी समाचार स्रोत नहीं।
3. क्रॉलिंग और प्रोसेसिंग पैटर्न का उपयोग करें
पैटर्न आपको विनियमित करने देते हैं कि क्रॉलर क्या खींचता और प्रोसेस करता है।- क्रॉलिंग पैटर्न – परिभाषित करें कि कौन से URLs क्रॉल किए जाने चाहिए।
- प्रोसेसिंग पैटर्न – निर्दिष्ट करें कि कौन सी सामग्री आपके Knowledge Base में निकाली जानी चाहिए। दोनों एक सरलीकृत regex सिंटैक्स का उपयोग करते हैं:
- निहित वाइल्डकार्ड –
productsदर्ज करना किसी भी URL से मेल खाता है जिसमें “products” हो। - नकारात्मक (
!) –!productsकिसी भी URL से मेल खाता है जिसमें “products” नहीं हो। - से शुरू (
^) –^https://example.com/products/उस पथ से शुरू होने वाले URLs से मेल खाता है। - पर समाप्त (
$) –products/$“products” पर समाप्त होने वाले URLs से मेल खाता है।
उदाहरण
- क्रॉलिंग पैटर्न –
https://example.com/products/*> सभी उत्पाद पृष्ठ क्रॉल करता है। - प्रोसेसिंग पैटर्न –
https://example.com/products/*reviews> केवल उत्पाद पृष्ठों से समीक्षाएँ निकालता है।
4. शेड्यूल किए गए क्रॉल सक्षम करें (जब आवश्यक हो)
गतिशील वेबसाइटों के लिए, अपने Knowledge Base को अद्यतित रखने के लिए क्रॉल शेड्यूल करें।उदाहरण
दैनिक क्रॉल सक्षम करकेhttps://www.nasdaq.com पर स्टॉक की कीमतों को ट्रैक करें।