कंप्यूटर, प्रोग्रामिंग
एक क्रॉलर क्या है? क्रॉलर उपकरण "Yandex" और गूगल
इंटरनेट पर हर दिन नए माल की एक बड़ी राशि एक वेबसाइट पुराने वेब पृष्ठों अद्यतन बनाने के लिए, फ़ोटो और वीडियो अपलोड नहीं है। खोज इंजन से छिपा बिना, वर्ल्ड वाइड वेब में नहीं पाया जा सका इन दस्तावेजों में से कोई भी। किसी भी समय पर रोबोट कार्यक्रमों की तरह वैकल्पिक मौजूद नहीं है। क्या एक खोज रोबोट क्यों आप इसे और जरूरत कैसे संचालित करने के लिए है?
एक खोज रोबोट क्या है
क्रॉलर साइट (खोज इंजन) - यह एक स्वचालित प्रोग्राम है कि वेब पृष्ठों के लाखों लोगों की यात्रा के लिए, जल्दी से किसी भी ऑपरेटर के हस्तक्षेप के बिना इंटरनेट के माध्यम से नेविगेट में सक्षम है। बॉट लगातार अंतरिक्ष स्कैन कर रहे हैं वर्ल्ड वाइड वेब की, नई वेब पृष्ठों को खोजने और नियमित रूप से पहले से अनुक्रमित। वेब क्रॉलर्स मकड़ियों, क्रॉलर, बॉट के अन्य नाम।
क्यों खोज इंजन मकड़ियों हैं
मुख्य कार्य है कि खोज इंजन मकड़ियों प्रदर्शन - वेब पृष्ठों को अनुक्रमित है, साथ ही पाठ, चित्र, ऑडियो और वीडियो फ़ाइलों कि उन पर कर रहे हैं। बॉट संदर्भ, दर्पण साइटों (प्रतियां) और अद्यतन की जाँच करें। रोबोटों को भी विश्व संगठन है, जो वर्ल्ड वाइड वेब के लिए विकसित करता है और लागू करता है तकनीकी मानकों की अनुरूपता मानकों के लिए HTML कोड नियंत्रण प्रदर्शन करते हैं।
अनुक्रमण क्या है, और यही कारण है कि यह आवश्यक है
अनुक्रमण - है, वास्तव में, खोज इंजन द्वारा एक विशेष वेब पेज पर जाकर की प्रक्रिया है। कार्यक्रम इस साइट पर पाठ स्कैन, चित्र, वीडियो, आउटबाउंड लिंक है, तो पेज खोज परिणामों में दिखाई देता है। कुछ मामलों में, साइट स्वचालित रूप से स्कैन नहीं किया जा सकता है, तो इसे मैन्युअल वेबमास्टर खोज इंजन के लिए जोड़ा जा सकता है। आमतौर पर, इस अभाव में होता है बाहरी लिंक का एक विशेष (अक्सर केवल हाल ही में बनाया) पृष्ठ पर।
खोज करते हैं कैसे इंजन मकड़ियों
प्रत्येक सर्च इंजन गूगल खोज रोबोट के साथ अपने स्वयं के बॉट एक समान कार्यक्रम, "Yandex" या अन्य सिस्टम पर काम करता है काफी तंत्र के अनुसार भिन्न हो सकते हैं।
कार्यक्रम स्थल पर "आता है" और मुख्य पृष्ठ से बाहरी लिंक, (उन की तलाश में भूमि के ऊपर है कि उपयोगकर्ता नहीं देखता सहित) वेब संसाधन "लिखा है": सामान्य तौर पर, एक रोबोट काम कर रहे सिद्धांत इस प्रकार है। नाव एक साइट के पृष्ठों के बीच नेविगेट और दूसरों के लिए आगे बढ़ने के लिए कैसे है।
प्रोग्राम है जो सूचकांक के लिए साइट का चयन करेंगे? प्रायः "यात्रा" मकड़ी बड़े संदर्भ वजन के साथ समाचार साइटों या प्रमुख संसाधन निर्देशिका और एग्रीगेटर्स के साथ शुरू होता है। क्रॉलर लगातार पृष्ठों एक के बाद एक, दर और निम्नलिखित कारकों को सूचीबद्ध करने में स्थिरता पर स्कैन करता है:
- आंतरिक: perelinovka, साइट आकार, सही कोड, उपयोगकर्ता के अनुकूल और इतने पर (एक ही संसाधन के पन्नों के बीच आंतरिक लिंक);
- बाहरी: कुल संदर्भ वजन, जो साइट की ओर जाता है।
पहली बात यह है robots.txt द्वारा किसी भी वेबसाइट पर खोज रोबोट खोज करता है। इसके अलावा संसाधन अनुक्रमण आधारित के बारे में जानकारी प्राप्त यह इस दस्तावेज़ से है किया जाता है। इस फ़ाइल में "स्पाइडर" कि खोज इंजन द्वारा देखे जाने वाले पृष्ठ की संभावना को बढ़ा सकते हैं, और, फलस्वरूप, "Yandex" या गूगल में एक प्रारंभिक हिट साइट को प्राप्त करने के लिए विशेष निर्देश शामिल हैं।
कार्यक्रम क्रॉलर्स एनालॉग
अक्सर शब्द "खोज रोबोट" बुद्धिमान, उपयोगकर्ता या स्वायत्त एजेंटों, "चींटियों" या "कीड़े" के साथ उलझन में है। केवल एजेंटों के साथ तुलना में डूबे महत्वपूर्ण मतभेद, अन्य परिभाषाओं रोबोट के समान प्रकार का संदर्भ लें।
उदाहरण के लिए, एजेंट बन सकते हैं:
- बौद्धिक: कार्यक्रम है, जो साइट के लिए साइट से ले जाया जाता है, स्वतंत्र रूप से निर्णय लेने से आगे बढ़ने के लिए कैसे; वे इंटरनेट पर बहुत आम नहीं कर रहे हैं;
- । स्वायत्त: ये एजेंट एक उत्पाद, खोज को चुनकर, या बाहर रूपों, तथाकथित फिल्टर, जो नेटवर्क कार्यक्रमों के लिए थोड़ा संबंधित हैं भरने में उपयोगकर्ता मदद;
- उपयोगकर्ता: कार्यक्रम, वर्ल्ड वाइड वेब के साथ उपयोगकर्ता बातचीत करने के लिए योगदान एक ब्राउज़र (उदाहरण के लिए, ओपेरा, IE, गूगल क्रोम, फ़ायरफ़ॉक्स), दूत (Viber, टेलीग्राम) या ई-मेल प्रोग्राम (एमएस आउटलुक और Qualcomm)।
"चींटियों" और "कीड़े" और अधिक खोज इंजन "स्पाइडर" के समान हैं। एक नेटवर्क और लगातार के बीच पहला रूप इस चींटी कॉलोनी की तरह बातचीत, "कीड़े" अन्य मामलों मानक क्रॉलर के रूप में ही में दोहराने के लिए सक्षम है।
खोज इंजन रोबोट की विविधता
क्रॉलर्स के कई प्रकार के बीच अंतर। कार्यक्रम के उद्देश्य के आधार पर, वे हैं:
- "मिरर" - डुप्लिकेट वेबसाइट ब्राउज़ कर रहे हैं।
- मोबाइल - वेब पृष्ठों के मोबाइल संस्करण पर ध्यान केंद्रित।
- त्वरित - नवीनतम अद्यतन देखने से जल्दी से नई जानकारी को ठीक।
- संदर्भ - संदर्भ सूचकांक, उनकी संख्या गिनती।
- Indexers विभिन्न प्रकार की सामग्री - पाठ, ऑडियो, वीडियो, चित्र के लिए विशेष कार्यक्रम।
- "स्पाइवेयर" - उन पृष्ठों को अभी तक खोज इंजन में प्रदर्शित नहीं होते की तलाश में।
- "कठफोड़वा" - समय-समय पर उनकी प्रासंगिकता और दक्षता की जांच करने के स्थलों की यात्रा।
- राष्ट्रीय - वेब देश डोमेन में से एक पर स्थित संसाधनों को ब्राउज़ (जैसे, .mobi, या .kz .ua)।
- वैश्विक - सूचकांक सभी राष्ट्रीय साइटों।
रोबोट प्रमुख खोज इंजन
वहाँ भी कुछ खोज इंजन मकड़ियों कर रहे हैं। सिद्धांत रूप में, उनकी कार्यक्षमता अलग हो सकती है, लेकिन व्यवहार में कार्यक्रमों लगभग समान हैं। मुख्य वेब पृष्ठों को अनुक्रमित मतभेद रोबोट दो प्रमुख खोज इंजन इस प्रकार हैं:
- परीक्षण की तंगी। माना जाता है कि क्रॉलर की व्यवस्था "Yandex" कुछ हद तक सख्त अनुमान वर्ल्ड वाइड वेब के मानकों के अनुपालन के लिए साइट।
- साइट की अखंडता के संरक्षण। गूगल क्रॉलर अनुक्रमित पूरी साइट (मीडिया सामग्री सहित), "Yandex" भी सामग्री चुनिंदा देख सकते हैं।
- स्पीड परीक्षण नए पृष्ठों। गूगल, कुछ दिनों के भीतर खोज परिणामों में नए संसाधन कहते हैं, "Yandex द्वारा" प्रक्रिया के मामले में दो सप्ताह या उससे अधिक समय लग सकता है में।
- फिर से अनुक्रमण की आवृत्ति। "Yandex" क्रॉलर अद्यतन के लिए जाँच सप्ताह में दो बार, और गूगल - एक हर 14 दिन।
इंटरनेट, बेशक, दो खोज इंजन तक ही सीमित नहीं। अन्य खोज इंजन उनके रोबोट जो अपने खुद के अनुक्रमण मानकों का पालन किया है। इसके अलावा, वहाँ कई "स्पाइडर" कि नहीं प्रमुख खोज संसाधन तैयार कर रहे हैं, और व्यक्तिगत टीमों या वेबमास्टर्स कर रहे हैं।
आम गलतफहमी
विपरीत आम धारणा के, "स्पाइडर" जानकारी प्रक्रिया नहीं है। कार्यक्रम केवल स्कैन करता है और वेब पृष्ठों को संग्रहीत करता है और आगे की प्रक्रिया पूरी तरह से अलग रोबोट ले जाता है।
इसके अलावा, कई उपयोगकर्ताओं का मानना है कि खोज इंजन मकड़ियों एक नकारात्मक प्रभाव और "हानिकारक" इंटरनेट की है। वास्तव में, "स्पाइडर" के कुछ संस्करणों में काफी सर्वर ओवरलोड कर सकते हैं। वेबमास्टर, जो प्रोग्राम, रोबोट विन्यास में गलतियाँ कर सकते बनाया - वहाँ भी एक मानव कारक है। फिर भी मौजूदा कार्यक्रमों की सबसे अच्छी तरह से तैयार कर रहे हैं और पेशेवर में कामयाब रहे, और किसी भी उभरते समस्याओं तुरंत हटा दिया।
कैसे अनुक्रमण प्रबंधन करने के लिए
खोज इंजन रोबोट स्वचालित प्रोग्राम हैं, लेकिन अनुक्रमण प्रक्रिया आंशिक रूप से वेबमास्टर द्वारा नियंत्रित किया जा सकता है। यह बहुत बाहरी और मदद करता है आंतरिक अनुकूलन संसाधन की। इसके अलावा, आप मैन्युअल रूप से खोज इंजन के लिए एक नया साइट जोड़ सकते हैं: बड़े संसाधन वेब पृष्ठों पंजीकरण की एक विशेष रूप है।
Similar articles
Trending Now