कंप्यूटरप्रोग्रामिंग

एक क्रॉलर क्या है? क्रॉलर उपकरण "Yandex" और गूगल

इंटरनेट पर हर दिन नए माल की एक बड़ी राशि एक वेबसाइट पुराने वेब पृष्ठों अद्यतन बनाने के लिए, फ़ोटो और वीडियो अपलोड नहीं है। खोज इंजन से छिपा बिना, वर्ल्ड वाइड वेब में नहीं पाया जा सका इन दस्तावेजों में से कोई भी। किसी भी समय पर रोबोट कार्यक्रमों की तरह वैकल्पिक मौजूद नहीं है। क्या एक खोज रोबोट क्यों आप इसे और जरूरत कैसे संचालित करने के लिए है?

एक खोज रोबोट क्या है

क्रॉलर साइट (खोज इंजन) - यह एक स्वचालित प्रोग्राम है कि वेब पृष्ठों के लाखों लोगों की यात्रा के लिए, जल्दी से किसी भी ऑपरेटर के हस्तक्षेप के बिना इंटरनेट के माध्यम से नेविगेट में सक्षम है। बॉट लगातार अंतरिक्ष स्कैन कर रहे हैं वर्ल्ड वाइड वेब की, नई वेब पृष्ठों को खोजने और नियमित रूप से पहले से अनुक्रमित। वेब क्रॉलर्स मकड़ियों, क्रॉलर, बॉट के अन्य नाम।

क्यों खोज इंजन मकड़ियों हैं

मुख्य कार्य है कि खोज इंजन मकड़ियों प्रदर्शन - वेब पृष्ठों को अनुक्रमित है, साथ ही पाठ, चित्र, ऑडियो और वीडियो फ़ाइलों कि उन पर कर रहे हैं। बॉट संदर्भ, दर्पण साइटों (प्रतियां) और अद्यतन की जाँच करें। रोबोटों को भी विश्व संगठन है, जो वर्ल्ड वाइड वेब के लिए विकसित करता है और लागू करता है तकनीकी मानकों की अनुरूपता मानकों के लिए HTML कोड नियंत्रण प्रदर्शन करते हैं।

अनुक्रमण क्या है, और यही कारण है कि यह आवश्यक है

अनुक्रमण - है, वास्तव में, खोज इंजन द्वारा एक विशेष वेब पेज पर जाकर की प्रक्रिया है। कार्यक्रम इस साइट पर पाठ स्कैन, चित्र, वीडियो, आउटबाउंड लिंक है, तो पेज खोज परिणामों में दिखाई देता है। कुछ मामलों में, साइट स्वचालित रूप से स्कैन नहीं किया जा सकता है, तो इसे मैन्युअल वेबमास्टर खोज इंजन के लिए जोड़ा जा सकता है। आमतौर पर, इस अभाव में होता है बाहरी लिंक का एक विशेष (अक्सर केवल हाल ही में बनाया) पृष्ठ पर।

खोज करते हैं कैसे इंजन मकड़ियों

प्रत्येक सर्च इंजन गूगल खोज रोबोट के साथ अपने स्वयं के बॉट एक समान कार्यक्रम, "Yandex" या अन्य सिस्टम पर काम करता है काफी तंत्र के अनुसार भिन्न हो सकते हैं।

कार्यक्रम स्थल पर "आता है" और मुख्य पृष्ठ से बाहरी लिंक, (उन की तलाश में भूमि के ऊपर है कि उपयोगकर्ता नहीं देखता सहित) वेब संसाधन "लिखा है": सामान्य तौर पर, एक रोबोट काम कर रहे सिद्धांत इस प्रकार है। नाव एक साइट के पृष्ठों के बीच नेविगेट और दूसरों के लिए आगे बढ़ने के लिए कैसे है।

प्रोग्राम है जो सूचकांक के लिए साइट का चयन करेंगे? प्रायः "यात्रा" मकड़ी बड़े संदर्भ वजन के साथ समाचार साइटों या प्रमुख संसाधन निर्देशिका और एग्रीगेटर्स के साथ शुरू होता है। क्रॉलर लगातार पृष्ठों एक के बाद एक, दर और निम्नलिखित कारकों को सूचीबद्ध करने में स्थिरता पर स्कैन करता है:

  • आंतरिक: perelinovka, साइट आकार, सही कोड, उपयोगकर्ता के अनुकूल और इतने पर (एक ही संसाधन के पन्नों के बीच आंतरिक लिंक);
  • बाहरी: कुल संदर्भ वजन, जो साइट की ओर जाता है।

पहली बात यह है robots.txt द्वारा किसी भी वेबसाइट पर खोज रोबोट खोज करता है। इसके अलावा संसाधन अनुक्रमण आधारित के बारे में जानकारी प्राप्त यह इस दस्तावेज़ से है किया जाता है। इस फ़ाइल में "स्पाइडर" कि खोज इंजन द्वारा देखे जाने वाले पृष्ठ की संभावना को बढ़ा सकते हैं, और, फलस्वरूप, "Yandex" या गूगल में एक प्रारंभिक हिट साइट को प्राप्त करने के लिए विशेष निर्देश शामिल हैं।

कार्यक्रम क्रॉलर्स एनालॉग

अक्सर शब्द "खोज रोबोट" बुद्धिमान, उपयोगकर्ता या स्वायत्त एजेंटों, "चींटियों" या "कीड़े" के साथ उलझन में है। केवल एजेंटों के साथ तुलना में डूबे महत्वपूर्ण मतभेद, अन्य परिभाषाओं रोबोट के समान प्रकार का संदर्भ लें।

उदाहरण के लिए, एजेंट बन सकते हैं:

  • बौद्धिक: कार्यक्रम है, जो साइट के लिए साइट से ले जाया जाता है, स्वतंत्र रूप से निर्णय लेने से आगे बढ़ने के लिए कैसे; वे इंटरनेट पर बहुत आम नहीं कर रहे हैं;
  • स्वायत्त: ये एजेंट एक उत्पाद, खोज को चुनकर, या बाहर रूपों, तथाकथित फिल्टर, जो नेटवर्क कार्यक्रमों के लिए थोड़ा संबंधित हैं भरने में उपयोगकर्ता मदद;
  • उपयोगकर्ता: कार्यक्रम, वर्ल्ड वाइड वेब के साथ उपयोगकर्ता बातचीत करने के लिए योगदान एक ब्राउज़र (उदाहरण के लिए, ओपेरा, IE, गूगल क्रोम, फ़ायरफ़ॉक्स), दूत (Viber, टेलीग्राम) या ई-मेल प्रोग्राम (एमएस आउटलुक और Qualcomm)।

"चींटियों" और "कीड़े" और अधिक खोज इंजन "स्पाइडर" के समान हैं। एक नेटवर्क और लगातार के बीच पहला रूप इस चींटी कॉलोनी की तरह बातचीत, "कीड़े" अन्य मामलों मानक क्रॉलर के रूप में ही में दोहराने के लिए सक्षम है।

खोज इंजन रोबोट की विविधता

क्रॉलर्स के कई प्रकार के बीच अंतर। कार्यक्रम के उद्देश्य के आधार पर, वे हैं:

  • "मिरर" - डुप्लिकेट वेबसाइट ब्राउज़ कर रहे हैं।
  • मोबाइल - वेब पृष्ठों के मोबाइल संस्करण पर ध्यान केंद्रित।
  • त्वरित - नवीनतम अद्यतन देखने से जल्दी से नई जानकारी को ठीक।
  • संदर्भ - संदर्भ सूचकांक, उनकी संख्या गिनती।
  • Indexers विभिन्न प्रकार की सामग्री - पाठ, ऑडियो, वीडियो, चित्र के लिए विशेष कार्यक्रम।
  • "स्पाइवेयर" - उन पृष्ठों को अभी तक खोज इंजन में प्रदर्शित नहीं होते की तलाश में।
  • "कठफोड़वा" - समय-समय पर उनकी प्रासंगिकता और दक्षता की जांच करने के स्थलों की यात्रा।
  • राष्ट्रीय - वेब देश डोमेन में से एक पर स्थित संसाधनों को ब्राउज़ (जैसे, .mobi, या .kz .ua)।
  • वैश्विक - सूचकांक सभी राष्ट्रीय साइटों।

रोबोट प्रमुख खोज इंजन

वहाँ भी कुछ खोज इंजन मकड़ियों कर रहे हैं। सिद्धांत रूप में, उनकी कार्यक्षमता अलग हो सकती है, लेकिन व्यवहार में कार्यक्रमों लगभग समान हैं। मुख्य वेब पृष्ठों को अनुक्रमित मतभेद रोबोट दो प्रमुख खोज इंजन इस प्रकार हैं:

  • परीक्षण की तंगी। माना जाता है कि क्रॉलर की व्यवस्था "Yandex" कुछ हद तक सख्त अनुमान वर्ल्ड वाइड वेब के मानकों के अनुपालन के लिए साइट।
  • साइट की अखंडता के संरक्षण। गूगल क्रॉलर अनुक्रमित पूरी साइट (मीडिया सामग्री सहित), "Yandex" भी सामग्री चुनिंदा देख सकते हैं।
  • स्पीड परीक्षण नए पृष्ठों। गूगल, कुछ दिनों के भीतर खोज परिणामों में नए संसाधन कहते हैं, "Yandex द्वारा" प्रक्रिया के मामले में दो सप्ताह या उससे अधिक समय लग सकता है में।
  • फिर से अनुक्रमण की आवृत्ति। "Yandex" क्रॉलर अद्यतन के लिए जाँच सप्ताह में दो बार, और गूगल - एक हर 14 दिन।

इंटरनेट, बेशक, दो खोज इंजन तक ही सीमित नहीं। अन्य खोज इंजन उनके रोबोट जो अपने खुद के अनुक्रमण मानकों का पालन किया है। इसके अलावा, वहाँ कई "स्पाइडर" कि नहीं प्रमुख खोज संसाधन तैयार कर रहे हैं, और व्यक्तिगत टीमों या वेबमास्टर्स कर रहे हैं।

आम गलतफहमी

विपरीत आम धारणा के, "स्पाइडर" जानकारी प्रक्रिया नहीं है। कार्यक्रम केवल स्कैन करता है और वेब पृष्ठों को संग्रहीत करता है और आगे की प्रक्रिया पूरी तरह से अलग रोबोट ले जाता है।

इसके अलावा, कई उपयोगकर्ताओं का मानना है कि खोज इंजन मकड़ियों एक नकारात्मक प्रभाव और "हानिकारक" इंटरनेट की है। वास्तव में, "स्पाइडर" के कुछ संस्करणों में काफी सर्वर ओवरलोड कर सकते हैं। वेबमास्टर, जो प्रोग्राम, रोबोट विन्यास में गलतियाँ कर सकते बनाया - वहाँ भी एक मानव कारक है। फिर भी मौजूदा कार्यक्रमों की सबसे अच्छी तरह से तैयार कर रहे हैं और पेशेवर में कामयाब रहे, और किसी भी उभरते समस्याओं तुरंत हटा दिया।

कैसे अनुक्रमण प्रबंधन करने के लिए

खोज इंजन रोबोट स्वचालित प्रोग्राम हैं, लेकिन अनुक्रमण प्रक्रिया आंशिक रूप से वेबमास्टर द्वारा नियंत्रित किया जा सकता है। यह बहुत बाहरी और मदद करता है आंतरिक अनुकूलन संसाधन की। इसके अलावा, आप मैन्युअल रूप से खोज इंजन के लिए एक नया साइट जोड़ सकते हैं: बड़े संसाधन वेब पृष्ठों पंजीकरण की एक विशेष रूप है।

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 hi.delachieve.com. Theme powered by WordPress.