भारत

अपनी भाषा चुनिए:

简体中文

Čeština

Deutsch

English

Español

Français

Italiano

भारत

Indonesian

日本語

한국어

Polski

Português (BR)

Srpski

Türkçe

Українська

Беларускі

Қазақша

आपस में पृष्ठों की सामग्री की विशिष्टता की व्यापक रूप से जाँच कैसे करें

SiteAnalyzer / ब्लॉग

Comments: 0

1,017

2020-10-26 | पढ़ने का समय: 5 मिनट

लेखक: Simagin Andrey

साइट के भीतर डुप्लिकेट पृष्ठों और ग्रंथों की विशिष्टता का निर्धारण करने का मुद्दा तकनीकी ऑडिट कार्य की सूची में सबसे महत्वपूर्ण है। साइट की समग्र भलाई और खोज इंजन के क्रॉलिंग बजट का वितरण, जो बर्बाद हो सकता है, डुप्लिकेट पृष्ठों की उपस्थिति पर निर्भर करता है, और सामान्य तौर पर, साइट की रैंकिंग बड़ी संख्या में डुप्लिकेट के कारण कठिनाइयों का अनुभव कर सकती है। विषय।

Batch check of uniqueness of texts

और यदि आप अलग-अलग ग्रंथों की विशिष्टता की जांच करने के लिए इंटरनेट पर बड़ी संख्या में सेवाओं और कार्यक्रमों को आसानी से पा सकते हैं, तो आपस में कुछ यूआरएल के समूह की विशिष्टता की जांच करने के लिए कई समान सेवाएं नहीं हैं, हालांकि समस्या ही महत्वपूर्ण है और प्रासंगिक।

साइट पर गैर-अद्वितीय सामग्री के साथ समस्याओं के लिए कौन से विकल्प हो सकते हैं?

1. विभिन्न URL पर समान सामग्री।

आमतौर पर यह पैरामीटर और एक ही पेज वाला एक पेज होता है, लेकिन एक सीएनसी (मानव-पठनीय यूआरएल) के रूप में होता है।

उदाहरण:
- https://some-site.com/index.php?page=contacts
- https://some-site.com/contacts/

यह एक काफी सामान्य समस्या है, जब सीएनसी स्थापित करने के बाद, प्रोग्रामर पैरामीटर वाले पृष्ठों से सीएनसी पृष्ठों पर 301 रीडायरेक्ट सेट करना भूल जाता है।

यह समस्या किसी भी वेब क्रॉलर द्वारा आसानी से हल की जाती है, जो साइट के सभी पृष्ठों की तुलना करने के बाद, यह पायेगा कि उनमें से दो में समान हैश कोड (MD5) हैं, और इसके बारे में ऑप्टिमाइज़र को सूचित करें, जिसे कार्य सेट करना होगा , सभी समान प्रोग्रामर, सीएनसी पृष्ठों पर 301 रीडायरेक्ट स्थापित करने के लिए।

SiteAnalyzer, search for duplicate pages

हालाँकि, सब कुछ इतना स्पष्ट नहीं है।

2. आंशिक रूप से मेल खाने वाली सामग्री।

समान सामग्री तब बनती है जब हमारे पास अलग-अलग पृष्ठ होते हैं, लेकिन वास्तव में, समान या समान सामग्री के साथ।

उदाहरण 1

प्लास्टिक की खिड़कियां बेचने वाली साइट पर समाचार अनुभाग में एक कॉपीराइटर ने एक साल पहले 8 मार्च को 500 अक्षरों के लिए बधाई लिखी और प्लास्टिक की खिड़कियां लगाने पर 15% की छूट दी।

और इस साल, सामग्री प्रबंधक ने धोखा देने का फैसला किया, और आगे की हलचल के बिना, उसने पहले से पोस्ट की गई खबरों को छूट के साथ पाया, इसे कॉपी किया, और छूट को 15 से 12% में बदल दिया + अतिरिक्त बधाई के साथ अपने आप में 50 संकेत जोड़े।

इस प्रकार, परिणामस्वरूप, हमारे पास दो लगभग समान ग्रंथ हैं, जो 90% के समान हैं, जो अपने आप में फजी डुप्लिकेट हैं, जिनमें से एक, अच्छे के लिए, तत्काल पुनर्लेखन की आवश्यकता है।

Defining duplicate text

उसी समय, तकनीकी ऑडिट सेवाओं के लिए, ये दो समाचार अलग होंगे, क्योंकि साइट पर सीएनसी पहले से ही कॉन्फ़िगर किया गया है, और पृष्ठों के चेकसम मेल नहीं खाएंगे, चाहे कोई कुछ भी कहे।

नतीजतन, कौन सा पेज बेहतर रैंक करेगा यह एक बड़ा सवाल है ...

लेकिन वे ऐसी खबरें हैं - वे जल्दी अप्रचलित हो जाती हैं, तो चलिए एक और दिलचस्प उदाहरण लेते हैं।

उदाहरण 2

Culinary blog

आपकी साइट पर एक लेख अनुभाग है, या आप अपने शौक / जुनून के लिए एक व्यक्तिगत पृष्ठ बनाए रखते हैं, उदाहरण के लिए, यह एक "पाक ब्लॉग" है।

और, उदाहरण के लिए, आपके ब्लॉग ने पहले ही कई लेखों को जमा कर लिया है, 100 से अधिक, या कई सौ से भी अधिक। और इसलिए आपने एक विषय उठाया और एक नया लेख लिखा, उसे पोस्ट किया, और फिर किसी तरह यह पता चला कि इसी तरह का लेख 3 साल पहले भी लिखा जा चुका था। हालाँकि, ऐसा प्रतीत होता है, सामग्री लिखने से पहले, आप सभी शीर्षकों पर चले गए, एक्सेल को पोस्ट किए गए विषयों की सूची के साथ खोला, लेकिन इस बात पर ध्यान नहीं दिया कि लेख की पिछली सामग्री "घर पर हॉट चॉकलेट कैसे बनाएं" दृढ़ता से अभी लिखी गई सामग्री के साथ मेल खाता है। और ऑनलाइन सेवाओं में से एक में इन दो लेखों की जाँच करने पर, यह पता चलता है कि वे आपस में 78% अद्वितीय हैं, जो निश्चित रूप से अच्छा नहीं है, क्योंकि आंशिक दोहराव के कारण, खोज क्वेरी इन पृष्ठों और खोज के बीच नरभक्षी हो जाती हैं। ऐसे डुप्लिकेट की रैंकिंग करते समय इंजन के प्रश्न और कठिनाइयाँ उत्पन्न होती हैं।

बेशक, एक लेख लिखने के बाद, प्रत्येक कॉपीराइटर को प्रसिद्ध सेवाओं में से एक में विशिष्टता के लिए इसकी जांच करनी चाहिए, और प्रत्येक एसईओ विशेषज्ञ को उसी सेवाओं में साइट पर पोस्ट किए जाने पर नई सामग्री की जांच करनी चाहिए।

लेकिन क्या करें यदि आपको अभी-अभी प्रचार के लिए कोई साइट मिली है और आपको डुप्लिकेट के लिए इसके सभी पृष्ठों की तुरंत जाँच करने की आवश्यकता है? या, अपने ब्लॉग को खोलने की शुरुआत में, आपने एक ही प्रकार के लेखों का एक गुच्छा लिखा था, और अब, सबसे अधिक संभावना है, उनकी वजह से, साइट शिथिल होने लगी। ऑनलाइन सेवाओं में मैन्युअल रूप से 100,500 पृष्ठों की जांच न करें, प्रत्येक लेख को मैन्युअल रूप से जांचने के लिए जोड़कर और उस पर बहुत समय व्यतीत करें।

BatchUniqueChecker

यही कारण है कि हमने बैचयूनिकचेकर प्रोग्राम बनाया है, जिसे बैच के लिए डिज़ाइन किया गया है ताकि आपस में अद्वितीयता के लिए यूआरएल के समूह की जांच की जा सके।

BulkPageSpeed

BatchUniqueChecker के संचालन का सिद्धांत सरल है: URL की पूर्व-तैयार सूची के अनुसार, प्रोग्राम उनकी सामग्री को डाउनलोड करता है, PlainText (HEAD ब्लॉक के बिना और HTML टैग के बिना पृष्ठ की पाठ सामग्री) प्राप्त करता है, और फिर प्रत्येक के साथ उनकी तुलना करता है। अन्य शिंगल एल्गोरिथ्म का उपयोग कर।

इस प्रकार, दाद की मदद से, हम पृष्ठों की विशिष्टता का निर्धारण करते हैं और 0% विशिष्टता वाले पृष्ठों के पूर्ण डुप्लिकेट और टेक्स्ट सामग्री विशिष्टता की विभिन्न डिग्री के साथ आंशिक डुप्लिकेट दोनों की गणना कर सकते हैं।

Comparison of two texts for similarity

प्रोग्राम सेटिंग्स में, शिंगल के आकार को मैन्युअल रूप से सेट करना संभव है (शिंगल टेक्स्ट में शब्दों की संख्या है, जिसके चेकसम को बाद के समूहों के साथ वैकल्पिक रूप से तुलना की जाती है)। हम मान = 4 सेट करने की सलाह देते हैं। बड़ी मात्रा में टेक्स्ट के लिए, 5 या अधिक। अपेक्षाकृत छोटी मात्रा के लिए - 3-4।

Setting the number of shingles to check for uniqueness

महत्वपूर्ण ग्रंथ

पूर्ण-पाठ सामग्री तुलना के अलावा, कार्यक्रम में तथाकथित "महत्वपूर्ण" ग्रंथों के "स्मार्ट" चयन के लिए एक एल्गोरिदम शामिल है।

यानी पेज के HTML कोड से ही हमें H1-H6, P, PRE और LI टैग्स में मौजूद कंटेंट ही मिलता है। इसके कारण, हम सब कुछ "महत्वपूर्ण नहीं" को छोड़ देते हैं, उदाहरण के लिए, साइट नेविगेशन मेनू से सामग्री, पाद लेख या साइड मेनू से टेक्स्ट।

इस तरह के जोड़तोड़ के परिणामस्वरूप, हमें पृष्ठों की केवल "सार्थक" सामग्री मिलती है, जिसकी तुलना करने पर, अन्य पृष्ठों के साथ विशिष्टता के अधिक सटीक परिणाम दिखाई देंगे।

Comparison of relevant page content

उनके आगे के विश्लेषण के लिए पृष्ठों की सूची को कई तरीकों से जोड़ा जा सकता है: क्लिपबोर्ड से चिपकाया गया, टेक्स्ट फ़ाइल से लोड किया गया, या आपके कंप्यूटर की डिस्क से Sitemap.xml से आयात किया गया।

कार्यक्रम के बहु-थ्रेडेड कार्य के लिए धन्यवाद, सैकड़ों या अधिक URL की जाँच में केवल कुछ मिनट लग सकते हैं, जो मैन्युअल रूप से, ऑनलाइन सेवाओं के माध्यम से, एक दिन या अधिक समय ले सकता है।

इस प्रकार, आपको URL के समूह के लिए सामग्री की विशिष्टता की शीघ्रता से जाँच करने के लिए एक सरल उपकरण मिलता है, जिसे हटाने योग्य मीडिया से भी चलाया जा सकता है।

BatchUniqueChecker नि: शुल्क, संग्रह में केवल 4 एमबी लेता है और स्थापना की आवश्यकता नहीं है।

आरंभ करने के लिए आपको केवल वितरण को डाउनलोड करना है और सत्यापन के लिए दिलचस्प URL की एक सूची जोड़ना है, जिसे एक मुफ्त तकनीकी ऑडिट कार्यक्रम के माध्यम से प्राप्त किया जा सकता है। SiteAnalyzer.

डाउनलोड BatchUniqueChecker (4 Mb) ↓

लेख को रेट करें

0/5

0

अन्य लेख