भारत

अपनी भाषा चुनिए:

简体中文

Čeština

Deutsch

English

Español

Français

Italiano

भारत

Indonesian

日本語

한국어

Polski

Português (BR)

Srpski

Türkçe

Українська

Беларускі

Қазақша

नए संस्करण का अवलोकन SiteAnalyzer 2.5

नए संस्करण का विवरण 2.5 (सभा 280)

SiteAnalyzer / ब्लॉग

Comments: 0

1,121

2021-07-26 | पढ़ने का समय: 5 मिनट

लेखक: Simagin Andrey

नमस्ते! हम व्यवसाय में वापस आ गए हैं!

बहुत लंबी अवधि के बाद, हमने आखिरकार साइट एनालाइज़र की एक नई रिलीज़ तैयार की है, जो हमें उम्मीद है, आपकी अपेक्षाओं को पूरा करेगी और एसईओ प्रचार में एक अनिवार्य सहायक बन जाएगी।

SiteAnalyzer के नए संस्करण में, हमने उपयोगकर्ताओं द्वारा सबसे अधिक अनुरोधित सुविधाओं में से कुछ को लागू किया है, जैसे डेटा स्क्रैपिंग (साइट से डेटा निकालना), सामग्री की विशिष्टता की जाँच करना, और Google पेजस्पीड द्वारा पेज लोडिंग गति की जाँच करना। वहीं, कई बग्स को बंद कर दिया गया और लोगो को रेस्ट दिया गया। आइए हर चीज के बारे में अधिक विस्तार से बात करें।

बड़े बदलाव

1. XPath, CSS, XQuery, RegEx के साथ डेटा स्क्रैपिंग।

वेब स्क्रैपिंग कुछ नियमों के अनुसार वेबसाइट पर रुचि के पृष्ठों से डेटा निकालने की एक स्वचालित प्रक्रिया है।

वेब स्क्रैपिंग की मुख्य विधियाँ XPath, CSS चयनकर्ताओं, XQuery, RegExp और HTML टेम्प्लेट का उपयोग करके डेटा पार्सिंग विधियाँ हैं।

XPath XML / XHTML दस्तावेज़ तत्वों के लिए एक विशेष क्वेरी भाषा है। तत्वों तक पहुँचने के लिए, XPath पृष्ठ पर वांछित तत्व के पथ का वर्णन करके DOM नेविगेशन का उपयोग करता है। इसके साथ, आप दस्तावेज़ में उसके सीरियल नंबर द्वारा किसी तत्व का मान प्राप्त कर सकते हैं, उसकी टेक्स्ट सामग्री या आंतरिक कोड निकाल सकते हैं, पृष्ठ पर किसी विशिष्ट तत्व की उपस्थिति की जांच कर सकते हैं।
CSS चयनकर्ताओं का उपयोग किसी तत्व को उसके भाग (विशेषता) द्वारा खोजने के लिए किया जाता है। CSS वाक्यात्मक रूप से XPath के समान है, लेकिन कुछ मामलों में CSS लोकेटर तेज़ और अधिक वर्णनात्मक और संक्षिप्त हैं। CSS का नुकसान यह है कि यह केवल एक दिशा में काम करता है - दस्तावेज़ में गहराई से। XPath दोनों तरीकों से काम करता है (उदाहरण के लिए, आप किसी बच्चे द्वारा मूल तत्व की खोज कर सकते हैं)।
XQuery XPath भाषा पर आधारित है। XQuery XML की नकल करता है, जिससे आप इस तरह से नेस्टेड एक्सप्रेशन बना सकते हैं जो XSLT के साथ संभव नहीं है।
RegExp आवश्यक शर्तों (नियमित अभिव्यक्ति) से मेल खाने वाले टेक्स्ट स्ट्रिंग्स के एक सेट से मान निकालने के लिए एक औपचारिक खोज भाषा है।
HTML टेम्प्लेट HTML दस्तावेज़ों से डेटा निकालने के लिए एक भाषा है, जो वांछित टुकड़े के लिए एक खोज टेम्पलेट का वर्णन करने के लिए HTML मार्कअप का एक संयोजन है, साथ ही डेटा निकालने और बदलने के लिए कार्य और संचालन।

स्क्रैपिंग आमतौर पर उन कार्यों को हल करता है जिन्हें मैन्युअल रूप से संभालना मुश्किल होता है। यह एक नया ऑनलाइन स्टोर बनाने के लिए उत्पाद विवरण निकालने, कीमतों की निगरानी के लिए विपणन अनुसंधान में स्क्रैपिंग या विज्ञापनों की निगरानी करने के लिए हो सकता है।

SiteAnalyzer में, "डेटा एक्सट्रैक्शन" टैब स्क्रैपिंग सेट करने के लिए ज़िम्मेदार है, जिसमें निष्कर्षण नियम कॉन्फ़िगर किए गए हैं। नियमों को सहेजा जा सकता है और, यदि आवश्यक हो, संपादित किया जा सकता है।

एक नियम परीक्षण मॉड्यूल भी है। अंतर्निहित नियम डीबगर का उपयोग करके, आप साइट पर किसी भी पृष्ठ की HTML सामग्री को जल्दी और आसानी से प्राप्त कर सकते हैं और अनुरोधों के संचालन का परीक्षण कर सकते हैं, और फिर साइट एनालाइज़र में डेटा पार्स करने के लिए डीबग किए गए नियमों का उपयोग कर सकते हैं।

डेटा निष्कर्षण पूरा होने के बाद, सभी एकत्रित जानकारी एक्सेल को निर्यात की जा सकती है।

आप मॉड्यूल के संचालन के बारे में अधिक जान सकते हैं और लेख में सबसे सामान्य नियमों और नियमित अभिव्यक्तियों की सूची से परिचित हो सकते हैं

2. साइट के भीतर सामग्री की विशिष्टता की जाँच करना।

यह टूल आपको डुप्लीकेट पृष्ठों की खोज करने और साइट के भीतर टेक्स्ट की विशिष्टता की जांच करने की अनुमति देता है। दूसरे शब्दों में, यह आपस में विशिष्टता के लिए URL के समूह का बैच चेक है।

यह मामलों में उपयोगी हो सकता है:

पूर्ण पृष्ठ डुप्लीकेट खोजने के लिए (उदाहरण के लिए, पैरामीटर वाला पृष्ठ और एक ही पृष्ठ, लेकिन सीएनसी के रूप में)।
आंशिक सामग्री मिलान खोजने के लिए (उदाहरण के लिए, एक खाद्य ब्लॉग पर दो बोर्स्च व्यंजन जो एक दूसरे के समान 96% हैं, जो सुझाव देता है कि संभावित ट्रैफ़िक नरभक्षण से छुटकारा पाने के लिए लेखों में से एक को हटा दिया जाना चाहिए)।
जब आपने किसी लेख साइट पर गलती से किसी ऐसे विषय पर लेख लिखा था जिसे आपने 10 साल पहले ही लिखा था। इस मामले में, हमारा टूल ऐसे लेख के डुप्लिकेट का भी पता लगाएगा।

सामग्री विशिष्टता जाँच उपकरण के संचालन का सिद्धांत सरल है: साइट URL की सूची के अनुसार, कार्यक्रम उनकी सामग्री को डाउनलोड करता है, पृष्ठ की पाठ्य सामग्री प्राप्त करता है (बिना HEAD ब्लॉक और HTML टैग के), और फिर उनकी तुलना करता है एक दूसरे को शिंगल एल्गोरिथम का उपयोग करते हुए।

इस प्रकार, दाद की मदद से, हम पृष्ठों की विशिष्टता का निर्धारण करते हैं और 0% विशिष्टता के साथ पूर्ण पृष्ठ डुप्लिकेट और टेक्स्ट सामग्री विशिष्टता की विभिन्न डिग्री के साथ आंशिक डुप्लिकेट दोनों की गणना कर सकते हैं। कार्यक्रम 5 की लंबाई के साथ काम करता है।

आप इस लेख में मॉड्यूल के संचालन के बारे में अधिक जान सकते हैं।: >>

3. Google PageSpeed पर पृष्ठ लोड करने की गति की जाँच करना।

सर्च दिग्गज Google का पेजस्पीड इनसाइट्स टूल आपको कुछ पेज तत्वों की लोडिंग गति की जांच करने की अनुमति देता है, और ब्राउज़र के डेस्कटॉप और मोबाइल संस्करणों के लिए रुचि के URL के समग्र लोड स्पीड स्कोर को भी दिखाता है।

How Google PageSpeed Insights works

Google टूल सभी के लिए अच्छा है, हालांकि, इसकी एक महत्वपूर्ण खामी है - यह आपको समूह URL चेक बनाने की अनुमति नहीं देता है, जो आपकी साइट के कई पृष्ठों की जाँच करते समय असुविधा पैदा करता है: आपको यह स्वीकार करना होगा कि मैन्युअल रूप से 100 के लिए डाउनलोड गति की जाँच करना या एक पृष्ठ पर अधिक URL एक घर का काम है और इसमें बहुत समय लग सकता है।

इसलिए, हमने एक मॉड्यूल बनाया है जो आपको Google पेजस्पीड इनसाइट्स टूल में एक विशेष एपीआई के माध्यम से पेज लोडिंग स्पीड की मुफ्त ग्रुप चेक बनाने की अनुमति देता है।

Checking page loading speed, Google PageSpeed

मुख्य विश्लेषण पैरामीटर:

FCP (First Contentful Paint) – पहली सामग्री का प्रदर्शन समय।
SI (Speed Index) – एक पृष्ठ पर सामग्री कितनी जल्दी प्रस्तुत की जाती है इसका एक उपाय।
LCP (Largest Contentful Paint) – सबसे बड़े पृष्ठ तत्व का प्रदर्शन समय।
TTI (Time to Interactive) – वह समय जिसके दौरान पृष्ठ उपयोगकर्ता सहभागिता के लिए पूरी तरह से तैयार हो जाता है।
TBT (Total Blocking Time) – सामग्री के पहले प्रतिपादन से लेकर उपयोगकर्ता सहभागिता के लिए उसकी तैयारी तक का समय।
CLS (Cumulative Layout Shift) – संचयी लेआउट शिफ्ट। एक पृष्ठ की दृश्य स्थिरता को मापने के लिए कार्य करता है।

SiteAnalyzer के बहु-थ्रेडेड वर्कफ़्लो के लिए धन्यवाद, सैकड़ों या अधिक URL की जाँच में केवल कुछ मिनट लग सकते हैं, जिसमें ब्राउज़र के माध्यम से मैन्युअल रूप से एक दिन या उससे अधिक समय लग सकता है।

उसी समय, URL विश्लेषण स्वयं कुछ ही क्लिक में होता है, जिसके बाद एक रिपोर्ट उपलब्ध होती है जिसमें एक्सेल में सुविधाजनक रूप में चेक की मुख्य विशेषताएं शामिल होती हैं।

आरंभ करने के लिए आपको केवल एक API कुंजी प्राप्त करने की आवश्यकता है।
यह कैसे करना है इस लेख में वर्णित है। >>

4. फ़ोल्डरों द्वारा परियोजनाओं को समूहीकृत करने की क्षमता जोड़ी गई।

परियोजनाओं की सूची के माध्यम से अधिक सुविधाजनक नेविगेशन के लिए, साइटों को फ़ोल्डरों में समूहित करने की क्षमता को जोड़ा गया है।

इसके अतिरिक्त, परियोजनाओं की सूची को नाम से फ़िल्टर करना संभव हो गया।

5. प्रोग्राम सेटिंग्स इंटरफ़ेस अपडेट किया गया है।

कार्यक्रम की कार्यक्षमता के विस्तार के साथ, हमारे लिए टैब का उपयोग करना "कठिन" हो गया, इसलिए हमने सेटिंग्स विंडो को अधिक समझने योग्य और कार्यात्मक इंटरफ़ेस में पुन: स्वरूपित किया।

टिप्पणियाँ:

URL अपवादों का निश्चित गलत प्रबंधन
साइट क्रॉल गहराई का निश्चित गलत खाता
फ़ाइल से आयात किए गए URL के लिए पुनर्निर्देशों का पुनर्स्थापित प्रदर्शन
टैब पर स्तंभों के क्रम को पुनर्व्यवस्थित करने और याद रखने की क्षमता को बहाल किया
गैर-विहित पृष्ठों के लिए लेखांकन बहाल किया, खाली मेटा टैग के साथ समस्या को ठीक किया
जानकारी टैब पर लिंक एंकरों का पुनर्स्थापित प्रदर्शन
क्लिपबोर्ड से बड़ी संख्या में URL का त्वरित आयात
शीर्षक और विवरण की निश्चित रूप से सही पार्सिंग हमेशा सही नहीं होती है
छवियों के लिए Alt और शीर्षक का पुनर्स्थापित प्रदर्शन
प्रोजेक्ट स्कैनिंग के दौरान "बाहरी लिंक" टैब पर स्विच करते समय निश्चित हैंग
प्रोजेक्ट के बीच स्विच करते समय और क्रॉल स्टैटिस्टिक्स टैब के नोड्स को अपडेट करते समय होने वाली बग को ठीक किया
पैरामीटर वाले URL के लिए गलत नेस्टिंग स्तर का पता लगाना तय किया गया है
मुख्य तालिका में HTML-हैश फ़ील्ड द्वारा निश्चित डेटा छँटाई
सिरिलिक डोमेन के साथ कार्यक्रम का अनुकूलित कार्य
अद्यतन कार्यक्रम सेटिंग्स इंटरफ़ेस
अद्यतन लोगो डिजाइन