Facebook Twitter Telegram Pinterest Linkedin Product Hunt

Како масовно проверити јединственост садржаја странице међу собом

Comments
 218
2020-10-27 | Време читања: 5 минута
Facebook
Аутор: Simagin Andrey

Питање утврђивања дупликата страница и јединствености текстова унутар странице једно је од најважнијих на списку радова на техничкој ревизији. Присуство дупликата страница одређује и укупну добробит веб локације и расподелу буџета за индексирање претраживача, што може бити изгубљено, и уопште, рангирање странице може имати потешкоће због велике количине дуплираног садржаја.

Batch check of uniqueness of texts

И ако на Интернету лако можете пронаћи велики број услуга и програма за проверу јединствености појединачних текстова, тада нема много сличних услуга за проверу јединствености групе одређених УРЛ-ова међу собом, иако је сам проблем важан и релевантан.

Које опције за проблеме са јединственим садржајем могу бити на веб локацији?

1. Исти садржај за различите URL адресе.

Обично је ово страница са параметрима и иста страница, али у облику SEF-а (УРЛ-а читљивог човеку).

  • Пример:
    • https://some-site.com/index.php?page=contacts
    • https://some-site.com/contacts/

Ово је прилично чест проблем када, након подешавања SEF-а, програмер заборави да постави 301 преусмеравање са страница са параметрима на странице са ЦНЦ-ом.

Овај проблем лако може решити било који веб претраживач који ће, упоредивши све странице веб локације, открити да две од њих имају исте хеш кодове (МД5) и обавестити оптимизатор, који ће морати да постави задатак, исти програмер да инсталира 301 преусмеравање на ЦНЦ странице.

SiteAnalyzer, search for duplicate pages

Међутим, није све тако једноставно.

2. Садржај који се преклапа.

Сличан садржај се генерише када имамо различите странице, али у ствари са истим или сличним садржајем.

Пример 1

На веб локацији за продају пластичних прозора, у одељку вести, цопивритер је пре годину дана 8. марта написао честитку за 500 знакова и дао попуст од 15% на уградњу пластичних прозора.

И ове године је менаџер садржаја одлучио да "превари" и без даљег одлагања пронашао је раније објављене вести са попустима, копирао их и променио попуст са 15 на 12% + додао 50 знакова од себе уз додатне честитке.

Тако на крају имамо два готово идентична текста, 90% слична, који су сами по себи нејасни дупликати, од којих један с разлогом захтева хитно преписивање.

Defining duplicate text

У исто време, за услуге техничке ревизије, ове две вести ће се разликовати, јер је SEF на веб локацији већ конфигурисан, а контролне суме страница се неће подударати, шта год да се каже.

На крају, која ће страница боље рангирати, велико је питање ...

Али оне су такве вести - имају тенденцију да брзо застаревају, па узмимо занимљивији пример.

Пример 2

Culinary blog

На својој веб локацији имате одељак са чланком или одржавате личну страницу за свој хоби / хоби, на пример, то је "кулинарски блог".

И, на пример, ваш блог је већ прикупио редослед чланака за цело време, више од 100, или чак неколико стотина. И тако сте узели тему и написали нови чланак, објавили га, а касније некако открили да је сличан чланак већ написан пре 3 године. Иако би се чинило да сте пре писања садржаја прелистали све наслове, отворили Екцел са списком објављених тема, али нисте узели у обзир да се прошли садржај чланка "Како направити топлу чоколаду код куће" снажно поклапа са тек написаним материјалом. А приликом провере ова два чланка у некој од мрежних услуга, испоставља се да су они међусобно јединствени за 78%, што, наравно, није добро, јер због делимичног дуплицирања долази до канибализације упита за претрагу између ових страница и претраживача постављају се питања и потешкоће приликом рангирања таквих дупликата.

Search for plagiarism on the Internet

Наравно, након писања чланка, сваки цопивритер мора да га провери на јединственост у некој од познатих услуга, а сваки СЕО је дужан да провери нови садржај када га постави на сајт у истим сервисима.

Али, шта урадити ако је веб локација управо дошла код вас на промоцију и морате брзо да проверите да ли се на свим страницама налазе дупликати? Или сте у зору отварања свог блога написали гомилу чланака исте врсте, а сада је, највероватније, због њих, сајт почео тонути. Не проверавајте ручно 100.500 страница на мрежним услугама, додајући да сваки чланак проверавате ручно и трошећи пуно времена на њега.

BatchUniqueChecker

Због тога смо креирали програм БатцхУникуеЦхецкер, дизајниран за групну проверу међусобне јединствености групе УРЛ-ова.

BulkPageSpeed

Принцип рада БатцхУникуеЦхецкер-а је једноставан: програм преузима њихов садржај помоћу унапред припремљене листе УРЛ адреса, прима ПлаинТект (текстуални садржај странице без блока ХЕАД и без ХТМЛ тагова), а затим их упоређује помоћу алгоритма шиндре.

Дакле, помоћу шиндре утврђујемо јединственост страница и можемо израчунати како пуне дупликате страница са 0% јединствености, тако и делимичне дупликате са различитим степеном јединствености текстуалног садржаја.

Comparison of two texts for similarity

У подешавањима програма можете ручно да подесите величину шиндре (шиндра је број речи у тексту, чија се контролна сума наизменично упоређује са следећим групама). Препоручујемо подешавање вредности = 4. За велике количине текста од 5 и више. За релативно мале количине - 3-4.

Setting the number of shingles to check for uniqueness

Смислени текстови

Поред упоређивања садржаја у целокупном тексту, програм укључује алгоритам за "паметну" изолацију такозваних "значајних" текстова.

Односно, из HTML кода странице добијамо само садржај садржан у ознакама H1-H6, P, PRE и LI. Због тога некако одбацујемо све "небитно", на пример, садржај из менија за навигацију на веб локацији, текст из подножја или бочног менија.

Као резултат таквих манипулација добијамо само "смислен" садржај странице, који ће у поређењу показати тачније резултате јединствености са другим страницама.

Comparison of relevant page content

Листа страница за њихову накнадну анализу може се додати на неколико начина: налепити из међуспремника, учитати из текстуалне датотеке или увести из Ситемап.кмл са рачунарског диска.

Због вишенитног рада програма, провера стотина или више УРЛ-ова може потрајати само неколико минута, што у ручном режиму, путем мрежних услуга, може потрајати дан или више.

Тако добијате једноставну алатку за брзу проверу јединствености садржаја за групу URL-ова која се може покренути чак и са преносивих медија.

BatchUniqueChecker је бесплатан, заузима само 4 МБ у архиви и не захтева инсталацију.

Све што вам је потребно је да преузмете дистрибутивни комплет и додате листу URL адреса од интереса за верификацију, које се могу добити путем бесплатног програма техничке ревизије SiteAnalyzer.


Молимо вас да Оцените чланак
0/5
0



<< Назад

Наши клијенти