Facebook Twitter Telegram Pinterest Linkedin Product Hunt

Бет мазмұнын бір-бірімен қалайша жаппай тексеруге болады

Comments
 241
2020-10-27 | Уақыт оқулары: 5 минут
Facebook
Автор: Simagin Andrey

Парақтың қайталануын және мәтін ішіндегі мәтіндердің бірегейлігін анықтау мәселесі техникалық аудит бойынша жұмыстар тізіміндегі ең маңызды мәселелердің бірі болып табылады. Қайталанатын парақтардың болуы сайттың жалпы әл-ауқатын да, ысырап болуы мүмкін іздеу жүйесінің тексеріп шығатын бюджетінің таралуын да анықтайды, және жалпы, сайттың рейтингісінің мазмұны көп болғандықтан, қиын болуы мүмкін.

Batch check of uniqueness of texts

Егер сіз Интернеттегі жеке мәтіндердің бірегейлігін тексеруге арналған көптеген қызметтер мен бағдарламаларды оңай таба алсаңыз, онда проблеманың өзі маңызды және өзекті болғанымен, нақты URL мекенжайлар тобының бір-бірін қайталайтынын тексеретін ұқсас қызметтер көп емес.

Сайтта бірегей емес мазмұнға қатысты қандай нұсқалар болуы мүмкін?

1. Әр түрлі URL мекенжайлары үшін бірдей мазмұн.

Әдетте бұл параметрлері бар парақ және бірдей парақ, бірақ SEF түрінде (адам оқитын URL).

  • Мысал:
    • https://some-site.com/index.php?page=contacts
    • https://some-site.com/contacts/

Бұл SEF-ті орнатқаннан кейін бағдарламашы SEF-мен парақтарға параметрлермен беттерді 301 бағыттауды орнатуды ұмытып кеткенде өте жиі кездесетін мәселе.

Бұл мәселені кез-келген веб-шолғыш оңай шеше алады, ол сайттың барлық парақтарын салыстыра отырып, олардың екеуінде бірдей хэш кодтары (MD5) бар екенін анықтап, 301 қайта бағыттауларын орнату үшін тапсырманы, сол бағдарламашыны орнатуға тура келетін оптимизаторға хабарлайды. SEF беттеріне.

SiteAnalyzer, search for duplicate pages

Алайда, бәрі де қарапайым емес.

2. Мазмұнның қабаттасуы.

Ұқсас мазмұн бізде әр түрлі беттер болған кезде жасалады, бірақ шын мәнінде мазмұны бірдей немесе ұқсас.

Мысал 1

Пластикалық терезелер сататын веб-сайтта жаңалықтар бөлімінде копирайтер бір жыл бұрын 500 таңбаға 8 наурызда құттықтау жазды және пластикалық терезелерді орнатуға 15% жеңілдік берді.

Осы жылы контент-менеджер «алдау» туралы шешім қабылдады, әрі көп ойланбастан, бұрын жарияланған жаңалықтарды жеңілдіктермен тауып, оны көшіріп алды және жеңілдікті 15-тен 12% -ға өзгертті + қосымша құттықтаулармен өзінен 50 белгі қосты.

Сонымен, бізде екі бірдей мәтін бар, олардың 90%-ы ұқсас, олар өздері анық емес көшірмелер болып табылады, олардың біреуі себепсіз шұғыл қайта жазуды қажет етеді.

Defining duplicate text

Сонымен қатар, техникалық аудит қызметтері үшін бұл екі жаңалық әр түрлі болады, өйткені сайттағы SEF қазірдің өзінде конфигурацияланған, және беттердің бақылау сомалары сәйкес келмейді.

Сайып келгенде, қай парақ жақсы орналасады деген үлкен сұрақ...

Бірақ олар осындай жаңалықтар - олар тез ескіруге бейім, сондықтан қызықты мысал келтірейік.

Мысал 2

Culinary blog

Сіздің сайтыңызда мақалалар бөлімі бар немесе хоббиіңіз / хоббиіңіз үшін жеке парақ жүргізесіз, мысалы, бұл «кулинарлық блог».

Мысалы, сіздің блогыңызда барлық уақытта 100-ден, тіпті бірнеше жүзден астам мақалалар жиналды. Осылайша сіз тақырыпты көтеріп, жаңа мақала жаздыңыз, оны орналастырдыңыз, кейінірек осыған ұқсас мақаланың 3 жыл бұрын жазылғанын білдіңіз. Мазмұнды жазбас бұрын, сіз барлық тақырыптар бойынша жүгіріп, Excel-ді орналастырылған тақырыптар тізімімен ашқан сияқты болып көрінгенмен, «Үйде ыстық шоколадты қалай дайындау керек» мақаласының өткен мазмұны жаңа жазылған материалмен сәйкес келетіндігін ескермегенсіз. Осы екі мақаланы онлайн-сервистердің бірінде тексергенде, олар 78% бір-бірімен ерекшеленеді, бұл, әрине, жақсы емес, өйткені ішінара қайталанудың арқасында осы беттер арасында іздеу сұраныстарын каннибализациялау және іздеу жүйесі сұрақтар және қиындықтар осындай телнұсқаларды рейтинг кезінде туындайды.

Search for plagiarism on the Internet

Әрине, мақала жазғаннан кейін, әр копирайтер оны белгілі қызметтердің бірінде бірегейлігі үшін тексеруі керек, және әрбір SEO сайтта сол қызметтерде орналастырылған кезде жаңа мазмұнды тексеруге міндетті.

Егер сізге веб-сайт жарнамалау үшін жақында ғана келсе және оның барлық беттерінде оның көшірмелерін тексеру қажет болса, не істеу керек? Немесе блогыңызды ашқан кезде сіз бір типтегі мақалалар жаздыңыз, енді солардың кесірінен сайт батып кете бастады. Әр мақаланы қолмен тексеруге қосып, оған көп уақыт жұмсай отырып, онлайн-қызметтердегі 100 500 парақты қолмен тексермеңіз.

BatchUniqueChecker

Сондықтан біз URL мекен-жайлар тобын бір-біріне сәйкестілігін тексеруге арналған BatchUniqueChecker бағдарламасын жасадық.

BulkPageSpeed

BatchUniqueChecker жұмысының принципі қарапайым: бағдарлама алдын-ала дайындалған URL-мекен-жайлар тізімін қолдана отырып, олардың мазмұнын жүктейді, PlainText-ті (HEAD блогынсыз және HTML тегтерсіз парақтың мәтіндік мазмұнын) алады, содан кейін оларды алгоритм көмегімен бір-бірімен салыстырады.

Осылайша, черепицаларды қолданып, біз беттердің бірегейлігін анықтаймыз және 0% бірегейлігімен парақтардың толық көшірмелерін де, мәтін мазмұнының әр түрлі дәрежедегі бірегейліктің көшірмелерін де есептей аламыз.

Comparison of two texts for similarity

Бағдарлама параметрлерінде сіз шпингтің өлшемін қолмен қоя аласыз (шингл - бұл мәтіндегі сөздердің саны, олардың бақылау сомасы кезектесіп келесі топтармен салыстырылады). = 4 мәнін орнатуды ұсынамыз, 5 және одан жоғары мәтіндердің үлкен көлемдері үшін. Салыстырмалы түрде аз көлемде - 3-4.

Setting the number of shingles to check for uniqueness

Мағыналы мәтіндер

Бағдарлама мазмұнды толық мәтінді салыстырудан басқа, «маңызды» деп аталатын мәтіндерді «ақылды» оқшаулау алгоритмін қамтиды.

Яғни парақтың HTML кодынан біз тек H1-H6, P, PRE және LI тегтеріндегі мазмұнды аламыз. Осыған байланысты біз бәрін «маңызды емес» деп санаймыз, мысалы, сайттың шарлау мәзіріндегі мазмұнды, төменгі колонтитулдағы немесе бүйірлік мәзірдегі мәтінді.

Осындай манипуляциялардың нәтижесінде біз тек «мағыналы» бет мазмұнын аламыз, олар салыстырылған кезде басқа парақтармен бірегейліктің нәтижелерін көрсетеді.

Comparison of relevant page content

Оларды кейінгі талдауға арналған парақтар тізімін бірнеше жолмен қосуға болады: алмасу буферінен қою, мәтіндік файлдан жүктеу немесе Sitemap.xml файлынан компьютеріңіздің дискісінен импорттау.

Бағдарламаның көп ағынды жұмысының арқасында жүздеген және одан да көп URL мекенжайларын тексеру бірнеше минутты алады, бұл қолмен режимде онлайн-қызметтер арқылы бір күн немесе одан да көп уақыт алуы мүмкін.

Осылайша, сіз URL мекенжайлар тобы үшін мазмұнның бірегейлігін жылдам тексеруге арналған қарапайым құралды аласыз, оны тіпті алынбалы медиадан да басқаруға болады.

BatchUniqueChecker тегін, архивте тек 4 МБ алады және орнатуды қажет етпейді.

Сізге бастау үшін тек тарату жинағын жүктеу және тексеру үшін қызығушылық тудыратын URL мекен-жайларының тізімін қосу қажет, оны тегін техникалық аудит бағдарламасы арқылы алуға болады. SiteAnalyzer.


Бағалаңыз бап
0/5
0



<< Бұрын

Біздің клиенттер