Halo! Kami kembali berbisnis!
Setelah waktu yang sangat lama, kami akhirnya menyiapkan rilis baru SiteAnalyzer, yang kami harap akan memenuhi harapan Anda dan menjadi asisten yang sangat diperlukan dalam promosi SEO.
Di SiteAnalyzer versi baru, kami telah menerapkan beberapa fitur yang paling banyak diminta oleh pengguna, seperti pengikisan data (mengekstrak data dari situs), memeriksa keunikan konten, dan memeriksa kecepatan pemuatan halaman oleh Google PageSpeed. Pada saat yang sama, banyak bug ditutup dan logo dibenahi. Mari kita bicarakan semuanya secara lebih rinci.
Perubahan besar
1. Pengikisan data dengan XPath, CSS, XQuery, RegEx.
Pengikisan web adalah proses otomatis mengekstraksi data dari halaman yang diminati di situs web menurut aturan tertentu.
Metode utama web scraping adalah metode penguraian data menggunakan XPath, pemilih CSS, XQuery, RegExp dan template HTML.
- XPath adalah bahasa permintaan khusus untuk elemen dokumen XML / XHTML. Untuk mengakses elemen, XPath menggunakan navigasi DOM dengan menjelaskan jalur ke elemen yang diinginkan pada halaman. Dengan itu, Anda bisa mendapatkan nilai elemen dengan nomor serinya di dokumen, mengekstrak konten teks atau kode internalnya, memeriksa keberadaan elemen tertentu di halaman.
- Selektor CSS digunakan untuk menemukan elemen berdasarkan bagiannya (atribut). CSS secara sintaksis mirip dengan XPath, tetapi dalam beberapa kasus pencari CSS lebih cepat dan lebih deskriptif dan ringkas. Kerugian dari CSS adalah hanya bekerja dalam satu arah - jauh ke dalam dokumen. XPath bekerja dua arah (misalnya, Anda dapat mencari elemen induk oleh anak).
- XQuery didasarkan pada bahasa XPath. XQuery meniru XML, yang memungkinkan Anda membuat ekspresi bersarang dengan cara yang tidak mungkin dilakukan dengan XSLT.
- RegExp adalah bahasa pencarian formal untuk mengekstrak nilai dari serangkaian string teks yang cocok dengan kondisi yang diperlukan (ekspresi reguler).
- Template HTML adalah bahasa untuk mengekstrak data dari dokumen HTML, yang merupakan kombinasi dari markup HTML untuk menggambarkan template pencarian untuk fragmen yang diinginkan, ditambah fungsi dan operasi untuk mengekstraksi dan mengubah data.
Scraping biasanya digunakan untuk menyelesaikan tugas-tugas yang sulit ditangani secara manual. Ini dapat berupa mengekstrak deskripsi produk untuk membuat toko online baru, menggali riset pemasaran untuk memantau harga, atau untuk memantau iklan.
Di SiteAnalyzer, tab "Ekstraksi Data" bertanggung jawab untuk menyiapkan pengikisan, di mana aturan ekstraksi dikonfigurasi. Aturan dapat disimpan dan, jika perlu, diedit.
Ada juga modul pengujian aturan. Dengan menggunakan debugger aturan bawaan, Anda dapat dengan cepat dan mudah mendapatkan konten HTML dari halaman mana pun di situs dan menguji pengoperasian permintaan, lalu menggunakan aturan yang di-debug untuk mengurai data di SiteAnalyzer.
Setelah ekstraksi data selesai, semua informasi yang dikumpulkan dapat diekspor ke Excel.
Anda dapat mempelajari lebih lanjut tentang pengoperasian modul dan berkenalan dengan daftar aturan paling umum dan ekspresi reguler di artikel
2. Memeriksa keunikan konten dalam situs.
Alat ini memungkinkan Anda untuk mencari halaman duplikat dan memeriksa keunikan teks di dalam situs. Dengan kata lain, ini adalah pemeriksaan batch sekelompok URL untuk keunikan di antara mereka sendiri.
Ini dapat berguna dalam kasus:
- Untuk mencari duplikat halaman yang lengkap (misalnya halaman dengan parameter dan halaman yang sama, tetapi dalam bentuk CNC).
- Untuk mencari kecocokan sebagian konten (misalnya, dua resep borscht di blog makanan yang 96% mirip satu sama lain, yang menunjukkan bahwa salah satu artikel harus dihapus untuk menghilangkan kemungkinan kanibalisasi lalu lintas).
- Ketika di situs artikel Anda secara tidak sengaja menulis artikel tentang topik yang sudah Anda tulis 10 tahun yang lalu. Dalam hal ini, alat kami juga akan mendeteksi duplikat artikel semacam itu.
Prinsip pengoperasian alat pemeriksa keunikan konten sederhana: program mengunduh konten mereka dari daftar URL situs, menerima konten teks halaman (tanpa blok HEAD dan tanpa tag HTML), dan kemudian membandingkannya satu sama lain menggunakan algoritma shingle.
Jadi, dengan bantuan shingles, kami menentukan keunikan halaman dan dapat menghitung duplikat halaman penuh dengan keunikan 0%, dan duplikat parsial dengan tingkat keunikan konten teks yang berbeda. Program ini bekerja dengan panjang sirap 5.
Anda dapat mempelajari lebih lanjut tentang pengoperasian modul di artikel ini.: >>
3. Memeriksa kecepatan pemuatan halaman di Google PageSpeed.
Alat PageSpeed Insights dari raksasa pencarian Google memungkinkan Anda untuk memeriksa kecepatan pemuatan elemen halaman tertentu, dan juga menunjukkan skor kecepatan pemuatan keseluruhan dari URL yang menarik untuk versi desktop dan seluler dari browser.
Alat Google bagus untuk semua orang, namun memiliki satu kelemahan signifikan - tidak memungkinkan Anda membuat pemeriksaan URL grup, yang menciptakan ketidaknyamanan saat memeriksa banyak halaman situs Anda: Anda harus mengakui bahwa memeriksa kecepatan unduh secara manual untuk 100 atau lebih banyak URL pada satu halaman suram dan dapat memakan banyak waktu.
Oleh karena itu, kami telah membuat modul yang memungkinkan Anda membuat pemeriksaan grup gratis untuk kecepatan pemuatan halaman melalui API khusus di alat Google PageSpeed Insights.
Parameter utama yang dianalisis:
- FCP (First Contentful Paint) – waktu tampilan konten pertama.
- SI (Speed Index) – ukuran seberapa cepat konten dirender pada halaman.
- LCP (Largest Contentful Paint) – waktu tampilan elemen halaman terbesar.
- TTI (Time to Interactive) – waktu di mana halaman menjadi sepenuhnya siap untuk interaksi pengguna.
- TBT (Total Blocking Time) – waktu dari rendering pertama konten hingga kesiapannya untuk interaksi pengguna.
- CLS (Cumulative Layout Shift) – pergeseran tata letak kumulatif. Berfungsi untuk mengukur kestabilan visual suatu halaman.
Berkat alur kerja multi-utas SiteAnalyzer, memeriksa ratusan atau lebih URL dapat memakan waktu hanya beberapa menit, yang dapat memakan waktu satu hari atau lebih secara manual melalui browser.
Pada saat yang sama, analisis URL itu sendiri terjadi hanya dalam beberapa klik, setelah itu laporan tersedia yang mencakup karakteristik utama pemeriksaan dalam bentuk yang nyaman di Excel.
Yang Anda butuhkan untuk memulai adalah mendapatkan kunci API.
Cara melakukannya dijelaskan dalam artikel ini. >>
4. Menambahkan kemampuan untuk mengelompokkan proyek berdasarkan folder.
Untuk navigasi yang lebih nyaman melalui daftar proyek, kemampuan untuk mengelompokkan situs ke dalam folder telah ditambahkan.
Selain itu, menjadi mungkin untuk memfilter daftar proyek berdasarkan nama.
5. Antarmuka pengaturan program telah diperbarui.
Dengan perluasan fungsi program, menjadi "sempit" bagi kami untuk menggunakan tab, jadi kami memformat ulang jendela pengaturan menjadi antarmuka yang lebih mudah dipahami dan fungsional.
Catatan:
- memperbaiki penanganan pengecualian URL yang salah
- memperbaiki akun yang salah tentang kedalaman perayapan situs
- mengembalikan tampilan pengalihan untuk URL yang diimpor dari file
- memulihkan kemampuan untuk mengatur ulang dan mengingat urutan kolom pada tab
- memulihkan akuntansi untuk halaman non-kanonik, memperbaiki masalah dengan tag meta kosong
- mengembalikan tampilan jangkar tautan pada tab Info
- impor yang dipercepat dari sejumlah besar URL dari clipboard
- diperbaiki tidak selalu penguraian judul dan deskripsi yang benar
- mengembalikan tampilan alt dan judul untuk gambar
- tetap macet saat beralih ke tab "Tautan Eksternal" selama pemindaian proyek
- memperbaiki bug yang terjadi saat beralih di antara proyek dan memperbarui node dari tab Statistik Perayapan
- memperbaiki deteksi tingkat bersarang yang salah untuk URL dengan parameter
- penyortiran data tetap berdasarkan bidang hash HTML di tabel utama
- kerja program yang dioptimalkan dengan domain Cyrillic
- antarmuka pengaturan program yang diperbarui
- desain logo yang diperbarui
Ikhtisar versi sebelumnya:
- Ikhtisar versi baru SiteAnalyzer 2.2
- Ikhtisar versi baru SiteAnalyzer 2.1
- Ikhtisar versi baru SiteAnalyzer 2.0