Definisi Spidering Web dan Perayap Web
Intro To Web Crawlers & Scraping With Scrapy
Daftar Isi:
- Spammer Spider Website untuk Mengumpulkan Informasi
- Kiat Melindungi Situs Web Anda Dari Perayap Robot yang Tidak Diinginkan
- Artikel dan Informasi Terkait
Laba-laba adalah program (atau skrip otomatis) yang 'merangkak' melalui Web untuk mencari data. Laba-laba melakukan perjalanan melalui URL situs web dan dapat menarik data dari halaman web seperti alamat email. Laba-laba juga digunakan untuk memberi makan informasi yang ditemukan di situs web ke mesin pencari.
Laba-laba, yang juga disebut sebagai 'perayap web' mencari di Web dan tidak semua ramah dalam maksudnya.
Spammer Spider Website untuk Mengumpulkan Informasi
Google, Yahoo! dan mesin pencari lainnya bukan satu-satunya yang tertarik merayapi situs web - begitu juga scammers dan spammer.
Laba-laba dan alat otomatis lainnya digunakan oleh pengirim spam untuk menemukan alamat email (di internet praktik ini sering disebut sebagai 'pemanenan') di situs web dan kemudian menggunakannya untuk membuat daftar spam.
Laba-laba juga merupakan alat yang digunakan oleh mesin pencari untuk menemukan informasi lebih lanjut tentang situs web Anda tetapi tidak dicentang, situs web tanpa instruksi (atau, 'izin') tentang cara merayapi situs Anda dapat menghadirkan risiko keamanan informasi utama. Laba-laba bepergian dengan mengikuti tautan, dan mereka sangat mahir dalam menemukan tautan ke database, file program, dan informasi lain yang Anda mungkin tidak ingin mereka akses.
Webmaster dapat melihat log untuk melihat laba-laba dan robot lain apa yang telah mengunjungi situs mereka. Informasi ini membantu webmaster mengetahui siapa yang mengindeks situs mereka, dan seberapa sering.
Informasi ini berguna karena memungkinkan webmaster untuk menyempurnakan SEO mereka dan memperbarui file robot.txt untuk melarang robot tertentu merayapi situs mereka di masa depan.
Kiat Melindungi Situs Web Anda Dari Perayap Robot yang Tidak Diinginkan
Ada cara yang cukup sederhana untuk mencegah perayap yang tidak diinginkan keluar dari situs web Anda. Bahkan jika Anda tidak khawatir tentang laba-laba jahat yang merayapi situs Anda (mengaburkan alamat email tidak akan melindungi Anda dari sebagian besar perayap), Anda tetap harus menyediakan instruksi penting kepada mesin pencari.
Semua situs web harus memiliki file yang terletak di direktori root yang disebut file robots.txt. File ini memungkinkan Anda untuk menginstruksikan perayap web di mana Anda ingin mereka melihat ke halaman indeks (kecuali dinyatakan lain dalam data meta halaman tertentu untuk tidak diindeks) jika mereka adalah mesin pencari.
Sama seperti Anda dapat memberi tahu perayap yang dicari di mana Anda ingin mereka jelajahi, Anda juga dapat memberi tahu mereka di mana mereka mungkin tidak pergi dan bahkan memblokir perayap tertentu dari seluruh situs web Anda.
Penting untuk diingat bahwa file robots.txt yang disatukan dengan baik akan memiliki nilai yang luar biasa untuk mesin pencari dan bahkan bisa menjadi elemen kunci dalam meningkatkan kinerja situs web Anda, tetapi beberapa crawler robot masih akan mengabaikan instruksi Anda. Karena alasan ini, penting untuk selalu memperbarui semua perangkat lunak, plugin, dan aplikasi Anda.
Artikel dan Informasi Terkait
Karena prevalensi pengambilan informasi yang digunakan untuk tujuan jahat (spam), undang-undang disahkan pada tahun 2003 untuk membuat praktik-praktik tertentu ilegal. Undang-undang perlindungan konsumen ini berada di bawah Undang-Undang CAN-SPAM tahun 2003.
Penting bahwa Anda meluangkan waktu untuk membaca UU CAN-SPAM jika bisnis Anda terlibat dalam pengiriman surat massal atau pengumpulan informasi.
Anda dapat mengetahui lebih lanjut tentang undang-undang anti-spam dan cara menangani spammer, dan apa yang Anda sebagai pemilik bisnis mungkin tidak lakukan, dengan membaca artikel berikut:
- UU CAN-SPAM 2003
- Peraturan Undang-Undang CAN-SPAM untuk Organisasi Nirlaba
- 5 Aturan CAN-SPAM Yang Perlu dipahami Pemilik Usaha Kecil
Keterlibatan Karyawan — Definisi dan Contoh
Perlu memahami apa yang melibatkan keterlibatan karyawan sebagai strategi dan filosofi organisasi? Sebagian besar organisasi salah. Cari tahu mengapa.
Definisi dan Konsekuensi Perzinaan di Militer
Apakah perzinaan masih merupakan pelanggaran di bawah sistem peradilan militer? Meskipun bukan merupakan pelanggaran resmi di bawah UCMJ, jawabannya adalah ya dan tidak.
Bekerja dengan Jadwal yang Fleksibel - Definisi dan Panduan
Apakah Anda tertarik untuk mengerjakan jadwal yang fleksibel? Lihatlah opsi untuk jadwal fleksibel yang ditawarkan oleh tempat kerja biasa. Temukan lebih banyak lagi.