Topshiriq: Web crawler texnologiyalarini o'rganish

Sahifalarni topish va olish

Yüklə 23,09 Kb.

səhifə	2/3
tarix	07.01.2024
ölçüsü	23,09 Kb.
	#202220

1 2 3

G\'ulomjon

Sahifalarni korsatish, yuklab olish va indekslash

Sahifalarni topish va olish
Iloji boricha ko'proq onlayn saytlar yoki sahifalar haqida ma'lumot to'plash uchun veb-brauzer sahifalardagi havolalar orasida harakat qiladi.
Veb-brauzer ma'lum URL yoki asosiy URL manzilidan boshlanadi, so'ngra o'sha sahifadagi havolalardan yangi saytlarni topadi va ularga kiradi. U bu jarayonni qayta-qayta takrorlaydi, doimiy ravishda yangi sahifalarni qidiradi. Onlayn sahifalarning juda ko'pligi va ma'lumotlar doimiy ravishda yangilanib turishi tufayli bu jarayon deyarli cheksiz davom etishi mumkin.
Brauzer topadigan, lekin kelajakda kashf qilish uchun eslab qoladigan havolalar skaner chegarasi deb ataladigan narsani tashkil qiladi. Keyinchalik bu giperhavolalar siyosatlar to'plami yoki skanerlash qoidalari bilan belgilanadigan tartibda tashrif buyuriladi. Bularga tanlash siyosati, qayta ko'rib chiqish siyosati, xushmuomalalik siyosati va parallellashtirish siyosati kiradi.
Veb-brauzer ma'lum bir sahifaga bog'langan URL manzillar sonini va ma'lum bir sahifaga tashriflar sonini ko'rib chiqadi - barchasi muhim bo'lgan tarkibni topish va indekslash uchun. Mantiq shundan iboratki, tez-tez tashrif buyuriladigan va iqtibos keltiriladigan sahifada nufuzli, yuqori sifatli ma'lumotlar mavjud. Shuning uchun qidiruv tizimi saytni bilishi va uni kashf qilish qobiliyatiga ega bo'lishi muhimdir.
Sahifalarni ko'rsatish, yuklab olish va indekslash
Brauzer bot yangi sahifani topgach, u sayt nusxasi yoki meta teglar bo'ladimi, undagi ma'lumotlarni ko'rsatadi, bu ma'lumotlarni yuklab oladi va indekslaydi. Ba'zi veb-brauzerlar faqat umumiy sahifalarga kirishlari yoki o'qishlari mumkin, boshqalari autentifikatsiya qilingan sahifalarni indekslash uchun ruxsatlarga ega. Ular, shuningdek, robots.txt fayllari va noindex meta-teglari talablariga javob beradi. Robots.txt fayli onlayn sahifalar uchun qoidalar kitobi bo'lib, u bot qanday havolalarni kuzatishi va qanday ma'lumotlarni indekslashi mumkinligini aniqlaydi. Noindex meta tegi indekslash uchun bo'lmagan meta teglarni aniqlaydi.

Yüklə 23,09 Kb.

Dostları ilə paylaş:

1 2 3