Sahifalarni topish va olish Iloji boricha ko'proq onlayn saytlar yoki sahifalar haqida ma'lumot to'plash uchun veb-brauzer sahifalardagi havolalar orasida harakat qiladi.
Veb-brauzer ma'lum URL yoki asosiy URL manzilidan boshlanadi, so'ngra o'sha sahifadagi havolalardan yangi saytlarni topadi va ularga kiradi. U bu jarayonni qayta-qayta takrorlaydi, doimiy ravishda yangi sahifalarni qidiradi. Onlayn sahifalarning juda ko'pligi va ma'lumotlar doimiy ravishda yangilanib turishi tufayli bu jarayon deyarli cheksiz davom etishi mumkin.
Brauzer topadigan, lekin kelajakda kashf qilish uchun eslab qoladigan havolalar skaner chegarasi deb ataladigan narsani tashkil qiladi. Keyinchalik bu giperhavolalar siyosatlar to'plami yoki skanerlash qoidalari bilan belgilanadigan tartibda tashrif buyuriladi. Bularga tanlash siyosati, qayta ko'rib chiqish siyosati, xushmuomalalik siyosati va parallellashtirish siyosati kiradi.
Veb-brauzer ma'lum bir sahifaga bog'langan URL manzillar sonini va ma'lum bir sahifaga tashriflar sonini ko'rib chiqadi - barchasi muhim bo'lgan tarkibni topish va indekslash uchun. Mantiq shundan iboratki, tez-tez tashrif buyuriladigan va iqtibos keltiriladigan sahifada nufuzli, yuqori sifatli ma'lumotlar mavjud. Shuning uchun qidiruv tizimi saytni bilishi va uni kashf qilish qobiliyatiga ega bo'lishi muhimdir.
Sahifalarni ko'rsatish, yuklab olish va indekslash Brauzer bot yangi sahifani topgach, u sayt nusxasi yoki meta teglar bo'ladimi, undagi ma'lumotlarni ko'rsatadi, bu ma'lumotlarni yuklab oladi va indekslaydi. Ba'zi veb-brauzerlar faqat umumiy sahifalarga kirishlari yoki o'qishlari mumkin, boshqalari autentifikatsiya qilingan sahifalarni indekslash uchun ruxsatlarga ega. Ular, shuningdek, robots.txt fayllari va noindex meta-teglari talablariga javob beradi. Robots.txt fayli onlayn sahifalar uchun qoidalar kitobi bo'lib, u bot qanday havolalarni kuzatishi va qanday ma'lumotlarni indekslashi mumkinligini aniqlaydi. Noindex meta tegi indekslash uchun bo'lmagan meta teglarni aniqlaydi.