Шекараны тексеріп шығу - Crawl frontier - Wikipedia

A шекараны тексеріп шығу сақтау үшін қолданылатын мәліметтер құрылымы болып табылады URL мекенжайлары URL мекенжайларын қосу және тексеруді таңдау сияқты әрекеттерді тексеріп шығуға және қолдауға құқылы. Кейде оны келесідей көруге болады кезек кезегі. [1]

Шолу

Веб-шолғыштың архитектурасы

Тексеріп шығудың шекарасы - бұл веб-шолғыштың архитектурасын құрайтын компоненттердің бірі. Тексеріп шығудың шекарасында а. Логикасы мен ережелері бар шынжыр табанды веб-сайттарға кірген кезде орын алады. Бұл қызмет белгілі жорғалау.

Саясатта келесі парақтарды қалай қарау керек, әр парақтың іздеу басымдығы және параққа қанша рет кіру керек деген сияқты мәселелер қамтылуы мүмкін.[2] Тексеріп шығу шекарасының тиімділігі өте маңызды, өйткені вебтің сипаттамаларының бірі, бұл вебті тексеріп шығуды қиындатады; оның құрамында осындай көлемді мәліметтер бар және ол үнемі өзгеріп отырады.[3][4]

Сәулет

Шынжыр табанында орналасқан URL мекенжайларының бастапқы тізімі тұқымдар ретінде белгілі. Веб-шолғыш шекарадан қандай беттерге кіру керектігін үнемі сұрайды. Тексеріп шығушы осы беттердің әрқайсысына кіргенде, ол әр беттің жауабымен шекараны хабардар етеді. Сондай-ақ, шынжыр табан өзі кірген беттердегі кез-келген жаңа сілтемелермен шынжыр табанды шекарасын жаңартады. Бұл сілтемелер шекараға қосылып, тексеріп шығушы шекара саясатына негізделген жаңа веб-беттерге кіреді.[3][4] Бұл процесс рекурсивті түрде тексеріп шығу шекарасындағы барлық URL мекенжайларына кіргенге дейін жалғасады.

Қандай беттерге кіруге болатындығын анықтайтын ережелер әдетте ұпайға негізделген. Бұл балл әдетте бірнеше түрлі атрибуттардан есептеледі. Беттің балғындығы, парақтың жаңартылған уақыты және мазмұнның белгілі бір терминдерге сәйкестігі сияқты.

Компоненттер

Crawler Frontier архитектурасы

Frontier API / Manager

Frontier Manager - бұл веб-тексеріп шығушы тексеріп шығумен шектесу үшін қолданылатын компонент. Frontier API-ді тексеріп шығатын шекарамен байланыс жасау үшін пайдалануға болады.[3]

Орталар

Шекара орталар менеджер мен артқы жағында отырыңыз. Штабтардың мақсаты - шекара мен артқы жағындағы байланыстарды басқару. Аралық орта - бұл қосымша кодты қосу арқылы қосымша функционалдылықты қосудың немесе кеңейтудің тамаша тәсілі.[5]

Backend

Backend компоненті іздеу кезінде қолданылатын барлық логика мен саясатты қамтиды. Backend-тің қызметі - тексеріп шығатын беттерді анықтау.[5]

Белгілі бағдарламалар

Әдебиеттер тізімі

  1. ^ Олстон, Кристофер; Найорк, Марк. «Веб-шолғыш» (PDF). Ақпаратты іздеудің негіздері мен тенденциялары.
  2. ^ Патил, Югандхара; Патил, Сонал (2016). «Техникалық сипаттамасымен жұмыс істейтін веб-шолғыштарға шолу» (PDF). Компьютерлік және коммуникациялық инженериядағы озық зерттеулердің халықаралық журналы. 5: 4.
  3. ^ а б c «crawlfrontier Documentation» (PDF). 2015 жылғы 15 сәуір.
  4. ^ а б Дхенакаран, С.С .; Самбантхан, К.Тиругнана (2011). «Веб-шолғыш - шолу» (PDF). Халықаралық информатика және байланыс журналы. 2: 3.
  5. ^ а б «Frontera сәулеті». 2017.