Ein einfacher Crawler

Ich gehe jetzt einmal davon aus, dass Sie keine große Sammlung an HTML-Dokumenten haben, die auf Ihrer Festplatte herumlungern und darauf warten, dass sie indexiert werden, daher werde ich Ihnen zeigen, wie Sie einen einfachen Crawler erstellen können. Er wird mit einer kleinen Zahl an Seiten gefüttert werden, die zu indexieren sind, und dann allen Links auf diesen Seiten folgen, um andere Seiten zu finden, deren Links er auch folgen wird. Dieser Prozess wird als Crawling oder Spidering bezeichnet.

Dazu muss Ihr Code die Seiten herunterladen, sie an den Indexer übergeben (den Sie im nächsten Abschnitt bauen) und dann parsen, um alle Links zu finden, die Sie als Nächstes ansteuern werden. Glücklicherweise gibt es eine Reihe ...

Get Kollektive Intelligenz analysieren, programmieren und nutzen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.