Copyright 1997 Kai Seidler.
Roboter, Wanderer und Spinnen (robots, wanderer, spiders) sind die Bezeichnungen für Internetprogramme die das World Wide Web rekursiv durchstreifen. Robots, bzw. WWW-Robots gibt es seit 1993.
Diese Programme laufen auf ihrem Heimatrechner und durchstreifen von dort die WWW-Server in aller Welt. Sie gehen dabei ähnlich wie ein menschlicher Benutzer vor. Sie lesen eine Seite und folgen dann den Referenzen dieser Seite. So hat ein Roboter, auch wenn er nur bei einer Seite beginnt, gute Chancen einen großen Teil des WWW-Informationsangebots zu finden, ohne von irgendwelchen Listen, die ihm ein Mensch geben muss, abhängig zu sein.
Ein solcher Robot ist der WebCrawler. Der WebCrawler beginnt seine Reise durch das Internet, indem ihm ein Startdokument oder kleine Liste von Startdokumenten gegeben wird. Diese Dokumente liest er ein und verfolgt alle Referenzen dieser Dokumente weiter. So wird er irgendwann das gesammte Netz oder einen abgeschlossenen Teilbereich des Netzes durchsucht haben. Nach dieser Methode verfahren auch alle anderen WWW-Roboter.
Für den Weg, den ein Roboter gehen wird, gibt es zwei Hauptstrategien, eine weite und eine enge. Bei der weiten Strategie wird der Roboter zunächst alle Seiten einer Ebene besuchen und erst wenn diese alle gesichtet hat, geht er eine Ebene tiefer. Bei der ëngenßtrategie sucht er alle Seiten bis zur tiefsten Ebene durch und geht dann wieder die Ebenen hinauf um von dort wieder in die Tiefe zu suchen. Siehe Abbbildung 1.
Abbildung 1: Die weite und enge Strategie, die
Suchreihenfolge.
Die weite Strategie hat den Vorteil, daß der Roboter schnell einen Überblick über viele Informationsquellen erhält, ohne allerding spezifische Informationen zu erhalten. Außerdem ist diese Methode netzfreundlicher, da hier keine Informationsquelle durch zu schnelle und hohe Roboterbefragung überlastet wird.
Bei der engen Strategie erhält der Roboter schnell spezielle Informationen über ein Thema, alledings zu Lasten der durchsuchten Informationsquelle. Der Roboter konzentriert sich nur auf sie und wird sie in nächster Zeit häufig besuchen.
Am besten könnte natürlich auch ein Mittelweg sein. Der WebCrawler geht diesen Weg. Wenn er etwas genauer erforschen will, weil z. B. ein Benutzer genauere Informationen anfordert, kann er kurzzeitig von der weiten in eine enge Strategie umschalten. Da nun der einzelne Server, der durchsucht wird, höher belastet wird, beschränkt sich der WebCrawler auf eine Suchrate von ein Dokument pro Minute. Technisch wäre etwa das Hundertfache möglich.
Die ''weiteßtrategie ist WWW-Server-freundlich, da sie sich nicht auf einen einzelnen WWW-Server konzentriert, wie bei der engen Strategie, sondern die Netzbelastung auf alle Server gleichmäßig verteilt.
Für die obigen Informationen gibt es im HTTP entsprechende Felder. Wofür waren diese Felder ursprünglich.
(aus ''Guidlines for Robot Writers'' von Jonathon Fletcher <J.Fletcher@stirling.ac.uk, LeeMcLoughlin <L.McLoughlin@doc.ic.ac.uk> et al.)
Wenn ein Betreiber keinen oder nur eingeschränkten Besuch von Robtos haben will, dann hat er die Möglichkeit auf eine kleine fast ungeschrieben Vereinbarung zurüzugreifen. Er muß nur auf seinem Server eine Datei anlgegen, in die er schreiben kann, von welchen Robtos er keinen Besuch haben möchte oder welche Seiten nicht von Robots gelesen werden sollen. Natürlich hängt nun alles vom wohlwollen der Roboter und deren Programmieren ab, ob sie sich an diese Konvention halten oder nicht. Diese Konvention gibt es seit dem 30. Juni 1994. Eigene Erfahrungen auf duplox.wz-berlin.de bestätigen, daß dieses Konvention sogar beachtet wird.
Eine Mailingliste für Entwickler von Robotern gibt es auch. robots@nexor.co.uk. Subscribe bei robots-request@nexor.co.uk.
Zur Zeit sind 25 Robots bekannt. Siehe Robotliste von Martijn Koster.
Roboter bleiben auf ihrem lokalen Heimatrechner und durchsuchen von dort das Internet. Sie bewegen sich nicht. Sie holen alle Daten die sie interessieren könnten über das Internet zu ihrem Rechner und durchsuchen sie dort nach interessanten Informationen. Ihre Leistungsfähigkeit hängt somit von den Netzkapazitäten und von der lokalen Rechnerhardware ab.
Zukunft. Würde man einen Virus auf diese Datensuche ansetzen, würde er sich duch Erzeugung von Kindern auf verschiedene Rechner im Internet verbreiten, er würde sich also bewegen. Er könnte auf diesen Rechnern lokal etwas suchen, und die Ergebnisse an seine Eltern weiterleiten. Die Eltern würden die Informationen erneut überpruefen und diese wiederum an ihre Eltern weiterleiten usw. Bis sie beim Autoren landen. Das hat viele Vorteile. Das Netz wuerde nicht so hoch belastet werden, da nicht immer alle Daten übertragen werden, sonder nur die gesuchten. Der Virus ist nicht von der Hardware des Autors abhaengig, da er sich auf (alle) Hardware im Netz verteilt und dann parallel arbeitet.