<- Zurück

Web-Crawler und Preisalgorithmus für ein Tourismusunternehmen


Wenn es um das Crawlen von Daten geht, kann Python Selenium eine gute Wahl sein, um Daten von JavaScript-Websites zu extrahieren, die nicht statisch sind und den Crawler dazu zwingen, die Website zu navigieren. Mit anderen Worten: Selenium ermöglicht es, einen Webbrowser in einen Roboter zu verwandeln – ein Werkzeug, das in vielen Anwendungsfällen wie Website-Wartung, Leistungsanalyse oder Daten-Crawling eingesetzt werden kann. Ein aktueller Anwendungsfall für einen solchen Browser-Bot war ein Daten-Crawler für ein irisches Tourismusunternehmen, mit dem das Unternehmen Daten von Booking.com extrahieren und Preisänderungen berechnen konnte.

Mit Selenium kann ich den Webbrowser so programmieren, dass er durch eine Website navigiert, Suchparameter definiert und Suchanfragen ausführt. Als Antwort auf die Suchanfrage wird eine Ausgabe generiert, die aus einer Liste von Unterkünften und den dazugehörigen Daten besteht, welche vom Bot gecrawlt werden können. Im Rahmen des Projekts führte der Crawler-Bot eine Vielzahl von Suchanfragen für jeden irischen Bezirk durch, mit unterschiedlichen Suchparametern wie Zimmertyp, Anzahl der Personen oder Check-in-Datum.

Da die extrahierten Daten aufgrund der uneinheitlichen Verfügbarkeit verschiedener Informationen unstrukturiert waren, bestand eine der Hauptherausforderungen des Projekts darin, herauszufinden, wie diese unstrukturierten Daten in einen strukturierten Datensatz umgewandelt werden können. Darüber hinaus entwickelte ich einen Preisalgorithmus, der mit den extrahierten Daten gespeist wurde und durchschnittliche Preise für die einzelnen Bezirke generierte.

Apps

Connect

Mehr