<- Zurück

Entwicklung eines automatisierten Systems für die Branchenklassifizierung


Im Rahmen eines meiner letzten Projekte für ein österreichisches Unternehmen im Bereich Geschäftsdaten entwickelte ich ein automatisiertes Klassifizierungssystem für Branchen. Eines der Hauptprobleme der Datenbank des Unternehmens war, dass die Kategorien und die Taxonomie der Branchen unsauber und unstrukturiert waren. Zusätzlich fehlten bei einem großen Teil der Daten die Kategorien. Ziel des Projekts war es daher, Geschäftsdaten automatisch den jeweiligen Branchenkategorien zuzuordnen und den Prozess zu automatisieren. Wie in der untenstehenden Abbildung dargestellt, besteht der übergeordnete Prozess der finalen Anwendung aus fünf Hauptschritten:

  1. Im ersten Schritt wird das System entweder mit einer URL einer Unternehmenswebsite oder einer Liste von Website-URLs gespeist.
  2. Im zweiten Schritt extrahiert das System die statistisch relevantesten Schlüsselwörter von der Website.
  3. Im dritten Schritt klassifiziert ein Machine-Learning-Algorithmus, genauer gesagt ein neuronales Netzwerk, die extrahierten Schlüsselwörter in die entsprechenden Branchenkategorien.
  4. Im vierten und letzten Schritt wird die Klassifizierungsausgabe in der Datenbank gespeichert.  
     


Weitere Merkmale des Klassifizierungssystems  

  • Das System wurde mit Python entwickelt und als MS-Azure-Funktion implementiert, die über eine URL zugänglich ist.
  • Als Machine-Learning-Modell kam ein mehrschichtiges rekurrentes neuronales Netzwerk basierend auf einem LSTM-Vektorisierer zum Einsatz, implementiert mit Keras/Tensorflow.
  • Ich habe eine neue Branchentaxonomie entworfen, die aus 35 Top-Level-Kategorien, 230 mittleren Kategorien und 3.200 Unterkategorien besteht.
  • Für den Web-Crawler, der die statistisch relevantesten Schlüsselwörter von der Website extrahiert, habe ich einen Algorithmus entwickelt, der in der Lage ist, Wörter basierend auf ihrer Wortart zu taggen.  

Apps

Connect

Mehr