›   Demo 2: Predictive Maintenance
›   Performance-Kennzahlen

Im ersten Teil des Demonstrators haben wir die Frage nach den Kombination von Merkmalen, die zu einem Ausfall eines Motors führen, anhand des Vorhersagemodells des Entscheidungsbaumes beantwortet. Dieser Baum wurde danach interpretiert und zur Vorhersage eines Ausfalls bei neu erfassten Daten verwendet.

Nun stellt sich aber die Frage wie gut das Vorhersagemodell überhaupt ist.
Zur Beantwortung dieser Frage ziehen wir die in Schritt 4: Datenanalyse Fortsetzung vorgestellten Kennzahlen zur Beurteilung des Testfehlers heran. Basierend auf dem in Schritt 4: Datenanalyse Fortsetzung beschriebenen Testverfahren der Kreuzvalidierung werden die entsprechenden Kennzahlen erhoben und im nächsten Schritt überprüft, ob diese in einem vorher festgelegten, akzeptablen Bereich liegen.

Die Fragestellung

Uns interessiert, wie sicher das Vorhersagemodell den Ausfall eines Motors vorhersagt. Anhand der Kennzahlen zum Testfehler lässt sich dies beantworten: Liegen die Kennzahlen in einem vorher festgelegten, akzeptablen Bereich? Wenn ja, dann ist das Modell gut, d.h. wir können uns auf die Aussagen und Vorhersagen durch das Modell verlassen.

Der erweiterte Datenanalyse-Prozess in RapidMiner

Der zur Erstellung des Entscheidungsbaums verwendete RapidMiner-Prozess wird nun erweitert, um zusätzlich die zur Bewertung der Güte des Vorhersagemodells benötigten Kennzahlen zum Testfehler zu bestimmen.

erweiterter RapidMiner-Prozess

Die Schritte "Einlesen und Speichern der Daten" (lila-markiert) und "Bearbeitung der Daten" (rosa-markiert) ändern sich nicht, einzig der Operator "DecisionTree" des Datenanalyse-Prozesses wird auf oberster Ebene des Prozesses durch den "CrossValidation"-Operator (gelb-markiert) ersetzt.

Unterprozess CrossValidation

Der "DecisionTree"-Operator wird in den Unterprozess des "CrossValidation"-Operators, genauer gesagt in dessen Trainingsphase, verlagert. Das so erstellte Modell, der Entscheidungsbaum des entsprechenden Durchlaufs der Kreuzvalidierung, wird in der folgenden Testphase des "CrossValidation"-Operators im "ApplyModel"-Operator zur Vorhersage verwendet und danach werden mit dem "Performance"-Operator die Kennzahlen zum Testfehler des entsprechenden Durchlaufs der Kreuzvalidierung ermittelt. Nach 10 Durchläufen werden die durchschnittlichen Kennzahlwerte des Testfehlers bestimmt.

Der CrossValidation-Operator führt die Kreuzvalidierung durch.

Der CrossValidation-Operator ist ein Baustein, der die Kreuzvalidierung durchführt und aus den Unterprozessen Trainings- und Testphase besteht.
Der CrossValidation-Operator wird in unserem Prozess mit k=10, also zur Durchführung einer 10-fachen Kreuzvalidierung, verwendet.

Der Performance-Operator ermittelt die Kennzahlen zum Testfehler.

Der Performance-Operator ist ein Baustein, der die Originalwerte der Zielvariablen eines Datensatzes mit den Vorhersagen, die bei uns ein Modell liefert, direkt vergleicht und auf diese Weise die Kennzahlen zum Testfehler bestimmt.

Beurteilung des Vorhersagemodells anhand der Kennzahlen

Wie gut der Entscheidungsbaum aus dem ersten Teil der Demo zur Vorhersage eines Ausfalls geeignet ist, können wir nun anhand der vier ermittelten Kennzahlen zum Testfehler beurteilen:

Wie in Schritt 4: Datenanalyse Fortsetzung beschrieben, kann ein Modell als "gut" bewertet werden, wenn die Kennzahlen nahe an 100% liegen. Was genau "nahe" heißt, hängt von der Einschätzung des Experten ab, d.h. welche Abweichungen er noch als in Ordnung gelten lässt. Unsere Kennzahlen liegen in einem moderaten Bereich und können mit Vorbehalt zur Vorhersage eines Ausfalls verwendet werden.

Des Weiteren können die hier ermittelten Kennzahlen auch zur Auswahl eines Vorhersagemodells aus mehreren zur Verfügung stehenden Modellen herangezogen werden. Dabei sollte neben den Kennzahlen auch die Verständlichkeit und intuitive Interpretierbarkeit sowie die praktische Anwendbarkeit des Modells eine Rolle bei der Auswahl des Vorhersagemodells spielen.