RapidMiner: Grundlagen

RapidMiner ist eine Open-Source-Anwendung für Data Mining, Datenanalyse und analytische Datenintegration. Das bedeutet, daß neben statistischen Vorhersagemethoden auch eine Reihe von Funktionen zur allgemeinen Verarbeitung von Daten enthalten ist.

RapidMiner ist frei auf der Download-Seite erhältlich.

Die Funktionalität läßt sich mit Plugins erweitern, die komfortabel aus RapidMiner heraus (Help/Updates and extensions) installierbar sind. Z. B. erlaubt die Web Mining Extension das Einlesen von Webseiten und ganzen Websites, indem sie automatisch den Links zwischen den Seiten folgt (“webcrawling”).

Der erste Start

Das RapidMiner-Fenster enthält sog. Perspektiven. Zuerst ist die Welcome-Perspektive zu sehen.

RapidMiner-Welcome-Perspektive

Mit den letzten drei Buttons in der Leiste oben lassen sich die Perspektiven umschalten. Die anderen beiden Perspektiven sind “Design” und “Results”.

In der Design-Perspektive erstellt man die Verarbeitungsprozesse.

Arbeiten in RapidMiner

Nach dem Klick auf “New Process” erscheint die Design-Perspektive. Aus der Liste der Operatoren lassen sich die benötigten Arbeitsschritte auswählen und in der großen weißen Fläche ablegen:

RapidMiner-Operatoren-Liste

Die Operatoren können Input- und Output-Ports haben (die kleinen Halbkreise links oder rechts).

RapidMiner-Operatoren und Verbindungen

Durch die Verbindungen zwischen den Ports “fließen” die Daten.

Das Ergebnis der Verarbeitung kann am rechten Rand mit dem Ausgabeport des Prozesses (“res”) verbunden werden. Nach dem Ausführen des Prozesses bietet RapidMiner an, die Results-Perspektive zu öffnen, um darin die Ergebnisse darzustellen. Diese lassen sich als Tabelle oder als Diagramm anzeigen. Zwischenergebnisse während der Ausführung kann man kontrollieren, indem man einen Haltepunkt auf den gewünschten Operator legt.

Weiter: Import von Open-Data-Quellen