Open-Data-Quellen in Österreich

Der erste Schritt ist, die Datenquellen zu finden. In Österreich haben wir http://data.gv.at als Überblicksseite.

Bei der Statistik Austria sind auch viele Daten zum Herunterladen verfügbar, die Lizenzen sind jedoch teilweise ziemlich restriktiv, es kann also nicht von Open Data gesprochen werden. Dafür gibt es viele detaillierte Datensätze zum Kauf, was für Unternehmen interessant sein kann.

Auf den Open-Data-Seiten finden wir also die gewünschten Daten. Meistens sind sie in mehreren Formaten verfügbar.

Wir wollen beispielsweise von Open Government Data Wien die Standorte der Sehenswürdigkeiten einlesen.

Import externer Daten in die PostGIS-Datebank

Es hat sich bewährt, den Import zweistufig zu gestalten, weil beim Laden aus dem Web immer Fehler auftreten können. Dazu erstellen wir am besten z. B. ein Schema “import”. Darin liegt eine Tabelle für die Rohdaten, die aus dem Web kommen. Hat das Laden der Daten aus dem Web geklappt, sind die Daten hier vollständig drinnen; falls nicht, haben wir die “echten” Daten nicht angerührt. Die Übernahme in den zentralen Bereich der Datenbank geschieht dann in einem Schritt, der innerhalb der Datenbank stattfindet und damit alle Fehlerquellen durch Netzwerkzugriff etc. ausschließt.

Download des SQL-Skripts für die Erstellung der notwendigen Tabellen.

Open-Data-Quellen in RapidMiner importieren

Wir haben bei Open Government Data Wien die Standorte der Sehenswürdigkeiten in verschiedenen Formaten gefunden. Die Seite enthält auch die Beschreibung der Attribute wie Name, Adresse, URL und Bezirk. Diese Daten und die Geodaten wollen wir mit Hilfe von RapidMiner übernehmen. Das hat den Vorteil, daß der Prozess nur einmal erstellt werden muß und dann periodisch ausgeführt werden kann, um den Import von Aktualisierungen zu automatisieren.

Das GML-Format (Geographic Markup Language) läßt sich in RapidMiner gut verarbeiten, da es ein eindeutig spezifiziertes XML-Format ist.

Der ganze Prozess sieht so aus:

Open-Data-Importprozess in RapidMiner

Die einzelnen Schritte sind:

Dieser Prozess läßt sich nun periodisch aufrufen und übernimmt die gewünschten Daten in die Geodatenbank, wo sie für Visualisierung und weitere Verarbeitung zur Verfügung stehen.

Weiter: Ausblick