WE ARE HIRING! | JOBS @LANA LABS

ETL

ETL
December 11, 2018 Jonny

ETL (Extract, Transform, Load)

“ETL” – Extract, Transform, Load – beschreibt einen Prozess, bei dem Daten aus einem System extrahiert, transformiert und in ein anderes System geladen werden. Im Kontext von Process Mining wird zunächst eine Datenextraktion durchgeführt, anschließend wird eine Datentransformation vorgenommen und abschließend werden die Daten in ein Process Mining-Tool geladen.

Wie läuft der ETL Prozess ab?

Bei der Datenextraktion wird ein Ausschnitt der Daten, der von Interesse ist, aus unterschiedlichen Datenquellen bereitgestellt. Diese Ausschnitte können verschiedene Schemata, Größen und Granularitäten haben. Aus diesem Grund dient die Datenextraktion als Grundlage für den nächsten Schritt – die Datentransformation.

Bei der Datentransformation wird das Ergebnis der Datenextraktion weiter verwendet und modifiziert. Hierbei ist das Ziel ein einheitliches Datenschema. Die Datentransformation ist ein Teil des Data Preprocessing. Dabei kann die Modifikation sowohl syntaktischer als auch semantischer Natur sein.

Bei der syntaktischen Datentransformation werden formale Aspekte angepasst. Das können zum Beispiel Datumsformate sein, die für Zwecke der Vereinheitlichung oder besseren Verarbeitung durch das System umgewandelt werden. Hierdurch wird der Sinn der Daten nicht verändert. Dazu gehört auch beispielsweise das Umformulieren kryptischer Namen, damit diese leichter lesbar sind.

Bei der semantischen Datentransformation werden zum Beispiel die Daten mit sinnvollen Informationen angereichert, Aggregationen vorgenommen oder in Einheiten umgerechnet. Damit werden die Datensätze unter anderem aussagekräftiger.

Das Ergebnis der Datentransformation ist ein modifizierter Datensatz, der in das Endsystem geladen wird.

Warum ist ETL so wichtig?

Im letzten Schritt werden die Daten in ein Process-Mining-Tool geladen. Hierbei spielt die Phrase “garbage in – garbage out” eine wichtige Rolle, denn ein fehler- oder lückenhafter Datensatz wird mit großer Wahrscheinlichkeit ein fehlerhaftes oder lückenhaftes Ergebnis bei der Analyse liefern. Nach erfolgreichem Laden der Daten in das Tool kann mit dem Process Mining begonnen werden.

 

Verwandte Begriffe: Datenextraktion, Datentransformation, Process Mining, Data Preprocessing

 

« Back to Glossary Index