Wrangling Data Flows

Abbildung 1

Vor ein paar Monaten stellte die Azure Data Factory zwei neue Features vor. Einerseits sind es die Mapping Data Flows. Andererseits sind es die Wrangling Data Flows. Mit diesem Feature möchte ich mich in diesem Blogbeitrag beschäftigen und diesen ganz kurz vorstellen.

Was sind Wrangling Data Flows?

Kurz und knapp formuliert sind die Wrangling Data Flows nichts anderes als Power Query Online.

Abbildung 2

Das heißt, dass dieses Feature auf die Aufbereitung und Transformation von Daten „spezialisiert“ ist. Demzufolge liegt der Fokus ganz klar auf den Daten an sich. Wie in Abbildung 2 zu erkennen ist, lehnen sich die Wrangling Data Flows ganz nah an den Query Editor von Power Bi an. Dies ermöglicht also eine codefreie (agile) Datenaufbereitung in der Cloud. Selbstverständlich können -analog zum Power Bi Query Editor– auch M-Funktionen verwendet werden. Zum Entstehungszeitpunkt dieses Beitrags befand sich das Feature noch im „Preview Status“- Daher stehen leider noch nicht alle Funktionalitäten zur Verfügung. Folgende Fehlermeldung könnte hin und wieder auftauchen:

The wrangling data flow is invalid. Expression.Error: The transformation logic isn´t supported. Please try a simpler expression.

Ich bin mir aber ganz sicher, dass Microsoft dies schnell ändern wird.

Wie funktionieren sie?

Grundsätzlich ist zu sagen, dass man die Azure Wrangling Data Flows sehr komfortabel in eine Pipeline der Azure Data Factory integrieren kann. Für den interessierten Leser möchte ich an dieser Stelle auf die Blog-Beiträge eines Kollegen verweisen, die sich mit der Azure Data Factory etwas genauer beschäftigen (1).

Beim Erstellen sind lediglich die Quelle, sowie das Ziel anzugeben, in denen die Daten zu finden, bzw. wohin die aufbereiteten Daten geschrieben werden sollen (Abbildung 3). Hier möchte ich darauf hinweisen, dass lediglich eine Quelle und ein Ziel ausgewählt werden kann. Dabei können allerdings sämtliche in Azure zur Verfügung stehenden Datenquellen verwendet werden. Direkt nach dem Anlegen werden die ausgewählten Daten in den Editor geladen und es kann online -ganz analog zum Query Editor in Power BI- gearbeitet werden. Sobald der Data Flow fertig erstellt und veröffentlich wurde kann er in der Pipeline verwendet werden. Dabei ist alles wirklich sehr selbsterklärend gestaltet und sollte für jeden, der sich ein wenig in der Data Factory auskennt, ohne große Herausforderung erstellbar sein.

Abbildung 3

Fazit

Meines Erachtens sind die Wrangling Data Flows eine hervorragende Möglichkeit die ganzen Power Query User -wie Fachabteilungen oder auch den einen oder anderen Daten Scientisten- mit in die schöne neue Welt der Modern Datewarehouses zu holen ohne diese an ein neues Tooling gewöhnen zu müssen.

(1): Azure Data Factory (Teil 1)

Bildquellen: https://adf.azure.com/

Teilen:

Share on xing
Share on email
Thomas Sobizack

Thomas Sobizack

Schreiben Sie einen Kommentar