Azure Data Factory (Teil 1)

Womit arbeiten wir? Was wollen wir erreichen und wie soll das Endresultat aussehen? Nichts geht ohne Informationen. Sei es im Bereich Business Intelligence, Data Science, Machine Learning etc. Alles steht und fällt mit den Daten. Selbst, wenn es nur die simple Nachvollziehbarkeit einer Unternehmensentwicklung innerhalb eines bestimmten Zeitraums ist. Dabei ist das Ziel, diese Nachvollziehbarkeit so gut es geht automatisiert vonstattengehen zu lassen. Wie aber sollen wir die Aufbereitung der Daten automatisieren? Genau an dieser Stelle greift uns die Azure Data Factory (ADF) unter die Arme.

Was ist Azure Data Factory?

Es handelt sich hierbei um ein weiteres Tool aus dem Hause Microsoft, das für die Integration und Transformation von Daten entwickelt wurde. Das Besondere daran ist, dass dieser ETL-Dienst cloudbasiert ist, die Datenintegration und -transformation serverlos stattfindet und das Ganze auch noch horizontal skalierbar ist.

Mit Azure Data Factory bietet Microsoft ein Tool mit einer intuitiv bedienbaren Benutzeroberfläche zur Erstellung von Projekten ohne dabei Codes benutzen zu müssen. Neben der Erstellung der Projekte bietet das Werkzeug die Überwachung und Verwaltung dieser über eine zentrale Konsole.

Viele werden jetzt denken: „Genau, ein weiteres Tool…, ich verwende doch SSIS…“ Auch an dieser Stelle hat Microsoft seine Nutzer nicht vergessen. Vorhandene SSIS-Pakete können per Drag & Drop in Azure übertragen werden und besitzen weiterhin ihre volle Bandbreite an Funktionen beim Ausführen in der ADF. Verantwortlich für diese Funktionalität ist die eingebundene SSIS Integration Runtime, die einen vollständig verwalteten Dienst bietet, sodass man sich keine Gedanken um die Infrastrukturverwaltung machen muss.

Ist das Kunst oder kann das weg?

Ich persönlich stehe neuen Dingen recht offen gegenüber und schaue mir diese auch gerne einmal an. So war es auch mit der Azure Data Factory, die im Jahr 2015 das Licht der Welt erblickte. Von der Grundidee begeistert, flaute die erste Euphorie jedoch schnell wieder ab. Mein Gedanke war: „Tolle Idee, reicht mir aber leider nicht“. Wie es aber nun mal mit so ziemlich allen Dingen dieser Welt ist, seien es Pflanzen, Tiere oder in diesem Fall Ideen (Tools), sie wachsen und gedeihen. So auch die Azure Data Factory, die nun in Version 2 verfügbar ist.

Azure Data Factory Version 1

In den Kinderschuhen konnte ADF nicht besonders viel. Es fing schon damit an, dass man keine Parameter verwenden konnte. Die Verarbeitung von zeitgesteuerten Daten wiederum war eine Funktion, die ausgesprochen gut funktionierte. ADF lief gut, konnte aber leider nicht mit dem „ausgereiften großen Bruder“ SSIS mithalten.

Azure Data Factory Version 2

Aus den Kinderschuhen rausgewachsen, trat die Azure Data Factory bereits im September 2017 in neuem Gewand unter dem Suffix v2 auf. Doch was hat sich geändert? Sagen wir mal so, was hat sich nicht geändert? Man könnte sagen, dass es sich in der zweiten Version fast um ein neues Tool handelt. Wie zu Beginn beschrieben, bietet die Azure Data Factory nun die Möglichkeit, SSIS-Pakete per Drag & Drop in Azure zu importieren und auszuführen. Außerdem können seit Version 2 Schleifen und Branches verwendet werden. Man könnte die Liste weiter und weiter fortführen. Alles in allem ist es im Laufe der Jahre ein vollwertiges ETL-Tool geworden, das mittlerweile durchaus mit SSIS mithalten kann und stetig weiterentwickelt wird.

Neugierig geworden?

Im weiteren Verlauf der Reihe über die Azure Data Factory werde ich darauf eingehen, wozu dieses Tool noch imstande ist, was man damit machen kann und wie man die einzelnen Komponenten verwenden kann. Wer immer noch skeptisch ist, schafft es vielleicht sich nach einem Direktvergleich mit SSIS der ADF zu öffnen. Es ist in meinen Augen ein großartiges Tool, das durchaus seine Daseinsberechtigung hat.

Teilen:

Share on xing
Share on email
Kevin Taxweiler

Kevin Taxweiler

Kevin Taxweiler kann auf einen Bachelor in Informatik zurückgreifen. Dazu hat er erfolgreich die Zertifizierung zum Microsoft Certified Solution Expert (MCSE) mit dem SQL Server 2016/Power BI abgelegt.

Schreiben Sie einen Kommentar

Blog abonnieren:
Loading

Weitere Beiträge: