Azure Databricks – ein Kurzüberblick zur Entstehung

In diesem kurzen Blogbeitrag möchte ich einmal knapp beschreiben, was wir uns unter dem Microsoft Dienst Azure Databricks vorstellen können.

Was ist Databricks eigentlich überhaupt?

Um diese Fragen beantworten zu können, müssen wir bis in das Jahr 2003 zurück gehen. Denn in diesem Jahr veröffentlichte Google das Google File System Paper, welches der eigentliche Vorgänger des Hadoop Filesystems ist.

In diesem Dateisystem werden die Daten von Google verteilt gespeichert. Bei dieser Verteilung können leistungsschwächere Ressourcen genutzt werden. Somit liegen die Daten bspw. auf vielen kleineren und somit preiswerten Festplatten.

Im Jahr 2004 brachte Google Map Reduce auf den Markt. Auch bei diesem Produkt verfolgte Google die Idee, die Last auf viele kleinere Systeme zu verteilen. Nur ging es bei diesem Produkt nicht um Festplatten, sondern um Rechenkapazitäten. Mittels Map Reduce erfolgt die Auswertung von großen Datenmengen auf vielen kleinen Rechnern. So können Kosten gespart werden.

Der wesentliche Vorteil bei der Verteilung der Last besteht jedoch darin, dass die Analysen jetzt parallel und somit viel schneller ausgeführt werden können.

Kombiniert man diese beiden Dinge, so entsteht ein unglaublich mächtiges System, um hocheffizient mit großen Datenmengen arbeiten zu können. Der Big Data Ansatz ist geboren.

Apache Hadoop wurde 2006 geboren

Aus diesem Gedanken die beiden Werkzeuge miteinander zu kombinieren, wurde schließlich im Jahr 2006 das Projekt Apache Hadoop geboren.

Dies ist dann auch der Zeitpunkt, in der unsere Reise in die Welt von Microsoft Azure DataBricks beginnt.

Schauen wir uns einmal an, welche Idee hinter der Thematik steckt. Betrachten wir also einmal eine große Menge von Daten. Diese Daten werden in einem ersten Schritt aufgeteilt, sodass diese auf verschiedenen Systemen aufgeteilt sind (Split).

Diese können auf ein einzelnes Attribut gemappt werden (Map).

Jetzt können alle „gleichen“ Wörter zusammengefasst werden (Shuffle), um diese wieder zusammenzufügen (Reduce). Das Interessante daran ist, dass diese Schritte parallel ausgeführt werden können.

Diese Vorgehensweise führte jedoch zu einer großen Anzahl von Read und Write Vorgängen und kann dazu führen, dass extrem großen Datenmengen dann doch nicht so superschnell verarbeitet werden, wie es erhofft wurde.

Spark entstand im Jahr 2012

Um dem entgegenzuwirken, wurde im Jahr 2012 das Projekt SPARK von Apache ins Leben gerufen. Die Idee bestand unter anderem darin, die ganzen I/O Vorgänge im Hauptspeicher auszuführen, was eine enorme Verbesserung der Performance mit sich brachte.

Databricks wird im Jahr 2013 geboren

Was machen schlaue Menschen, wenn sie ein großartiges Open Source Projekt haben, das viel Potential mit sich bringt? Genau, sie gründen eine Firma, um damit Geld zu verdienen.

So entstand im Jahr 2013 Databricks.

Mit Databricks wird eine Management-Plattform zur Verfügung gestellt, um auf wirklich einfachem Weg mit Spark arbeiten zu können. Es erleichtert den Umgang enorm, denn mittels Databricks bekommt man einen einfachen Zugang, wie z.B. Zugriffsberechtigungen und vieles mehr.

Sie sind neugierig geworden und möchten mehr zu dem spannendem Thema Databricks wissen?

Dann sind die herzlich eingeladen sich mit uns in Verbindung zu setzen.

Teilen:

Share on xing
Share on email
Thomas Sobizack

Thomas Sobizack

1 Gedanke zu „Azure Databricks – ein Kurzüberblick zur Entstehung“

Schreiben Sie einen Kommentar

Blog abonnieren:

Weitere Beiträge: