Bachelorarbeit Machine Learning

Im Rahmen einer Bachelorarbeit wurde der Automobilsektor analysiert.  Ziel dieser Arbeit war es zu ermitteln, für welche Marken bestimmte Personengruppen affin sind. Ebenso ist aus Sicht bestimmter Marken betrachtet worden, welche Personengruppen diese bevorzugen. Für die Analyse der Martkforschungsdaten wurde das Machine Learning Studio von Microsoft Azure verwendet. Hierbei sind die Daten in den Blob-Speicher von Azure geladen worden. Dieser kann direkt im Machine Learning Studio verwendet werden und bietet den Vorteil das die Daten als Objekt behandelt werden. Somit lassen sich unstrukturierte Daten, also Daten aus unterschiedlichen Formaten, Datentypen oder sonstigem, in einem Blob-Speicher sichern.

Machine Learning

Beispiel eines Machine Learning Projekts

Im Anschluss sind die Daten eingelesen worden und im Machine Learning Studio verarbeitet worden. Das Studio eignet sich unter anderem dazu, die Daten zu manipulieren und so anzupassen, dass der gewählte Algorithmus das richtige Ergebnis erzeugt.

In dieser Arbeit ist das K-Means Clustering verwendet worden, welcher Cluster, also „Gruppen“, bildet. Wichtig ist, dass dieser Cluster mit numerischen Werten arbeitet. Werden also Attribute eingelesen, beispielsweise eine ID, so wird dieser Schlüssel als Zahl gewertet und mit in die Verarbeitung einbezogen. Somit wird das Ergebnis verfälscht. Da in dieser Bachelorarbeit Personengruppen identifiziert werden müssen, sind gerade die demografischen Daten wie Geschlecht, Alter, Bundesland und Netto-Haushaltseinkommen relevant. Aus der Analyse mittels K-Means resultieren bestimmte „Homogene“ Cluster, beziehungsweise Gruppen, die sich am Anschluss beschreiben lassen. Hier muss der Benutzer die Daten noch selber interpretieren, da der K-Means-Cluster lediglich die Zusammengehörigkeit herausfindet.

Für diese Interpretation und Darstellung wurde Power-BI verwendet. Das Tool bringt die Möglichkeit mit, CSV-Dateien einzulesen (neben unzähligen anderen Import-Varianten). Ebenso können schnell und einfach unterschiedliche Diagrammarten erstellt werden. Mithilfe von Power-BI konnten die erstellten Cluster herausgefiltert werden und die Personengruppen ermittelt werden.

mm
Dennis Loh
Der gelernte Fachinformatiker mit einem Bachelor-Abschluss in Wirtschaftsinformatik ist nach dem Studium als Junior BI-Berater in unser Unternehmen eingestiegen. Dennis Loh hat bereits einschlägige Erfahrungen mit der SQL Server BI Platform gesammelt. Darüber hinaus hat er mit den SQL Server Werkzeugen Integration-, Analysis- und Reporting Services in verschiedenen Versionen gearbeitet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.