IoT-Geräte oder Social-Media-Kanäle produzieren fortlaufend riesige Mengen Informationen. Diese Datenflut stellt Unternehmen vor neue Herausforderungen: Einerseits bildet sie die Basis für wichtige Analytics-Anwendungen, andererseits halten die Betriebe kaum mit der Verarbeitung Schritt.

Einen Ausweg bietet der sogenannte Data Lake. Hier werden alle Rohdaten zentral gespeichert, ohne dass ein bestimmtes Schema eingehalten werden muss. Erfahren Sie, worin der Unterschied zwischen einem Data Lake und einem Data Warehouse besteht und welche Anwendungsfälle es gibt.

Leitfaden Datenmanagement

KOSTENLOSER LEITFADEN

Datenmanagement: Die 6 Best Practices für Ihr Unternehmen

Sie möchten noch mehr über optimales Datenmanagement erfahren? Dann laden Sie sich unseren Leitfaden „Datenmanagement: Die 6 Best Practices für Ihr Unternehmen“ herunter.

Jetzt herunterladen

Schön, dass Sie hier sind! Wie Ihnen vielleicht schon aufgefallen ist, verwenden wir aus Gründen der Lesbarkeit in erster Linie die männliche Form in unseren Texten. Im Sinne der Gleichbehandlung meinen wir damit selbstverständlich immer alle Geschlechter (m/w/d). Und jetzt wünschen wir Ihnen viel Spaß beim Lesen.

Definition: Was ist ein Data Lake?

Ein Data Lake (dt. „Datensee“) ist ein zentrales Depot für die Speicherung von Rohdaten. Dabei kann es sich sowohl um strukturierte, unstrukturierte als auch teilweise strukturierte Daten handeln. Die Daten können aus einer Vielzahl von Quellen stammen, wie der Cloud, IoT-Geräten, Social-Media-Daten oder Transaktionsdaten. Ein Data Lake ist für die Speicherung großer Mengen Daten ausgelegt und kann beliebig skaliert werden. Heute befinden sich die meisten Data Lakes in der Cloud; es gibt aber auch On-Premises-Umsetzungen, zum Beispiel unter Verwendung von Apache Hadoop.

Der Data Lake bildet ein Gegenmodell zum sogenannten Data Warehouse, welches nur Daten aufnimmt, die in ein bestimmtes Schema gebracht wurden (schema-on-write). Das schließt beispielsweise Daten wie Videos oder Bilder aus. Anders beim Data Lake: Hier müssen die Daten vor der Speicherung nicht zuerst validiert oder umformatiert werden. Sie werden direkt in ihrem Ursprungsformat abgespeichert.

Aufgrund dieser Offenheit kann der Data Lake Daten wesentlich schneller aufnehmen. Allerdings hat er den Nachteil, dass sich die Ausgabe der Daten aufwendiger gestaltet. Hier kommen eine Vielzahl von Lösungen wie Machine Learning und Big-Data-Analytics zum Einsatz, um trotzdem eine zeitnahe Verarbeitung zu gewährleisten. Diese Tools leisten die Suche, Strukturierung und gegebenenfalls die Umformatierung der Daten beim Auslesen (schema-on-read).

Der Begriff „Data Lake“ geht auf den CTO der Firma Pentaho, James Dixon, zurück. In Abgrenzung vom sogenannten Data Mart verwendete er die Bezeichnung Data Lake bereits im Jahr 2011. Sein Hauptargument für diese neue Speicherform war, dass Data Lakes der Bildung von Datensilos vorbeugen würden. Das bekannte Accounting-Unternehmen PricewaterhouseCoopers (PwC) schloss sich in einer Studie dieser Einschätzung an. Seit 2016 ist der Begriff in der Unternehmenswelt angekommen; Organisationen wie Microsoft, Google, AWS und Oracle sprechen alle gleichermaßen von Data Lakes.

Das Konzept ist jedoch nicht unumstritten. Der Informatiker David Needle äußerte sich kritisch zu Data Lakes ebenso wie Sean Martin, CTO von Cambridge Semantics, der sogar von „Data Graveyards“, also Daten-Friedhöfen, sprach. Typischerweise geht die Kritik dahin, dass Unternehmen jetzt zwar mehr Daten abspeichern, aber dann nicht wissen, was sie damit anfangen sollen bzw. Schwierigkeiten haben, die benötigten Daten zu finden.

Diesen Problemen kann jedoch vorgebeugt werden, wenn sich Unternehmen von Anfang an aktiv um die Pflege ihres Data Lakes kümmern. Das beinhaltet insbesondere strategische Überlegungen dazu, welche Daten und Metadaten wirklich geschäftskritisch sind. So kann verhindert werden, dass der Data Lake nicht zum wahllosen Sammelbecken wird.

Data Warehouses vs. Data Lakes

Data Lakes und Data Warehouses erfüllen unterschiedliche Funktionen. Das definierende Merkmal eines Data Warehouse besteht darin, dass ausschließlich strukturierte Daten aufgenommen werden. Es gibt ein im Vorfeld definiertes Schema, welches die gespeicherten Daten erfüllen müssen. Dafür werden die Daten bereinigt und wo nötig angereichert bzw. umgewandelt. Das ermöglicht später schnelle SQL-Abfragen. Die Daten können also direkt für Analyse- und Reporting-Zwecke eingesetzt werden, weil ihre Vertrauenswürdigkeit feststeht.

Häufig ist es so, dass es sich bei den Daten eines Data Warehouse um transaktionale Informationen handelt, wie zum Beispiel Verkaufsdaten aus einem Onlineshop. Aber auch Business-Applikationen wie SAP sind eine typische Quelle. In beiden Fällen besteht schon ein hoher Grad an Vorstrukturierung, weshalb sich die Speicherung in Data Warehouses anbietet.

Im Gegensatz dazu müssen Daten, die in einem Data Lake gespeichert werden, kein vorgegebenes Schema erfüllen. Das hat den Vorteil, dass Daten sehr schnell abgelegt werden können. Deshalb kommen Data Lakes oft im Zusammenhang mit mobilen Anwendungen oder IoT-Applikationen zum Einsatz, wo schnell große Mengen Informationen anfallen.

Der Nachteil ist, dass diese Rohdaten anders als beim Data Warehouse nicht direkt einsatzbereit sind, wenn sie für Analyse- oder Reporting-Zwecke benötigt werden. Um diesen Nachteil auszugleichen, wird eine Vielzahl von leistungsfähigen Such- und Analyseverfahren eingesetzt. Dazu zählen unter anderem die Volltextsuche, Real-Time-Analytics, Big-Data-Analytics sowie Machine Learning.

Die folgende Tabelle zeigt die wichtigsten Unterschiede zwischen Data Warehouse und Data Lake auf.

Die Tabelle zeigt die wichtigsten Unterschiede

Trotz dieser Gegenüberstellung sollten Data Warehouses und Data Lakes nicht als konkurrierende Lösungen verstanden werden. Tatsächlich ist es in vielen Unternehmen sinnvoll, beide Speichermethoden parallel einzusetzen. So werden Data Lakes beispielsweise für die massenhaft hereinkommenden Daten aus IoT- und Edge-Computing-Applikationen verwendet. Gleichzeitig wird ein Data Warehouse unterhalten, um bestimmte wiederkehrende Analyse- und Reporting-Prozesse zu erleichtern. Das betrifft zum Beispiel monatliche Umsatzberichte, regionale Auswertungen und das Tracking von Website-Daten wie Traffic oder Conversion Rate.

Daneben gibt es einen Trend, beide Lösungen miteinander zu kombinieren, zum Beispiel, indem ein Data Lake ein Data Warehouse beinhaltet. Aus Sicht des Data Lake handelt es sich bei dem integrierten Data Warehouse lediglich um einen weiteren Datensatz, wenn auch einen sehr umfangreichen.

Cloud- vs. On-Prem-Lösungen

In den Anfangstagen wurden Data Lakes meist on-prem betrieben. Mittlerweile geht der Trend jedoch zur Cloud. Alle großen Cloud-Computing-Anbieter haben entsprechende Lösungen im Programm. Bei AWS ist das Amazon EMR, bei Microsoft Azure erfüllt Azure HDInsight diese Aufgabe und Google ist mit Google Cloud Dataproc vertreten. Solche Lösungen setzen in der Regel auf sehr gut skalierende Big-Data-Plattformen und können mit Hadoop und Spark integriert werden.

Historisch gesehen macht diese Entwicklung Sinn. Mit dem Aufkommen professioneller Cloud-Lösungen für Unternehmen wurde Online-Speicherplatz immer günstiger. Außerdem machten die Provider cloudbasierte Data Lakes attraktiver, indem sie ihr Angebot fortlaufend um nützliche Funktionen erweiterten. Die konkurrierenden On-Prem-Lösungen konnten mit diesem Innovationstempo nicht mithalten, weil in den meisten Inhouse-IT-Abteilungen nur begrenzt Know-how und Manpower vorhanden war. Durch die Auslagerung des Datenmanagements in die Cloud wurde das eigene Team entlastet; die Mitarbeitenden konnten sich stärker auf ihr Kerngeschäft konzentrieren.

Dieser Trend hält bis heute an. Data Lakes in der Cloud sind technisch immer up to date, werden ständig um Features erweitert und binden weniger Mitarbeitende. Das gilt insbesondere, wenn die Cloud-Services über einen Managed-Services-Provider (MSP) bezogen werden. Hier wird Ihrem Unternehmen mehr als nur der Speicherplatz zur Verfügung gestellt. Sie erhalten eine individuell auf Ihre Anforderungen abgestimmte Lösung mit einem persönlichen Ansprechpartner und einem Support-Team. Auch beim Change-Management unterstützt der MSP. Dieses Maß an Individualisierung können die großen Cloud-Anbieter meist nicht leisten.

Anwendungsfälle

Data Lakes kommen in ganz unterschiedlichen Industrien zum Einsatz. Hier drei Beispiele.

Medienbranche

Streaming-Services halten große Mengen User-Daten in Data Lakes vor. Deren Analyse erlaubt es, den Nutzern passende neue Songs oder Serien vorzuschlagen, basierend auf den bisher konsumierten Inhalten. Indem der User so mehr Zeit auf der Plattform verbringt, kann das Unternehmen mehr Anzeigenplätze verkaufen.

Telekommunikationsanbieter

Anbieter aus der Mobilfunk-Industrie kämpfen damit, dass Kunden häufig den Provider wechseln. Durch Predictive-Analytics-Modelle lassen sich solche Fluktuationen eindämmen. Data Lakes liefern die hierfür benötigten Daten.

Finanzbranche

Investment-Firmen nutzen Machine-Learning-Algorithmen, um die Risiken eines bestimmten Portfolios besser einzuschätzen. Damit diese Analyse in Echtzeit erfolgen kann, müssen riesige Mengen Daten in Data Lakes vorgehalten werden.

Vorteile

Data Lakes bieten Ihrem Unternehmen eine Reihe von interessanten Vorteilen.

Mehr Offenheit

Data Lakes legen Sie nicht auf ein bestimmtes Format fest. Sie können nach Belieben strukturierte, unstrukturierte und teilweise strukturierte Daten abspeichern. Das umfasst zum Beispiel Streaming-Daten, Videos, Bilder, binäre Dateien, Social-Media- und andere Marketing-Daten. Diese Offenheit in Bezug auf die Formate macht Ihre Organisation insgesamt agiler.

Mehr Robustheit

Weil Data Lakes mit einer Vielzahl von Formaten umgehen können, sind sie robuster als andere Konzepte zur Datenspeicherung. Die Speicherumgebung muss weniger Voraussetzungen und Parameter berücksichtigen und ist deshalb weniger anfällig für Fehlfunktionen.

Mehr Skalierbarkeit

Das unkomplizierte Speicherformat bringt es mit sich, dass ein Data Lake schnell nach oben skaliert werden kann. Zusätzliche Speicherkapazitäten können schnell ergänzt werden, weil sie vergleichsweise leicht einzurichten sind.

Mehr Einsichten

Data Lakes bilden die Basis für geschäftskritische neue Technologien wie Machine Learning, Big-Data-Analytics und Predictive Analytics. Auf diese Weise können Unternehmen verborgene Muster erkennen, zum Beispiel, wo noch Potenziale für die Prozessoptimierung schlummern, oder Vorhersagen treffen, wie sich Märkte entwickeln werden. Das ist ein entscheidender Wettbewerbsvorteil.

Mehr Einheitlichkeit

In vielen Unternehmen existieren Datensilos. Das bedeutet, dass Daten, die eigentlich in Beziehung zueinander stehen, getrennt voneinander vorgehalten werden. Häufig kommt es hierbei auch zu Dopplungen von Datensätzen. Das zieht signifikante Produktivitätsverluste nach sich, beispielsweise weil unterschiedliche Abteilungen nicht auf derselben Datengrundlage miteinander kooperieren. Es führt aber auch zu Problemen bei der Compliance, indem unterschiedliche Datensilos unterschiedliche IT-Sicherheitsrichtlinien verwenden.

Alle diese Nachteile werden durch einen zentralen Data Lake behoben. Hier werden die im Unternehmen benötigten Daten am selben Ort gespeichert und sind für alle Mitarbeitenden – abhängig vom Berechtigungslevel – einsehbar.

Mehr Zugänglichkeit

Data Lakes machen es Ihren Usern leicht, neue Daten einzuspeisen und bereits gespeicherte Daten unter Verwendung von Self-Service-Tools abzurufen. Dies trägt zu einer Demokratisierung der Datenkultur im Unternehmen bei. Mehr Mitarbeitende können leichter datengestützt Entscheidungen treffen.

Welche Best Practices Sie kennen sollten

Mit den folgenden Best Practices optimieren Sie den Betrieb Ihres Data Lakes.

1. Speichern Sie Ihre Daten direkt

Widerstehen Sie der Versuchung, Ihre Daten zuerst langwierig aufbereiten und strukturieren zu wollen, bevor sie in den Data Lake einfließen. Der entscheidende Vorteil der Lösung besteht genau darin, dass eine solche Vorbereitung nicht nötig ist. Vertrauen Sie darauf, dass Ihre Daten später durch leistungsfähige Suchalgorithmen und Machine Learning ausgewertet werden können.

2. Achten Sie auf Datenschutzanforderungen

Personenbezogene Daten müssen zuerst anonymisiert werden, bevor Sie diese Ihrem Data Lake hinzufügen. Das ist notwendig, um den Anforderungen der Europäischen Datenschutz-Grundverordnung (DSGVO) gerecht zu werden. Achten Sie dabei auf eine vollständige Entkontextualisierung. Bei verschiedenen Versuchen in jüngerer Zeit zeigte sich, dass Daten, obwohl sie anonymisiert worden waren, später doch wieder von Data Scientists den entsprechenden Personen zugeordnet werden konnten. Dieser Mehraufwand lohnt sich auch deshalb, weil zu erwarten steht, dass die Datenschutzanforderungen in Zukunft noch steigen werden.

3. Verwenden Sie ACLs

Bei vielen Data Lakes werden Benutzerrechte aktuell noch rollenbasiert vergeben. Ermöglichen Sie hier mehr Management-Optionen, indem Sie sogenannte Access Control Lists (ACL) einführen. ACLs leisten alles, was rollenbasierte Lösungen auch können, bieten aber zusätzlich noch das Management von Gruppen an und können mit der Vererbung von Hierarchien umgehen. So erhalten Ihre Administratoren mehr Handlungsmöglichkeiten.

4. Katalogisieren Sie Ihre Daten

Bei der Überführung Ihrer Daten in den Data Lake sollten Sie mit Tools zur Datenkatalogisierung und für das Management von Metadaten arbeiten. Das erleichtert Ihnen später den Einsatz von Analytics- und Self-Service-Applikationen.

Optimieren Sie Ihre Datenhaltung mit der ahd!

Sie möchten das Datenmanagement Ihres Unternehmens optimieren und wünschen sich dafür einen zuverlässigen Partner? Dann sollten wir uns unterhalten. Einerseits stellen Ihnen die Experten der ahd zuverlässige Speicherlösungen zur Verfügung; das umfasst beispielsweise leicht skalierende Public-Cloud-Lösungen oder unsere speziell abgesicherte ahd Cloud mit Rechenzentrum in Frankfurt. Andererseits bieten wir Ihnen spezielle Data-Lake-Lösungen von Microsoft – wie Azure Data Lake oder HDInsight – als Managed Services an. Kontaktieren Sie uns jetzt, um eine unverbindliche Erstberatung zu vereinbaren!

Leitfaden Datenmanagement

KOSTENLOSER LEITFADEN

Datenmanagement: Die 6 Best Practices für Ihr Unternehmen

Sie möchten noch mehr über optimales Datenmanagement erfahren? Dann laden Sie sich unseren Leitfaden „Datenmanagement: Die 6 Best Practices für Ihr Unternehmen“ herunter.

Jetzt herunterladen