Moderne ETL-Lösungen für datengetriebene Unternehmen

ETL-Lösungen (Extract, Transform, Load) sind in der datengetriebenen Wirtschaft von heute stark im Kommen. Sie ermöglichen es Unternehmen, Daten aus ihren Silos zu befreien und in einem Data Warehouse zu konsolidieren, wo sie zentral analysiert werden können. Wir stellen moderne Lösungen aus der Cloud vor, von der Startups und KMU profitieren können.

Extract, Transform, Load

Wie viele Nutzer besuchen unsere Website jeden Monat? Wie viele Signups haben wir täglich? Welche Features werden am häufigsten verwendet? Solche Fragen kann man schnell mit passenden Tools wie Google Analytics oder Mixpanel beziehungsweise mit einfachen Datenbankabfragen beantworten. Doch früher oder später gibt man sich mit solchen einfachen Metriken nicht mehr zufrieden. Wenn das Unternehmen wächst oder wenn es immer schwieriger wird, Kunden zu gewinnen oder sie länger ans Unternehmen zu binden, dann tauchen komplexere Fragen auf, die man nicht so leicht beantworten kann. Wie hoch ist die Kundenzufriedenheit von Nutzern aus den USA, die über die laufende AdWords-Kampagne gewonnen wurden? Welches Kundensegment hat die höchste Kundenbindungsrate? Welche Features führen während dem Onboarding zu höheren Konvertierungsraten bei Kunden mit 20 bis 50 Usern? Welchen Einfluss hat der Kundensupport auf unsere Churn-Rate? Wer Antworten auf solche Fragen sucht, um seine Kunden besser zu verstehen, ihre Marketing-Kampagnen oder das Produkt zu optimieren, muss Metriken aus verschiedenen Fachabteilungen und Systemen zusammenbringen und zentral auswerten.

Laut einer aktuellen Studie von Siftery, einem Portal, in dem Unternehmen die Apps, die sie verwenden, auflisten, kommen im Durchschnitt 37 verschiedene Softwarelösungen zum Einsatz – bei Großunternehmen sind es sogar rund 90.

In der Praxis ist das allerdings alles anderes als einfach. Laut einer aktuellen Studie von Siftery, einem Portal, in dem Unternehmen die Apps, die sie verwenden, auflisten, kommen im Durchschnitt 37 verschiedene Softwarelösungen zum Einsatz – bei Großunternehmen sind es sogar rund 90. Bei all den Vorteilen, die dieser “Best of Breed”-Ansatz mit sich bringt – kostengünstige Lösungen, einfache und schnelle Implementierung, etc. – müssen Unternehmen einen entscheidenden Nachteil in Kauf nehmen: Datensilos. Da jede Fachabteilung mit ihren eigenen Lieblingstools arbeitet, bleiben wichtigen Daten für die anderen Teams oft unzugänglich.

Dies wird schnell zum Problem, wenn man abteilungsübergreifende Analysen über Kunden, Produkte, Vertrieb oder Marketing betreiben und kritische Metriken wie Neukundengewinnung oder Retention optimieren möchte. Die ganzen Rohdaten müssen zunächst aus ihren Silos befreit und an einem zentralen Ort konsolidiert werden. Datenredundanz, Inkonsistenzen und Kompatibilitätsprobleme sind dabei unvermeidbar. Dann muss man sicherstellen, dass die nötigen Daten in regelmässigen Zeitabständen aktualisiert werden, denn die Analyse von historischen Metriken ist selten genügend. Hier kommen sogenannte ETL-Systeme (Extract, Transform, Load) ins Spiel, die in letzter Zeit immer beliebter werden.

So funktionieren ETL-Lösungen

Sie versetzen Unternehmen in die Lage, Daten aus den unterschiedlichsten Quellen unter einen Hut zu bringen, seien es Besucherzahlen aus der Unternehmenswebsite, die mit Google Analytics gesammelt werden, Kunden-Feedback aus dem Help-Desk-System oder Benutzeraktionen, Logs und Events, die in der eigenen Anwendung mit Tools wie Mixpanel oder Kissmetrics erfasst werden. Nachdem solche Daten aus ihren Silos befreit wurden (Extract), lassen sie sich mithilfe diverser Tools in dem ETL-System bearbeitet (Transform), um sie in ein einheitliches Format zu bringen beziehungsweise um Datenredundanzen zu beseitigen.

Anschließend werden die extrahierten Daten in der Regel in ein Data Warehouse wie Google BigQuery oder Amazon Redshift beziehungsweise in ein Data Lake exportiert (Load), wo sie dann zur zentralen Analyse aufbereitet werden können. Einige Lösungen bieten zudem die Möglichkeit, Daten nach relationalen Datenbanksystemen wie MySQL oder in einfachen Dateien (CSV, JSON, etc.) zu exportieren, die sich lokal oder in einem Cloud-Storage-System speichern lassen.

Das Beste dabei: Diese Prozesse werden mithilfe von ETL-Lösungen vollständig automatisiert. Dies spart Zeit und Ressourcen, da man all seine Daten nicht mehr manuell aus den verschiedenen Systemen exportieren und in das Data Warehouse bringen muss. Entwickler profitieren ebenfalls von ETL-Lösungen, da sie keine Datenintegrationen über die APIs der verschiedenen Lösungsanbieter und Cronjobs für die regelmäßige Datenabfrage selbst implementieren müssen. Sobald die Daten in dem Data Warehouse gespeichert sind und man sicher ist, dass sie kontinuierlich aktualisiert werden, können Unternehmen auf Business-Intelligence-Lösungen wie Google Data Studio oder Klipfolio zurückgreifen, um Dashboards und Berichte zu erstellen. Diese ermöglichen es den Mitarbeitern aus den verschiedenen Fachabteilungen, KPIs (Key Performance Indicators), die für sie relevant sind, flexibel abfragen, visualisieren und auswerten zu können.


Moderne ETL-Lösungen für Einsteiger

Wer denkt, ETL-Systeme seien nur für große Unternehmen, der täuscht sich. Inzwischen gibt es eine ganze Reihe moderner Cloud-Lösungen, die auch kleine und mittlere Firmen adressieren. Ein gutes Beispiel ist Stitch. Dabei handelt es sich um einen modernen ETL-Dienst, der im Jahr 2016 gestartet wurde und einen einfachen Einstieg in die Welt der automatisierten Datenintegration verspricht. Er soll Unternehmen in die Lage versetzen, Daten für Datenanalysten und Fachabteilungen innerhalb von Tagen anstatt Wochen bereitstellen zu können. Als Datenquelle werden hier über 80 Online-Dienste unterstützt, darunter Marketing-Tools wie Google Analytics, Marketo und Mixpanel, sowie Productivity-Apps wie die Projektmanagement-Lösungen Jira und Trello und das Zeiterfassungs-Tool Harvest.

Mithilfe eines modernen User-Interface erstellen Anwender ihre “Data Pipelines” einfach per Drag & Drop. Dabei lassen sich die Extraktions-, Transformation- und Lade-Prozesse nach eigenen Anforderungen konfigurieren und vollständig automatisieren. So kann man das System zum Beispiel so einstellen, dass Daten aus Google Analytics täglich alle drei Stunden extrahiert, aufbereitet und nach BigQuery exportiert werden.Praktisch: Statt die Daten in ein Data Warehouse zu laden können sie direkt nach Business-Intelligence-Lösungen wie Chartio oder Klipfolio exportiert werden. Ein weiterer Vorteil für Einsteiger besteht darin, dass die Lösung im Freemium-Modell angeboten wird. Wer sich einen ersten Eindruck von den Möglichkeiten des Systems machen möchte, kann es kostenlos mit bis zu fünf Datenquellen nutzen solange man die Grenze von fünf Millionen Data Rows pro Monat nicht überschreitet. Unternehmen, die monatlich zwischen fünf und 250 Millionen Zeilen bearbeiten müssen, müssen zwischen 100 und 1.000 Dollar pro Monat auf den Tisch legen.

Alooma

alooma etl tool

Alooma  wird zwar als eine “Enterprise Data Pipeline Platform” vermarktet. Doch mit einem flexiblen Preismodell, das ab 20 Dollar pro eine Million Rows pro Monat kostet, kommt die Lösung mit Stammsitz in Redwood City, Kalifornien nicht nur für große Unternehmen in Frage. Anwender können beliebige Daten aus Datenbanken und zahlreichen Cloud-Anwendungen extrahieren, ebenso wie aus XML-, JSON- und CSV-Dateien, die in Cloud-Storage-Systemen wie Box und Google Drive gespeichert sind. Auch die Anbindung von On-Premise-Servern ist über FTP möglich.

Hinzu kommen APIs und SDKs für populäre Programmiersprachen wie Java und Python und mobile Systeme (iOS und Android), die Kunden nutzen können, um Daten direkt aus ihren Anwendungen nach Alooma zu senden. Mit Alooma Live steht zudem ein interessantes Features zur Verfügung, das man nicht bei jedem ETL-Lösungen findet. Dabei handelt es sich um ein Echtzeit-Visualisierungstool, mit dem Datenwissenschaftler und Entwickler die Datenströme live überwachen und kontrollieren können.

Fivetran

fivetran etl tool

Mit Fivetran bietet sich eine weitere professionelle Lösung, die ebenfalls aus Kalifornien stammt und 2013 aus dem renommierten Startup-Inkubator Y Combinator heraus gegründet wurde. Inzwischen zählt das Startup über 100 Mitarbeiter und namhafte Kunden wie den Payments-Anbieter Square. Neben nativen Connectors für über 70 Cloud-Anwendungen können Anwender auch Daten aus ihren Datenbanken extrahieren. Dabei werden so gut wie alle populäre Datenbanksysteme unterstützt, von klassischen SQL-Systemen wie MySQL, PostgreSQL und Microsofts SQL Server, über dokumentenorientierte Systeme wie MongoDB bis hin zu modernen Cloud-Datenbanken wie Amazon Aurora und DynamoDB.

Praktisch dabei: Das System generiert für jede angebundene Datenquelle automatisch ein übersichtliches Entity-Relationship-Diagramm (ERD), um sicherzustellen, dass die Daten leicht verständlich und abzufragen sind. Hinzu kommt die Möglichkeit, benutzerdefinierte Connectors in einer Serverless-Umgebung wie Amazon Lambda oder Google Cloud Functions zu erstellen. Die serverlosen Funktionen werden dann von Fivetran in benutzerdefinierten Zeitabständen abgerufen und die Daten in das Data Warehouse geladen. Dabei haben Kunden die Auswahl zwischen BigQuery, Redshift, Azure SQL Data Warehouse und Snowflake.

Panoply

panoply etl tool

Eine weitere Lösung, von der Startups und KMU profitieren können, ist Panoply. Das Produkt zeigt, dass innovative Software nicht unbedingt aus dem Sillicon Valley stammen muss. Der in Tel Aviv entwickelte Dienst präsentiert sich als ein “Smart Data Warehouse”, das ETL-Lösungen und eine Data Warehouse-Lösung auf einen gemeinsamen Nenner bringt.

Damit können Anwender nicht nur unterschiedliche Datenquellen anbinden und Daten automatisiert extrahieren und transformieren, sondern diese auch direkt in Panoply lagern. Aus den extrahierten Daten lassen sich Datentabellen erstellen, die frei konfigurierbar und sofort einsatzbereit sind. Anwender, die sich für Panoply entscheiden, müssen also die Daten nicht nach Redshift, BigQuery oder ein anderes Data Warehouse exportieren. Um die Daten auszuwerten lassen sich populäre BI-Tools wie etwa Bime oder Tableau Software integrieren. Die monatlichen Preise fangen bei rund 250 Dollar (25 Millionen Rows und 12,5 GB Speicherplatz).

Mit Xplenty bietet sich eine weitere professionelle ETL-Lösung, die ebenfalls aus Tel Aviv stammt. Größere Unternehmen mit erhöhten Anforderungen rund um Sicherheit und Compliance können auf Lösungen der Enterprise-Klasse wie Talend, Matillion, Nexla und Adeptia zurückgreifen.

Alternative Datenintegrationslösungen

Neben diesen ETL-Systemen, die für ein breites Publikum konzipiert sind und die typischen Anwendungsfälle rund um Datenintegration und Analytics unterstützen, gibt es auf dem Markt zahlreiche weitere Alternativen, die eine Marktnische adressieren oder spezielle Use Cases abbilden. So fokussiert sich StarfishETL zum Beispiel auf die Integration und Migration von CRM-Daten, während Dataloader.io sich auf den Import und Export von Salesforce-Daten spezialisiert. Mit Skyvia präsentiert sich ein günstiges Datenintegrations-Tool, mit dem man Daten aus vielen Cloud-Anwendungen extrahieren, aber nur in einfachen Dateien (CSV, JSON, etc.) exportieren kann. Die Cloud-Riesen Amazon und Google bieten wiederum mit Data Pipelines beziehungsweise Cloud Dataflow ebenfalls kostengünstige Datenintegrationsdienste, die nützlich sind, um Daten, die in der jeweiligen Cloud gespeichert sind, nach Redshift beziehungsweise BigQuery automatisiert exportieren zu können. Die praktischen Connectors für SaaS-Dienste von Drittanbietern sucht man jedoch vergeblich.

Segment fokussiert sich auf Kundendaten

Segment ist im Prinzip auch keine ETL-Lösung im engeren Sinne, aber stellt dennoch eine attraktive Alternative für Einsteiger, die ihre Kunden besser verstehen möchten. Denn anders als die typischen ETL-Systeme, die wir oben beschreiben haben, fokussiert sich das in San Francisco gegründete Startup, das bis dato rund 100 Millionen US-Dollar eingesammelt hat, ausschließlich auf Kundendaten. Namhafte Firmen wie Levi’s, Trivago und IBM setzen Segment ein, um ein unternehmensweites, einheitliches Verständnis über ihre Kunden zu erreichen. Doch mit Preisen, die bei 120 Dollar pro Monat anfangen, kommt Segment auch für kleinere Unternehmen in Frage. Die Lösung wird als eine “Customer Data Infrastructure”-Plattform vermarktet, mit der Firmen sämtliche Kundeninformationen, egal wo sie entstehen und gespeichert werden, auf einen gemeinsamen Nenner bringen können. Dabei ermöglicht der Dienst die automatisierte Datenintegration mit über 200 Systemen. Entwickler können zudem die nativen SDKs (Software Development Kit) von Segment in ihre Apps integrieren und sämtliche User Actions und Logs selbst erfassen.


Verwandeln Sie Ihr Geschäft mit ETL-Lösungen

Führende Unternehmen aus den unterschiedlichsten Industrien haben eins gemeinsam: Sie verfügen über ein klares, detailliertes Verständnis über ihre Kunden und passen es kontinuierlich an, wenn sich das Kundenverhalten ändert, um ihre Produkte, Dienste, Sales- und Marketing-Initiativen kontinuierlich zu optimieren. Es ist jedoch leichter gesagt als getan, dieses Verständnis zu erreichen und es in jeder Fachabteilung verfügbar zu machen. Wer die gesamte “Customer Journey” verstehen will, muss eine Infrastruktur aufbauen, um relevante Daten von jedem Kanal zu sammeln, an einem zentralen Ort zu speichern und dann mit einem Business-Intelligence-Tool zu analysieren. Die innovativen ETL-Lösungen aus der Cloud, die wir in diesem Beitrag präsentiert haben, können dabei Abhilfe schaffen. Denn sie versetzen Unternehmen – egal ob kleine Startups oder etablierte Konzerne – in die Lage, diese komplexen Prozesse vollständig zu automatisieren.


Es könnte dich interessieren: