Datenintegration neu gedacht

Die Menge und Vielfalt an Daten in Unternehmen wächst stetig. Oft stehen diese in isolierten Systemen, müssen mehrfach kopiert oder mit großem Aufwand integriert werden. Die Folge: langsame Prozesse, redundante Strukturen und eine fragmentierte Datenbasis.

Microsoft Fabric adressiert genau diese Herausforderungen. Die Plattform integriert alle Schritte der Datenarbeit – von der Erfassung über die Aufbereitung bis hin zur Analyse – in einer cloudbasierten Umgebung. Mit Power BI als nahtlos eingebettetem Analyse-Frontend lassen sich Daten in kürzester Zeit in interaktive Dashboards verwandeln.

Microsoft Fabric im Überblick

Fabric ist als SaaS konzipiert und vereint Werkzeuge, die bisher auf verschiedene Systeme verteilt waren:

Data Engineering (z. B. Spark, Notebooks)
Data Factory für Datenintegration
Data Science und Machine Learning
Real-Time Analytics
Business Intelligence mit Power BI

OneLake – das „OneDrive für Daten“

Zentraler Baustein ist OneLake, ein einheitlicher, KI-fähiger Datensee.

Alle Daten liegen einmal zentral im offenen Delta-Parquet-Format.
Verschiedene Workloads greifen direkt darauf zu – ohne Kopien.
Governance, Sicherheit und Nachvollziehbarkeit (Data Lineage) sind integriert.

Das vermeidet Daten-Silos und reduziert die Komplexität.

Die Medaillen-Architektur als Organisationsprinzip

Um Datenqualität und Struktur sicherzustellen, setzt Fabric auf ein etabliertes Designmuster: die Medaillen-Architektur.

Schichten und Zwecke der Medaillen-Architektur
Schicht	Zweck	Datenzustand	Typische Aktivitäten
Bronze	Aufnahme von Rohdaten	Unverändert, minimal angepasst	Dataflow Gen2, Append-Modus
Curated / Silver	Bereinigung und Strukturierung	Typisiert, harmonisiert, angereichert	Notebooks (z. B. PySpark)
Gold (optional)	Optimierung für Analysen	Aggregiert, mit Geschäftslogik	Sternschema, KPIs, Power BI

Dieses Modell verhindert, dass ein Data Lake zum „Datensumpf“ verkommt. Jede Schicht erfüllt einen klaren Zweck und erhöht die Verlässlichkeit der Daten.

Power BI als integraler Bestandteil von Fabric

Power BI ist tief in Fabric eingebettet. Es ist nicht mehr nur ein Endpunkt, sondern Teil des gesamten Datenflusses.

Direct Lake – der Game-Changer

Ein zentrales neues Feature ist der Direct Lake-Modus:

Power BI greift direkt auf Delta-/Parquet-Dateien im OneLake zu.
Abfragen laufen nahezu in Echtzeit und gleichzeitig so performant wie im Importmodus.
Keine separaten Kopien oder langen Refresh-Zyklen notwendig.
Konsistente semantische Modelle sorgen für eine einheitliche Datenbasis im Unternehmen.

Vergleich der Power BI-Speichermodi

Die Bedeutung von Direct Lake wird deutlicher im Vergleich zu den bisherigen Modi.

Vergleich Import, DirectQuery und Direct Lake
Kriterium	Import	DirectQuery	Direct Lake (neu in Fabric)
Datenbewegung	Vollständige Kopie im Speicher von Power BI	Keine Kopie, Abfragen gehen an Quelle	Keine Kopie, Zugriff direkt auf Delta-/Parquet-Dateien im OneLake
Datenvolumen	Begrenzt durch Speicherkapazität	Unbegrenzt, abhängig vom Quellsystem	Sehr große Datenmengen möglich
Datenaktualität	Abhängig vom Refresh-Zeitplan	Echtzeit, da direkte Abfragen	Nahezu Echtzeit – nur Metadaten-Updates notwendig
Abfragegeschwindigkeit	Sehr hoch (In-Memory)	Langsamer, da externe Verarbeitung	Sehr hoch, vergleichbar mit Import
Typische Anwendungsfälle	Dashboards mit mittlerem Datenvolumen	Szenarien mit Bedarf an stets aktuellen Daten	Analysen in Echtzeit auf großen Datensätzen in Fabric

Kernaussage: Direct Lake vereint die Vorteile von Import (Geschwindigkeit) und DirectQuery (Aktualität), ohne deren Nachteile.

Praxisbeispiel: Automatisierte Verarbeitung monatlicher Wetterdaten

Ein Szenario verdeutlicht den Ablauf: Jeden Monat fallen neue Wetter-Messdaten als CSV-Dateien an. Ziel: eine automatisierte End-to-End-Pipeline bis hin zu Power-BI-Dashboards.

Schritt 1 – Datenaufnahme (Bronze)

Dataflow Gen2 lädt neue CSV-Dateien aus einem OneDrive-Ordner ins Lakehouse.
Spaltennamen werden angepasst (Temperature (C) → Temperature_C).
Speicherung erfolgt im Append-Modus, um nur neue Daten zu ergänzen.

Schritt 2 – Datenveredelung (Curated)

Ein Notebook bereinigt die Daten, wandelt Datumsangaben in Timestamps um und typisiert numerische Werte korrekt.
Zusätzlich wird eine Datumstabelle (dim_date) erstellt, die Zeit-Analysen in Power BI ermöglicht.
Per Table Shortcut greifen Notebooks direkt auf Bronze-Daten zu, ohne diese physisch zu kopieren.

Schritt 3 – Automatisierung mit Pipelines

Eine Pipeline kombiniert beide Schritte:
1. Dataflow lädt neue Dateien.
2. Notebook verarbeitet diese inkrementell und fügt sie den Curated-Tabellen hinzu.
Historische Daten bleiben unberührt, was Rechenaufwand und Zeit spart.

Schritt 4 – Analyse mit Power BI

Power BI verbindet sich im Direct Lake-Modus mit den Curated-Tabellen.
Das semantische Modell stellt sicher, dass alle Berichte dieselben Kennzahlen nutzen.
Dashboards zeigen Trends, Vergleiche und Korrelationen – z. B. zwischen Luftfeuchtigkeit und Niederschlag.

Fazit

Microsoft Fabric und Power BI bilden eine durchgängige Plattform für moderne Datenanalysen:

Einheitlich: Von der Datenerfassung bis zum Dashboard in einer Umgebung.
Effizient: Automatisierte, inkrementelle Verarbeitung mit Dataflow Gen2 und Notebooks.
Schnell: Direct Lake ermöglicht Abfragen in Echtzeit ohne Datenkopien.
Verlässlich: Medaillen-Architektur und semantische Modelle sichern Qualität und Konsistenz.

Damit reduziert Fabric die Komplexität von Datenprojekten erheblich und bietet eine zukunftsfähige Lösung für Unternehmen, die datengetrieben arbeiten wollen.

Search This Blog

OneLake Stories – Datenanalyse mit Power BI

Microsoft Fabric und Power BI: Von Rohdaten zur Erkenntnis in einer Plattform