Fabric und Purview
Das Dream-Team für deine Datenplattform
Von: Emil Vinčazović
Die Herausforderung der modernen Datenlandschaft
In der heutigen datengetriebenen Welt ist eine moderne Datenplattform unerlässlich. Immer mehr Unternehmen wollen „data-driven“ werden. Unternehmen, die ihre Daten verstehen und nutzen, sind erfolgreicher. Doch der Weg zu einer datengetriebenen Kultur ist oft steinig. Daten befinden sind in verschiedenen Systemen und Formaten verstreut, was die Analyse und Zusammenarbeit erschwert. Die Evolution der Datenplattformen hat uns von traditionellen, starren Data Warehouses zu flexibleren Data-Lake-Architekturen geführt. Doch auch diese bringen ihre eigenen Komplexitäten mit sich und können zu Data Swamps ausarten. Mit Fabric hat Microsoft eine beeindruckende All-in-One-Lösung für Daten und Analysen geschaffen, die genau diese Herausforderungen adressiert und das Beste aus beiden Welten vereint. In meinen Videokursen bei der heise academy stelle ich alle Anwendungen von Microsoft Fabric ausführlich vor.
Hier laufen alle Datenströme zusammen
Fabric vereint alles, was du für die Arbeit mit Daten benötigst, in einer einzigen, einheitlichen Umgebung. Damit haben Datenexpertinnen und -experten ein einziges Werkzeug für alles, von der Datenerfassung bis zur Analyse. Die Datenintegration mit bspw. der Data Factory erlaubt es, Daten aus den unterschiedlichsten Quellen zu extrahieren, zu transformieren und zu laden (ETL).
Ein klassisches Beispiel wäre das Sammeln von Verkaufsdaten aus verschiedenen Filialsystemen und das Aufbereiten für die zentrale Analyse. Mit Synapse Data Warehouse können diese Daten dann in einem hochperformanten Data Warehouse gespeichert und für Business Intelligence-Anwendungen bereitgestellt werden. Parallel dazu ermöglicht Synapse Data Engineering mit Apache Spark die Verarbeitung riesiger Datenmengen für komplexe Datenanalysen und die Vorbereitung von Daten für Machine-Learning-Modelle. Data Scientists können mit Synapse Data Science End-to-End Workflows für maschinelles Lernen erstellen, von der Datenexploration bis zum Deployment von Modellen. Ein Anwendungsfall wäre hier die Entwicklung eines Modells zur Vorhersage von Kundenabwanderung oder der Klassiker: Umsatzprognosen. Für Echtzeitanalysen, zum Beispiel das Monitoring von Sensordaten in der Produktion, bietet Synapse Real-Time Intelligence (ehemals Real Time Analytics) die passenden Werkzeuge. Und schließlich werden all diese Daten und Erkenntnisse mit Power BI in interaktiven Dashboards und Berichten visualisiert, um sie für Entscheidungsträger im gesamten Unternehmen zugänglich zu machen.
Doch eine leistungsstarke Datenplattform ist nur die halbe Miete. Ohne eine solide Data Governance können selbst die besten Daten schnell unübersichtlich, unzuverlässig und sogar zu einem Risiko für das Unternehmen werden. Zusätzlich gibt es jetzt noch den European Union AI Act, der unter anderem besagt, dass man nachweisen muss, mit welchen Daten eine KI trainiert wurde. Dies darzulegen kann zu einer komplex Aufgabe werden.
Eine Bibliothek für deine Daten
Hier kommt Microsoft Purview ins Spiel. Purview lässt sich beschreiben als der ultimative Datenkatalog und die Governance-Lösung für deinen gesamten Datenbestand. Es ist wie eine Bibliothek für deine Daten, die nicht nur auflistet, welche Bücher vorhanden sind, sondern auch, wo sie stehen, worum es in ihnen geht und wer sie ausleihen darf. Purview hilft dir dabei, den Überblick zu behalten, Daten zu klassifizieren und die Einhaltung von Richtlinien sicherzustellen. Eine der Kernkomponenten von Purview ist die Data Map. Sie scannt deine Datenquellen, egal ob sie in der Cloud in Azure, bei anderen Anbietern wie AWS oder Google Cloud, oder On-Premises in deinem eigenen Rechenzentrum liegen, und erstellt eine einheitliche, grafische Datenlandkarte. Selbst SaaS-Anwendungen wie Salesforce können angebunden werden. So kannst du die Herkunft deiner Daten, die sogenannte Data Lineage, nachvollziehen, also woher die Daten stammen, welche Transformationen sie durchlaufen haben und wo sie verwendet werden. Das ist die Grundlage für echtes Vertrauen in deine Daten.
Ein weiteres mächtiges Werkzeug ist der Purview Data Catalog. Er ermöglicht es Fachanwendern, Datenanalysten und Data Scientists, nach Daten zu suchen und diese zu verstehen. Mit einem Geschäftsglossar können unternehmensweit einheitliche Definitionen für Kennzahlen und Begriffe festgelegt werden, was die Zusammenarbeit ungemein erleichtert. Ein Glossareintrag für Kundenzufriedenheit könnte beispielsweise die genaue Berechnungsmethode, den verantwortlichen Ansprechpartner und den genehmigten Wertebereich enthalten. Purview unterstützt auch das Konzept der Data Ownership, indem es ermöglicht, für jede Datenquelle und jedes Datenelement einen verantwortlichen Data Owner zuzuordnen. Und mit den Data Estate Insights bekommst du einen umfassenden Überblick über deinen gesamten Datenbestand und kannst proaktiv Risiken wie die unkontrollierte Verbreitung sensibler Daten erkennen und minimieren.
Die Magie der Integration: Fabric und Purview Hand in Hand
Die wahre Magie entfaltet sich jedoch, wenn du Microsoft Fabric und Microsoft Purview miteinander verbindest. Durch die nahtlose Integration der beiden Dienste kannst du eine durchgängige Datenplattform mit erstklassiger Data Governance aufbauen. Das ist keine ferne Zukunftsmusik, sondern bereits heute Realität. Die Einrichtung der Verbindung ist unkompliziert und erfolgt über das Fabric Admin-Portal (genauer gesagt über Security Groups in Entra und Assigned Identities in Azure). Einmal verbunden, ist die Integration so tief, dass du direkt aus der Fabric-Oberfläche heraus auf den Purview-Datenkatalog zugreifen kannst. Was die Vorteile sind? Lass uns ein Beispiel anschauen.
Stell dir vor, ein Business Analyst arbeitet mit Power BI an einem neuen Bericht. Er kann direkt im Workspace sehen, welche Datenquellen als zertifiziert und damit vertrauenswürdig eingestuft sind. Er kann die Data Lineage einsehen und nachvollziehen, dass die Daten aus dem zentralen Data Warehouse stammen und nicht aus einer veralteten Excel-Datei. Er sieht auch sofort, ob bestimmte Spalten als sensibel, zum Beispiel als personenbezogene Daten, klassifiziert sind und kann entsprechende Maßnahmen ergreifen. Ein weiteres Beispiel: Ein Data Engineer, der eine neue Datenpipeline in Data Factory baut, kann die Auswirkungen seiner Änderungen auf nachgelagerte Systeme analysieren, bevor er die Pipeline in Produktion nimmt. Das verhindert unangenehme Überraschungen und stellt die Datenqualität sicher. Ein weiterer entscheidender Vorteil ist die Integration mit Microsoft Information Protection (MIP). Sensitivitätskennzeichnungen, die in Purview definiert werden, können automatisch auf Daten in Fabric angewendet werden. So kann beispielsweise sichergestellt werden, dass Daten, die als streng vertraulich klassifiziert sind, automatisch verschlüsselt und der Zugriff darauf streng kontrolliert wird. Somit hast du einen weiteren Security Layer in Fabric implementiert!
Diese Transparenz und Kontrolle direkt am Ort des Geschehens – also in Fabric – ist ein unschätzbarer Vorteil. Du profitierst von der Einfachheit und Leistungsfähigkeit von Fabric für die Datenverarbeitung und -analyse und gleichzeitig von der umfassenden Kontrolle und Übersicht von Purview für die Data Governance. So schaffst du eine zukunftssichere Datenlandschaft, die nicht nur leistungsstark, sondern auch sicher, konform und vertrauenswürdig ist. Das ist die Grundlage für ein erfolgreiches datengetriebenes Unternehmen. Zusätzlich hast du die Auflagen des EU AI Act direkt mit abgefrühstückt und kannst entspannt sogar eigene KIs entwickeln.
Erste Schritte in die Welt von Fabric und Purview
Der Einstieg in die Welt von Fabric und Purview mag auf den ersten Blick überwältigend erscheinen. Ein bewährter Ansatz ist es, klein anzufangen. Starte mit einem Pilotprojekt, das einen konkreten, überschaubaren Anwendungsfall adressiert. Das könnte zum Beispiel die Analyse von Verkaufsdaten aus einem bestimmten Bereich sein. So kannst du erste Erfahrungen sammeln und den Mehrwert schnell unter Beweis stellen. Microsoft bietet dir umfangreiche Dokumentationen und Lernpfade. Für einen leichten Einstieg in Fabric empfehle ich dir meine Kurse bei der heise academy.
Fazit
Die Kombination von Microsoft Fabric und Microsoft Purview ist mehr als nur die Summe ihrer Teile. Sie ist ein entscheidender Schritt in Richtung einer ganzheitlichen, intelligenten und gut verwalteten Datenplattform. Unternehmen, die diesen Weg einschlagen, sind nicht nur in der Lage, ihre Daten effizienter zu nutzen, sondern auch, Innovationen voranzutreiben und sich einen entscheidenden Wettbewerbsvorteil zu sichern. Damit bist du bestens gerüstet, um die Herausforderungen der Zukunft zu meistern und den vollen Wert aus deinen Daten zu schöpfen.

Der Videokurs zum Blogbeitrag
Dieser Fachbeitrag erweitert eine Videokurs-Serie über Microsoft Fabric, in der Emil Vinčazović das Tool und dessen Einsatzmöglichkeiten praxisorientiert vorstellt.
Nach einem Einblick in die All-in-One-Lösung zur Datenanalyse von Microsoft führt Data-Science-Experte Emil Vinčazović dich durch Data Factory, Synapse Data Enginieering, Synapase Data Warehouse, Synapse Data Science, Synapse Real-Time Intelligence und Power BI.

