So schaffst du eine sichere Datenkultur
Data Classification und Sensitivity Labels mit Microsoft Purview
Von: Emil Vinčazović
In einer Welt, in der Daten das neue Gold sind, stehen inbesondere Unternehmen in regulierten Branchen wie Banken und Versicherungen vor einer gewaltigen Herausforderung. Die schiere Menge an erzeugten und verarbeiteten Daten explodiert, während die regulatorischen Anforderungen, allen voran die DSGVO und die Norm ISO 27001, immer strenger werden. Wie behältst du also den Überblick über sensible Kundeninformationen, geistiges Eigentum oder interne Finanzdaten? Wie stellst du sicher, dass diese Informationen jederzeit angemessen geschützt sind, egal ob sie in einer E-Mail, einer SharePoint-Bibliothek oder einer lokalen Datenbank liegen?
Zudem ist Künstliche Intelligenz in aller Munde – man kann von einem regelrechten KI-Hype sprechen. Die EU hat darauf mit dem EU AI Act reagiert. Dieser besagt unter anderem, dass du nachweisen beziehungsweise nachvollziehen können musst, wie deine KIs trainiert wurden. Die manuelle Klassifizierung von Daten ist also längst keine tragfähige Lösung mehr. Sie ist nicht nur fehleranfällig und langsam, sondern in modernen Datenlandschaften schlicht unmöglich. Genau hier setzt Microsoft Purview an. In diesem Beitrag zeige ich dir detailliert auf, wie du mit automatisierten Data Classification und Sensitivity Labels eine dynamische, intelligente und vor allem skalierbare Datenschutzstrategie aufbaust, die den Namen auch verdient.
Unstrukturierte Daten sind eine tickende Zeitbombe
Stell dir das typische Szenario vor: Ein Mitarbeiter erstellt einen Finanzbericht mit hochsensiblen Quartalszahlen. Er speichert ihn auf einem schlecht gesicherten Team-Laufwerk, weil es gerade am einfachsten ist. Ein anderer Kollege arbeitet an einer Liste mit Kundendaten für ein Marketingprojekt und teilt sie per E-Mail mit einem externen Dienstleister, ohne die Daten zu verschlüsseln. Solche alltäglichen Vorgänge sind in vielen Unternehmen an der Tagesordnung. Das Problem ist nicht böser Wille, sondern mangelndes Bewusstsein und fehlende Werkzeuge. Die Konsequenzen können jedoch verheerend sein. Wir sprechen hier nicht nur von empfindlichen Bußgeldern im Rahmen der DSGVO, die bis zu vier Prozent des weltweiten Jahresumsatzes betragen können. Ein Datenleck führt unweigerlich zu Reputationsschäden, Vertrauensverlust bei Kunden und im schlimmsten Fall zum Verlust von Wettbewerbsvorteilen. Die manuelle Klassifizierung scheitert hier, weil sie den Faktor Mensch als schwächstes Glied in der Kette hat.
Microsoft Purview: Mehr als nur ein Scanner
Microsoft Purview ist nicht bloß ein Werkzeug zur Datenklassifizierung, sondern eine umfassende Data-Governance-Plattform, die dir eine 360-Grad-Sicht auf deine Daten ermöglicht. Bevor du überhaupt mit der Klassifizierung beginnst, hilft dir Purview dabei, eine vollständige Datenlandkarte zu erstellen. Purview scannt und katalogisiert Datenquellen in deiner gesamten hybriden Umgebung – von Microsoft 365 über Azure-Dienste bis hin zu lokalen SQL-Servern und sogar AWS S3-Buckets. Dieser Katalog zeigt dir nicht nur, wo deine Daten liegen, sondern auch, wie sie sich durch dein Unternehmen bewegen (Data Lineage). Damit bildet er die Grundlage für alles Weitere, denn erst mit diesem Wissen kannst du die Klassifizierung effektiv und zielgerichtet einsetzen.
Die automatisierte Klassifizierung im Detail
Der Weg zur automatisierten Klassifizierung folgt einem klaren Ablauf. Ich erkläre dir Schritt für Schritt, wie die Implementierung funktioniert.
1. Erkennungsmethoden meistern
Zuerst musst du Purview beibringen, welche Informationen für dein Unternehmen sensibel sind. Hierfür stehen dir mehrere, sich ergänzende Methoden zur Verfügung. Deine erste Verteidigungslinie bilden die Sensitive Information Types (SITs). Microsoft liefert über 200 vordefinierte SITs für gängige Datentypen wie Kreditkartennummern, IBANs, Reisepassnummern oder länderspezifische Gesundheitsinformationen. Diese erkennen Daten nicht nur anhand einfacher Muster, beispielsweise einer 16-stelligen Zahl, sondern nutzen auch kontextuelle Prüfungen wie Prüfsummenalgorithmen, etwa den Luhn-Algorithmus für Kreditkarten, und Schlüsselwörter in der Nähe. Du kannst diese SITs auch anpassen oder komplett eigene mit XML-Definitionen und regulären Ausdrücken erstellen, um firmenspezifische Formate wie Mitarbeiter-IDs oder Projektnummern zu erkennen. Dementsprechend sind alle Use Cases abgedeckt und die SITs können klar definiert werden.
Für komplexere Anforderungen, insbesondere bei unstrukturierten Inhalten, kommen Trainable Classifiers ins Spiel. Während SITs gut für strukturierte Daten sind, glänzen Trainable Classifiers, wenn du Verträge, Rechnungen, Lebensläufe oder technische Spezifikationen erkennen willst. Du beginnst, indem du dem Classifier eine Sammlung von 50 bis 500 Beispieldokumenten, sogenannte Seed-Daten, zur Verfügung stellst. Das System analysiert diese und baut ein Vorhersagemodell auf. Anschließend testest du das Modell mit einer Mischung aus positiven und negativen Beispielen und gibst Feedback, um die Genauigkeit zu verbessern. Genau so, wie man es generell bei Klassifizierungsproblemen im Machine Learning macht. Dieser Prozess stellt sicher, dass die Erkennung hochpräzise ist und auf die spezifischen Dokumententypen deines Unternehmens zugeschnitten ist.
Für höchste Präzision, besonders im Umgang mit großen, strukturierten Datensätzen wie einer Kundendatenbank, ist Exact Data Match (EDM) die erste Wahl. Du exportierst die sensiblen Daten, zum Beispiel Kundennummern oder Sozialversicherungsnummern, in eine CSV-Datei, erstellst einen Hash-Wert davon und lädst diesen sicheren Hash in den Microsoft 365-Dienst hoch. Purview kann dann Dokumente und E-Mails durchsuchen und exakte Übereinstimmungen mit den Werten aus deiner Datenbank finden, ohne die Rohdaten selbst kennen zu müssen. Die Daten bleiben somit pseudonymisiert.
2. Die Macht der Sensitivity Labels
Nachdem du weißt, was du schützen musst, legst du mit Sensitivity Labels fest, wie der Schutz aussehen soll. Ein Label ist ein Container für Schutzmaßnahmen, die du granular steuern kannst. Dazu gehören visuelle Markierungen, bei denen du Kopf- und Fußzeilen oder Wasserzeichen, beispielsweise Vertraulich, auf Dokumente anwenden kannst, um das Bewusstsein der Benutzer zu schärfen. Das Herzstück des Schutzes bilden Verschlüsselung und Zugriffskontrolle. Du kannst festlegen, dass ein Dokument verschlüsselt wird, sobald das Sensitivity Label angewendet wird. Die Zugriffsrechte sind dabei direkt an das Label gekoppelt. So kannst du definieren, dass nur Mitglieder einer bestimmten Abteilung das Dokument öffnen dürfen oder dass externe Benutzer lediglich Leserechte haben, aber nicht drucken oder weiterleiten können. Diese Rechte bleiben auch dann bestehen, wenn die Datei das Unternehmen verlässt. Darüber hinaus ermöglicht das Container-Management, Labels nicht nur auf Dateien und E-Mails, sondern auch auf Container wie SharePoint-Seiten, Microsoft Teams oder Microsoft 365-Gruppen anzuwenden. (Lies dir hierzu gerne meinen Beitrag Fabric und Purview – Das Dream-Team für deine Datenplattform durch). Ein Team kann zum Beispiel mit einem Label Streng Vertraulich so konfiguriert werden, dass es keine externen Gäste zulässt und die Freigabeoptionen stark einschränkt.
3. Die Automatisierung orchestrieren – Auto-Labeling Policies
Hier fügt sich nun alles zusammen. Mit Auto-Labeling Policies wendest du die definierten Labels automatisch auf Basis der erkannten sensiblen Inhalte an. Dabei hast du zwei Möglichkeiten: Service-side Auto-Labeling läuft im Hintergrund auf Diensten wie SharePoint Online und Exchange Online und scannt Daten im Ruhezustand. Im Gegensatz dazu funktioniert Client-side Auto-Labeling in Echtzeit direkt in den Office-Anwendungen auf dem Computer des Benutzers. Wenn ein Benutzer beispielsweise eine Sozialversicherungsnummer in ein Word-Dokument tippt, kann eine Richtlinie ein Label empfehlen oder sogar automatisch anwenden. Eine der wichtigsten Funktionen ist der Simulationsmodus. Bevor du eine Auto-Labeling-Richtlinie aktivierst und potenziell Tausende von Dokumenten änderst, kannst du sie im Simulationsmodus laufen lassen. Purview zeigt dir dann genau, welche Dateien betroffen wären und welches Label angewendet würde. Das gibt dir Sicherheit, um Regeln zu optimieren, bevor du sie produktiv schaltest. (Außerdem ersparst du dir so den Aufschrei verärgerter Kollegen, sollte mal etwas nicht auf Anhieb klappen).
Best Practices für eine erfolgreiche Implementierung
Die Technologie ist nur die halbe Miete. Eine erfolgreiche Einführung erfordert eine klare Strategie. Zuerst solltest du ein Klassifizierungsschema entwickeln. Bevor du das erste Label erstellst, definiere ein klares und verständliches Schema mit maximal vier bis fünf Vertraulichkeitsstufen, zum Beispiel Öffentlich, Intern, Vertraulich oder Streng Vertraulich. Beschreibe für jede Stufe klar, was sie bedeutet und für welche Daten sie gilt. Anschließend ist es ratsam, ein Pilotprojekt zu starten. Wähle eine Abteilung oder einen Geschäftsprozess mit klaren Anwendungsfällen aus. Nutze diesen Piloten, um Erfahrungen zu sammeln, deine Sensitive Information Types und Trainable Classifiers zu trainieren und das Feedback der Benutzer einzuholen. Es ist wichtig, Automatisierung mit Benutzerinteraktion zu kombinieren. Verlasse dich nicht zu 100 Prozent auf die Automatisierung. Konfiguriere Richtlinien so, dass sie in Zweifelsfällen ein Label empfehlen, aber dem Benutzer die endgültige Entscheidung überlassen. Das erhöht die Akzeptanz und hilft, die Modelle weiter zu trainieren. Bedenke stets, dass Data Governance ein kontinuierlicher Prozess ist. Deine Datenlandschaft und die regulatorischen Anforderungen ändern sich ständig. Plane regelmäßige Überprüfungen deiner Richtlinien, analysiere die Berichte im Purview Compliance Portal und passe deine Konfiguration an neue Gegebenheiten an.
Eine verantwortungsvolle Datenkultur
Die automatisierte Datenklassifizierung mit Microsoft Purview ist für Unternehmen in regulierten Branchen kein optionales Add-on, sondern eine strategische Notwendigkeit. Sie transformiert den Datenschutz von einer reaktiven, manuellen Belastung zu einem proaktiven, intelligenten und integrierten Prozess. Indem du Purview nutzt, um deine Daten zu verstehen, zu klassifizieren und zu schützen, minimierst du nicht nur die Risiken von Datenlecks und Compliance-Verstößen. Du schaffst auch eine Grundlage für Vertrauen bei deinen Kunden und legst den Grundstein für eine verantwortungsvolle Datenkultur im gesamten Unternehmen. Es ist an der Zeit, das Datenchaos endgültig zu beenden und die volle Kontrolle zurückzugewinnen.

Der Videokurs zum Blogbeitrag
Neben diesen Fachbeitrag stellt Emil Vinčazović in seiner Videokurs-Serie über Microsoft Fabric, das Tool und dessen Einsatzmöglichkeiten praxisorientiert vor.
Nach einem Einblick in die All-in-One-Lösung zur Datenanalyse von Microsoft führt Data-Science-Experte Emil Vinčazović dich durch Data Factory, Synapse Data Enginieering, Synapase Data Warehouse, Synapse Data Science, Synapse Real-Time Intelligence und Power BI.

