Python in Excel: die Zukunft der Datenanalyse

Ein unverzichtbares Werkzeug auch für komplexe Aufgaben im Unternehmen

Von: Fabio Basler

Nahezu jedes Unternehmen nutzt Excel als zentrales Tool für Tabellenkalkulationen und Datenverwaltung. Die Integration der Programmiersprache Python in Excel erweitert die Funktionalitäten von Excel erheblich und bietet Anwendern die Möglichkeit, die Flexibilität und Leistungsfähigkeit von Python in einer vertrauten Umgebung zu nutzen.

Durch diese Entwicklung können sowohl alltägliche Datenanalysen als auch komplexe Aufgaben wie erweiterte Datenvisualisierung oder Machine Learning direkt in Excel durchgeführt werden – was völlig neue Möglichkeiten für die Automatisierung von Prozessen und die Optimierung von Entscheidungen auf Basis von datengetriebenen Analysen eröffnet.

Aktivierung und Nutzung von Python in Excel

Python in Excel ist für Kunden mit Enterprise- und Business-Microsoft 365-Abonnements ab Version 2407 verfügbar. Das Python-Feature ist direkt in Excel integriert und kann über die Registerkarte „Formeln“ aufgerufen werden, wo es neben anderen bekannten Excel-Funktionen zur Verfügung steht:

Tipp: Mit einem Rechtsklick auf das Symbol „Python einfügen“ und „Zu Symbolleiste für den Schnellzugriff hinzufügen“ ist das Klickfeld jederzeit startbereit in deiner Symbolleiste.

Um Python in Excel zu nutzen, wird zunächst die Funktion =PY() in einer Excel-Zelle verwendet. Dies signalisiert Excel, dass ein Python-Skript ausgeführt werden soll. Python-Befehle können direkt in der Excel-Oberfläche eingegeben und durch Drücken von „STRG“ + „ENTER“ in der Zelle ausgeführt werden.

Standardmäßig sind die Module NumPy, Pandas, Matplotlib, Seaborn und Statsmodels bereits geladen, sodass Funktionen daraus direkt im Editor aufgerufen werden können, um Analysen, Visualisierungen oder statistische Berechnungen durchzuführen.

Tipp: Mit der Tastenkombination „STRG“ + „ALT“ + „UMSCHALT“ + „P“ lässt sich der Python-Skripteditor in der Excel-Formelleiste noch schneller öffnen.

Als Beispiel wird eine Tabelle in Excel verwendet, die Verkaufsdaten für verschiedene Länder und Städte enthält, inklusive Angaben zu Umsatz, Kosten und Rücksendungen. Diese Daten sollen zur Analyse, Visualisierung und für Machine Learning genutzt werden.


Explorative Datenanalyse mit Pandas

Mit der Pandas-Bibliothek lassen sich komplexe Analysen und leistungsstarke Datenmanipulationen direkt in Excel durchführen. Der Tabellenbereich von A1 bis J1001 kann dabei in ein Pandas-DataFrame umgewandelt werden, eine effiziente Struktur zur Verarbeitung tabellarischer Daten.

umsatz = xl(„A1:J1001“, headers=True)

Komplexe Auswertungen lassen sich blitzschnell durchführen. Eine umfassende Analyse der Lageverteilung mit verschiedenen statistischen Kennzahlen, die normalerweise insgesamt acht Excel-Formeln erfordern würde, lässt sich so mit nur wenigen Zeilen Code effizient umsetzen.

umsatz.describe().transpose()


Matplotlib und Seaborn: nie zuvor dagewesene Grafiken und Diagramme direkt in Excel

Die Datenvisualisierung ist ein weiterer Bereich, in dem Python in Excel glänzt. Bibliotheken wie Matplotlib und Seaborn ermöglichen es Benutzern, ansprechende und informative Diagramme zu erstellen, die über die Standard-Diagrammfunktionen von Excel hinausgehen.

Beispielsweise ermöglicht ein Jointplot die kombinierte Darstellung von Streudiagramm und Verteilungsdiagramm (Histogramm) für zwei Variablen in einem einzigen Plot:

sns.jointplot(x=“Preis“, y=“Verkaufsmenge“, data=umsatz, hue=“Land“, palette=“viridis“, marker=“x“)

plt.show()

Seaborn bietet erweiterte statistische Plottypen, die in Excel standardmäßig nicht verfügbar sind, wie Violinplots, KDE-Plots, Pairplots und Facet Grids, um komplexe Datensätze detailliert zu analysieren.

Machine-Learning-Algorithmen stehen Excel-Anwender jetzt zur Verfügung

Viele Datenanalyse-Projekte starten bereits in Excel, und durch die Integration von Python können diese Daten direkt in der gewohnten Umgebung weiterverarbeitet werden. Machine-Learning-Algorithmen wie Klassifikatoren, Clustering-Verfahren und neuronale Netzwerke, die zuvor in Excel fehlten, können nun ohne externe Skripte direkt in .xlsx-Dateien trainiert und genutzt werden, was den Workflow deutlich vereinfacht und beschleunigt.

Mit nur wenigen Zeilen Code lassen sich etwa Kunden anhand ihrer Kaufstärke in Cluster segmentieren oder Kundenabwanderungen mithilfe von Klassifizierungsmodellen vorhersagen.

Ein Blick unter die Haube von Python in Excel

Python in Excel wird nicht lokal auf dem Rechner installiert, sondern in der Microsoft Cloud ausgeführt. Der Python-Code läuft in isolierten Hypervisorcontainern, die auf Azure Container Instances basieren. Diese Container sind mit Python und einer Auswahl gesicherter Programmbibliotheken ausgestattet, die von Anaconda bereitgestellt werden.

Der Python-Code hat keinen direkten Zugriff auf das lokale System, Geräte, Netzwerke oder Benutzerdaten. Stattdessen erfolgt der Zugriff auf Excel-Daten über die xl()-Funktion, und alle Berechnungen sowie Datenverarbeitungen werden innerhalb dieser sicheren Cloud-Umgebung durchgeführt.

Datenschutzbedenken: die versteckte Hürde für Python in Excel?

Da Python in Excel in der Microsoft Cloud ausgeführt wird, bedeutet das, dass alle Datenverarbeitungen extern auf Cloud-Servern stattfinden. Trotz hoher Sicherheitsstandards könnten Unternehmen Bedenken bezüglich Datensicherheit und Compliance haben, insbesondere bei sensiblen Daten. Viele Firmen bevorzugen lokale Datenverarbeitung, um die Kontrolle zu behalten und gesetzliche Vorgaben einzuhalten. Deshalb könnte dieses Feature für Unternehmen in regulierten Branchen weiterhin uninteressant bleiben.

Fazit

Python in Excel erweitert die Möglichkeiten zur Datenanalyse, Visualisierung und Machine Learning erheblich, indem es leistungsstarke Bibliotheken wie Pandas, Matplotlib, Seaborn oder Statsmodels direkt in die gewohnte Excel-Umgebung integriert. Diese Effizienzsteigerung durch minimalen Code revolutioniert die Datenverarbeitung. Allerdings könnten Datenschutz- und Compliance-Bedenken die Nutzung weiterhin einschränken. Insgesamt bietet Python in Excel großes Potenzial, die Arbeitsweise mit Daten grundlegend zu transformieren.

Über den Autor: Fabio Basler

Fabio Basler ist ein begeisterter Trainer für Datenwissenschaft. Seine Kenntnisse erstrecken sich von Excel, Power BI und SQL über die Programmierung in Python und R bis hin zu modernen Themen der Data Science, des Machine Learnings und der Künstlichen Intelligenz. Durch seine Videokurse und Seminare vermittelt er Menschen gezielt die Fähigkeiten, die sie benötigen, um ihre Datenkompetenzen zu stärken. Mit einem praxisorientierten Ansatz zeigt er, wie Daten effektiv genutzt werden können, um fundierte Entscheidungen zu treffen und innovative Lösungen zu entwickeln.


Diese Beiträge könnten dich auch interessieren: