Statistik-Software - R, Python, SAS, SPSS und STATA im Vergleich

2018-04-25by Amit Ghosh

Die gängigen Statistik-Programm-Pakete unterscheiden sich hinsichtlich ihrer Stärken und Schwächen wie auch in ihrer Handhabung mitunter ganz erheblich. Die Entscheidung für ein System sollte gut überlegt sein. Ein nachträglicher Wechsel verursacht hohe Kosten für neue Lizenzen und die Umschulung der Mitarbeiter. Diese Artikelserie stellt die Marktführer R, Python, SAS, SPSS und STATA vor und bietet eine Entscheidungshilfe. Der zweite Teil der Artikelserie gibt eine Übersicht der relevanten Programme mit ihren Stärken und Schwächen.

R

R ist eine populäre Open Source-Statistik-Umgebung, die durch Pakete nahezu beliebig erweiterbar ist und sich zunehmender Beliebtheit erfreut. Mit RStudio existiert eine komfortable Entwicklungsumgebung, die lokal oder in einer Client-Server-Installation über den Webbrowser genutzt werden kann. R-Applikationen lassen sich über Shiny auch direkt interaktiv im Web nutzen.

Stärken:

Sehr großer Funktionsumfang (weit über 2000 Pakete)
Neue statistische Methoden werden schnell implementiert
Sehr gut automatisier- und integrierbar (z.B. Git, LaTeX, ODBC, Oracle R Enterprise, teradataR, Apache Hadoop, Microstrategy)
Sehr guter Community-Support sowie kostenpflichtiger Support über Drittanbieter
Umfangreiche Hilfe-Ressourcen frei verfügbar (Manuals, Tutorials, etc.)
Sehr leistungsfähige und flexible Skriptsprache (u.a. Unterstützung von objektorientierter Programmierung, etc.)
Alle gängigen Plattformen werden unterstützt (u.a. Windows, Linux, MacOS, ...)
Zukunftssicher durch sehr große, aktive Entwickler-Community

Schwächen:

Einarbeitung in die R-Syntax kann eine Einstiegshürde darstellen
Stabilität/Qualität wenig genutzter Pakete z.T. nicht auf dem hohen Niveau der Core-Distribution
Bei Verwendung sehr großer Datensätze wird leistungsfähige Hardware benötigt

Lizenzmodell und Kosten: Für die Nutzung von R sind keine Nutzungsentgelte zu entrichten.

Fazit: Zu Beginn war R lediglich eine kostengünstige Alternative für diejenigen, die sich die kommerziellen Statistik-Programme nicht leisten konnten/wollten. Dieser Zeit ist R lange entwachsen und übertrumpft die kommerzielle Konkurrenz hinsichtlich Funktionsumfang, Flexibilität und Integrierbarkeit mit anderen Anwendungen z.T. um Längen. Viele Konkurrenten (z.B. SPSS) reagieren darauf mit einer Integration von R in ihre Programme. Auch die Kritik, dass R deutlich schwerer zu erlenen und zu bedienen sei als die kommerzielle Konkurrenz, gilt spätestens mit der Verfügbarkeit von RStudio nur noch in abgemilderter Form. R kann insbesondere Viel-Nutzern, die die Bereitschaft mitbringen, sich intensiver mit Statistik auseinanderzusetzen, uneingeschränkt empfohlen werden.

Python

Python ist eine voll funktionsfähige, offene interpretierte Programmiersprache, welche sich in den letzten Jahren zu einer mindestens ebenbürtigen Alternative für alle Arten von Data Science-Projekten entwickelt hat. Insbesondere im Deep Learning und Machine Learning-Bereich spielt es dabei seine Stärken aus. Die Funktionalität als Statistik-Software wird dabei durch zusätzliche Pakete gewährleistet, die unkompliziert nachinstalliert werden können. Mit jupyter, spyder und PyCharm und anderen existiert eine Vielzahl an Entwicklungsumgebungen für professionelles Arbeiten. Python wird auch in anderen Bereichen, etwa in der Web-Entwicklung eingesetzt.

Stärken:

voll leistungsfähige, interpretierte Programmiersprache
bietet sowohl objektorientierte, strukturierte als auch einige funktionale Konzepte an
ausgereifte Programmiertools (z.B. Unittests, Debuggingfunktionalitäten)
Vielzahl stabiler Pakete im Data Science Bereich und darüber hinaus
saubere Syntax erhöht Lesbarkeit
stetige Weiterentwicklung durch eine große Entwickler-Community
volle Verfügbarkeit neuester Deep Learning und Machine Learning Verfahren
sehr gut automatisierbar (z.B. über Skripte oder Webserver)
voll integrierbar (Git, teradata, PySpark, Hadoop, KNIME)
äußerst guter Community-Support durch eine riesige und stetig wachsende Community
hübsche und einfach zu erstellende Visualisierungen
professionelle Entwicklungsumgebungen
Verwendung wächst sowohl im wissenschaftlichen als auch kommerziellen Bereich, dadurch sehr zukunftssicher

Schwächen:

nicht alle statistischen Verfahren sind verfügbar
als "volle" Programmiersprache entsprechend hohe Einstiegshürde
Entwicklungsumgebungen für den Statistik-Bereich stecken zum Teil noch in den Kinderschuhen

Lizenzmodell und Kosten: Für die Nutzung von Python sind keine Nutzungsentgelte zu entrichten. In speziellen Bereichen (z.B. Text Mining) sind jedoch nicht alle Pakete für die kommerzielle Nutzung freigegeben.

Fazit: Python ist in dieser Zusammenstellung insofern eine Ausnahmeerscheinung, als dass es eine vollständige Programmiersprache ist, welche für jede Menge an Einsatzbereichen geeignet ist. In den letzten Jahren hat es sich durch eine Vielzahl an hochperformanten Paketen jedoch auch zum ernstzunehmenden Statistik-Programm entwickelt, welches sich äußerst hoher Beliebtheit erfreut. Insbesondere für Verfahren welche eher aus dem computerwissenschaftlichen Bereich kommen, etwa Deep Learning-Verfahren, wird man nicht um Python herumkommen. Auch bei der Automatisierung und im Zusammenspiel mit anderen Programmteilen (welche auch in Python geschrieben sein können) spielt es seine Vorteile aus. Wer Python erlernen will muss jedoch dementsprechend auch bereit sein, sich eine komplette Programmiersprache anzueignen. Durch die hohe Beliebtheit sind jedoch viele gute Tutorials und Schulungen verfügbar. Eine explizit auf den Data Science-Bereich zugeschnittene Entwicklungsumgebung auf dem Niveau bspw. von RStudio existiert jedoch (noch) nicht.

SAS

SAS Institute bietet eine professionelle Statistiksoftware, welche insbesondere in der Biometrie, der klinischen Forschung und im Banken-Sektor Anwendung findet.

Stärken:

Schnelle Integration neuer statistischer Verfahren, sehr stabile und zuverlässige Routinen
Sehr gute Dokumentation und professioneller Support
Vielzahl von (kostenpflichtigen) Modulen und Schnittstellen, eigene Business Intelligence Software
Gut geeignet für Umgang mit großen Datensätzen
Umfangreiches hauseigenes Schulungsangebot

Schwächen:

Verschiedene, teils komplizierte (aber mächtige) Programmsprachen
Teilweise veraltetes Interface, GUI optional

Lizenzmodell und Kosten: Einjährige Nutzungsberechtigung SAS® Analytics Pro: ab ca. 7.500 €, i.d.R. wird ein individuelles Angebot erstellt, spezielle - Konditionen für Behörden und Bildungssektor

Fazit: SAS ist ein mächtiges und sehr stabiles Tool, welches insbesondere in größeren Organisationen eingesetzt wird und sich im Pharma-Bereich zum Quasi-Standard für viele Analysen entwickelt hat. Die Software besteht aus unterschiedlichen Modulen, die z.T. völlig verschiedene Bedienkonzepte verfolgen. Entsprechend aufwändig ist die Einarbeitung. Im Vergleich zur kommerziellen Konkurrenz gehört SAS (auch aufgrund der Ausrichtung auf größere Unternehmen/Organisationen) zu den teuersten Lösungen.

SPSS

SPSS gilt als besonders einfach zu bedienen und ist eines der am stärksten verbreitetsten Statistik-Programme. Der ursprünglich eigenständige Anbieter wurde mittlerweile von IBM übernommen.

Stärken:

Leicht erlernbar, Bedienung jedoch nicht immer intuitiv
Erweiterbar über kommerzielle Module (Preise ab ca. 800 €)
Umfangreiche Literatur - insbesondere zu Einstiegsthemen - vorhanden
Versionen für Windows und MacOS

Schwächen:

Stabilität hat unter dem kurzen Update-Zyklus von einem Jahr gelitten
trotz Syntax- und Skript-Sprache schwieriger automatisier- und in andere Anwendungen integrierbar als andere Lösungen

Lizenzmodell und Kosten: Es werden unterschiedliche Lizenztypen angeboten, beginnend bei ca. 1.200 € pro Jahr für IBM SPSS Statistics Base, über die Standard-Version für ca. 2.700 € und die Professional-Version für ca. 5.400€, hin zur Premium-Version ab ca. 8.000€. (unbeschränkte Nutzung, inkl. Support für 12 Monate). Für Studierende gibt es günstige Lizenzen (ca. 70 €) mit fester Laufzeit von einem Jahr. Zusätzlich besteht die Option der monatlichen Abonnements.

Fazit: SPSS genießt den Ruf, die am einfachsten zu bedienende Statistik-Software zu sein. Insbesondere in den Sozialwissenschaften und der Psychologie war SPSS auch im universitären Bereich fest verankert. IBM entwickelt die Software in den jüngeren Versionen stark in Richtung eines Tools, welches Auswertungen weitgehend automatisiert durchführt, ohne dass dem Benutzer besondere Methodenkenntnisse abverlangt werden. Diese Entwicklung hat SPSS in der wissenschaftlichen Community einen Image-Verlust eingebracht, wo die Software teilweise den Ruf hat, von Nutzern eingesetzt zu werden, die sich Ergebnisse "zusammenklicken", ohne zu verstehen, was sie tun. Unter dem kurzen Release-Zyklus hat zudem in der jüngeren Vergangenheit die Stabilität gelitten. Während SPSS einige speziellere Module (z.B. für das Direktmarketing) mitbringt, ist das Spektrum gut unterstützter Methoden ingesamt geringer als z.B. bei R oder SAS.

STATA

STATA ist eine kommerzielle Statistiksoftware und wird insbesondere in der Ökonometrie angewendet.

Stärken:

Großer Funktionsumfang - nahezu jede etablierte statistische Methode findet sich auch in STATA wieder
Einfacher Einstieg durch GUI
Automatisierbar & mit alten Versionen kompatibel
Guter Support durch die STATA-Community sowie umfangreiche Literatur sind vorhanden
Lauffähig unter Windows, Mac, Unix
Im Vergleich zur kommerziellen Konkurrenz vergleichsweise preiswert
Investitionssicherheit durch 3-jährigen Release-Zyklus

Schwächen:

Eher träge bei der Einarbeitung neuer Methoden (Versionsupdates)
bis zur Version 16.0 war die Integration von und in andere Software umständlich, seit Version 16.0 ist die Python-Integration möglich
bis zur Version 16.0 konnte nur ein Datensatz geöffnet und bearbeitet werden. Mit der Einführung der Version 16.0 ist das Laden mulipler Datensätze gleichzeitig möglich.

Lizenzmodell und Kosten: Kommerzielle Einzelplatzlizenz (IC) ab ca. 730€, z.T. erhebliche Rabatte bei Kauf mehrerer Lizenzen, spezielle Konditionen für den Bildungssektor

Fazit: Obwohl STATA eine ausgereifte, sehr stabile und leistungsstarke Software ist, ist die Verbreitung - gerade in Unternehmen - gering. Dabei ist STATA für Anwender, die Wert auf ein breites Methodenspektrum, Stabilität, ein ausgereiftes Bedienkonzept inkl. Skriptsprache und einen fairen Preis legen, der teureren kommerziellen Konkurrenz überlegen.

Weitere Programme

Die fünf vorgestellten Programme sind die unangefochtenen Marktführer im Bereich der universell einsetzbaren Statistik-Programme. Sie decken fast das komplette Methodenspektrum der Statistik ab. Daneben existieren etliche Programme, die sich auf bestimmte Methoden spezialisiert haben und sich damit für Spezialanwendungen etablieren konnten. Einige dieser Programme seien in dieser unvollständigen Übersicht zumindest kurz erwähnt:

EViews konnte sich insbesondere in der Ökonometrie etablieren und hat seinen Fokus auf der Arbeit mit Zeitreihendaten. Eingesetzt wird EViews z.B. an Volkswirtschaftlichen Fachbereichen vieler Universitäten und Wirtschaftsforschungsinstituten. Eine weniger mächtige Alternative für Zeitreihenanalyse stellt die in JAVA umgesetzte freie Software JMulTi dar.
SPSS Amos ist ein relativ einfach zu bedienendes Programm zur Modellierung und Schätzung von Strukturgleichungsmodellen. Alternativen zu Amos stellen u.a. LISREL, Mplus und SmartPLS (für Partial-Least-Squares) dar.
WinBUGS und das verwandte Open Source-Projekt OpenBUGS sind Tools speziell für Bayes'sche Statistik. OpenBUGS ist aus der kommerziellen Software WinBUGS hervorgegangen. Die Anstrengungen zur Weiterentwicklung konzentrieren sich mittlerweile auf OpenBUGS. Mit BRugs und R2OpenBUGS existieren Pakete, die die Funktionalität in R integrieren. Eine Alternative zu BUGS stellt JAGS ("Just Another Gibbs Sampler") dar.
Mathematica und Matlab werden für eher numerisch orientierte Problemstellungen eingesetzt. Es handelt sich um kommerzielle Programme.
Datatab gilt als Vertreter von web-gestützten Lösungen, die sich eher an Privatpersonen richten oder in z.B. auch in der Statistikausbildung eingesetzt werden können. Die übersichtliche Weblösung kann unmittelbar ohne Registrierung und kostenlos genutzt werden. Es können einfache deskriptive Analysen sowie Tests, Regressionsanalysen, Faktorenanalyse, Clusteranalyse, etc. gerechnet werden. Solche Lösungen eigenen sich insb. für einfache ad-hoc Analysen. Wer als Gelegenheitsnutzer über Statistik-Grundkenntnisse verfügt, findet sich hier sofort zu Recht und kommt - ohne größere Einarbeitung oder die Installation von Software - direkt zum Ziel. Sofern vertrauliche oder personenbezogene Daten ausgewertet werden, ist bei web-gestützten Lösungen Vorsicht geboten. Hier muss vorab geklärt werden, ob Daten lokal im Browser verbleiben oder für Berechnungen zum Server des Anbieters übertragen werden.

Darüber hinaus gibt es noch eine Reihe von kommerziellen und Open Source-Programmen, die auf Data Mining-Methoden spezialisiert sind. In den fünf folgenden Teilen der Artikelserie werden die fünf Marktführer R, Python, SAS, SPSS und STATA en détail vorgestellt.