Checkliste für die Anschaffung von Statistik-Software

2018-04-26by Amit Ghosh

Die gängigen Statistik-Programm-Pakete unterscheiden sich hinsichtlich ihrer Stärken und Schwächen wie auch in ihrer Handhabung mitunter ganz erheblich. Die Entscheidung für ein System sollte gut überlegt sein. Ein nachträglicher Wechsel verursacht hohe Kosten für neue Lizenzen und die Umschulung der Mitarbeiter. Diese Artikelserie stellt die Marktführer R, Python, SAS, SPSS und STATA vor und bietet eine Entscheidungshilfe. Den Beginn der Artikelserie macht eine Checkliste zu den wichtigsten Kriterien, die bei der Entscheidung berücksichtigt werden sollten.

Die Entscheidung für die Nutzung einer Statistik-Software ist ähnlich grundlegend wie die Entscheidung für ein CRM-System. Auf der Kostenseite sind neben den z.T. hohen Anschaffungskosten vor allem auch die Kosten für die Schulung der Mitarbeiter zu berücksichtigen, die oft ein Vielfaches der eigentlichen Lizenzkosten ausmachen. Wesentliche Kriterien für die Wahl einer geeigneten Statistik-Software sind:

Methoden: Statistik vs. Machine Learning

Die verbreitetsten Statistik-Programme unterstützen zwar jeweils ein breites Methodenspektrum, doch hat jedes Programm seine spezifischen Schwerpunkte sowie Stärken und Schwächen. So liegt die Stärke von STATA z.B. traditionell im Bereich der Panel-Analyse, wohingegen SPSS in diesem Feld eine deutlich geringere Auswahl an Methoden mitbringt. Im Machine Learning und Deep Learning spielt hingegen Python seine Stärken aus. Einige kommerzielle Anbieter (z.B. SPSS) verfolgen das Konzept einer Basis-Version, die durch Zusatz-Module hinsichtlich weiterer Methoden ergänzt wird. Hier ist bereits bei der Anschaffung darauf zu achten, dass der Bedarf durch das Paket abgedeckt wird. Dies gilt insbesondere, weil der nachträgliche Kauf einzelner Module häufig deutlich teurer ist als der Erwerb der Module im Paket.

Bedienkonzept

Hier decken die Lösungen ein weites Spektrum ab. Ein Extrem bildet SPSS, welches gerade mit neueren Releases immer weiter in Richtung einer weitgehend automatischen Analyse geht, bei der das Programm dem Nutzer viele Entscheidungen abnimmt. Auf der anderen Seite stehen R und Python, welche i.d.R. über Entwicklungssoftwares wie zum Beispiel RStudio bzw. Jupyter oder das Ausführen von Skripten bedient werden. Hier hat der Nutzer volle Flexibilität, muss aber genau wissen, was er machen möchte.

Nutzungsintensität und -frequenz

Gerade Statistik-Programme, die primär über die Kommandozeile bedient werden, sind sehr leistungsfähig, wenn sie intensiv und regelmäßig genutzt werden. In einem Anwendungszenario, in dem Mitarbeiter nur gelegentlich statistische Analysen durchführen, sind hingegen Programme mit einer "Klick-Oberfläche" geeigneter. Bei diesen Programmen ist eine produktive Nutzung auch dann - ohne erneute Einarbeitung - möglich, wenn die Software nur sporadisch eingesetzt wird.

Automatisierbarkeit

Manche Programme sind primär darauf ausgerichtet, mit wenigen Klicks zu einem schnellen Resultat zu gelangen (SPSS ist ein klassisches Beispiel). Wie schon bei der Bedienbarkeit bilden Python und R das andere Extrem: Zwar dauert die Erstellung der ersten Analyse auf der Kommandozeile i.d.R. etwas länger. Dafür ist der genutzte Code protokolliert und lässt sich jederzeit erneut ausführen. Eine voll automatisierte Umsetzung ist dann mit minimalem Zusatzaufwand möglich.

Umfang der zu analysierenden Daten

Datensätze mit weniger als einer Mio. Zeilen können mittlerweile von den meisten Statistik-Programmen auf einem gewöhnlichen Büro-PC verarbeitet werden. Geht es um sehr große Datensätze, kann dies anders aussehen. Hier punktet z.B. SAS, welches große Datensätze auch teilweise auf die Festplatte auslagern kann. So ist selbst auf gewöhnlicher Hardware die Analyse großer Datensätze möglich, wobei die Performance stark abnimmt, sobald nicht mehr alle erforderlichen Daten im Arbeitsspeicher gehalten werden können. R lädt dagegen klassischerweise alle Daten zunächst in den Arbeitsspeicher und bricht ab, wenn dies - mangels Platz - nicht möglich ist. Zu beachten ist in diesem Zusammenhang auch die gewählte Plattform: Unter Microsoft Windows stehen einem Prozess unter der 32 Bit-Plattform maximal 2 GB an Arbeitsspeicher zur Verfügung. Sobald größere Datenmengen analysiert werden sollen, ist - egal unter welchem Betriebssystem - die Wahl einer 64 Bit-Plattform zu empfehlen. Einige Anbieter beschränken den Umfang der verarbeitbaren Datensätze in preisgünstigen Versionen künstlich (z.B. STATA in den Versionen "Stata/IC" oder "Small Stata").

Sicherung der Datenqualität

Typische Datensätze enthalten zwischen 5% und 20% fehlerhafte Einträge. Berücksichtigt man, dass jede Analyse nur so gut sein kann wie ihr Input ("Garbage In, Garbage Out"), wird die Relevanz dieses oft vernachlässigten Punkts deutlich. Einige Statistik-Programme bieten Prozeduren zur automatischen Überprüfung von Datensätzen und unterstützen somit bei der Überwachung der Datenqualität, in dem sie auffällige Werte oder Untersuchungseinheiten mittels gängiger Ausreißer-Regeln indentifizieren können. Ein anderer Ansatz besteht darin, ergänzend zu den parametrischen Standardmethoden auch robuste Methoden einzusetzen, wobei sich die Statistik-Programme in deren Unterstützung deutlich unterscheiden. R und Python bieten darüber hinaus sogar die Möglichkeit automatische Tests ausführen zu lassen, die es erlauben, bestimmte Anforderungen an die Daten in jeder Analyse-Phase durchzusetzen.

Installationsszenario

Üblicherweise werden die gängigen Statistik-Programme lokal auf einem Windows-PC installiert. Manche Programme sind auch für Linux oder MacOS verfügbar. Einige Programme unterstützen auch eine Server-Installation, bei der man über einen proprietären Client, einen Java-Client oder über einen gewöhnlichen Web-Browser auf den Server zugreift.

Performance

Mit Ausnahme weniger Spezialfälle arbeiten die gängigen Statistik-Programme intern mit einem Interpreter. Auch Programme mit einer Menü-Oberfläche generieren dabei Code, der von der internen Statistik-Engine zur Laufzeit ausgeführt wird. Eine generelle Aussage zur Performance lässt sich nicht treffen. Vielmehr ist diese abhängig vom Umfang der Daten und den angewendeten Methoden. Zu beachten ist, dass einige Programme bestimmte Rechenoperationen automatisch auf mehrere Kerne oder Prozessoren verteilen können, während andere Programme dies nicht oder nur bei expliziter Vorbereitung des Codes können. Zum Teil (z.B. bei STATA) hängt die Fähigkeit zur Nutzung mehrerer Kerne oder Prozessoren auch von der gewählten Lizenz ("Stata/MP") ab. Einige Programme, z.B. R und Python, bieten die Möglichkeit zur Integration in Apache Hadoop und Spark, was die parallele Verarbeitung riesiger Datenmengen ermöglicht. Auch die Möglichkeit, Auswertungen auf einen Server oder Cluster auszulagern und diesen über einen Desktop- oder Web-Client bedienen zu können, kann unter dem Gesichtspunkt der Performance von Belang sein.

Rechteverwaltung

Speziell in größeren Unternehmen oder wenn es um die Verarbeitung von geschützten Daten geht, spielt die Regulierung des Zugriffs eine wichtige Rolle. Dies ist klassischerweise eher die Domäne von BI-Lösungen. Statistik-Programme bieten hier weniger ausgereifte Modelle. Meist lässt sich eine Limitierung des Zugriffs unter Rückgriff auf SQL-Tabellen realisieren.

Lizenzmodell

Auch in diesem Bereich decken die Statistik-Programme das volle Spektrum ab: Neben günstigen Lizenzen für Studierende gibt es Kaufversionen mit unbeschränkter Laufzeit, Mietmodelle inkl. Support und Upgrade-Recht auf die neuste Version und Open Source-Lösungen mit Community-Support oder kostenpflichtigem Support.

Integration mit anderen Anwendungen

Gerade, wenn es um die Automatisierung von Auswertungen geht, ist im Vorfeld darauf zu achten, dass die gewählte Statistik-Software sowohl auf der Input- als auch der Output-Seite mit den vorhandenen Lösungen kompatibel ist. Auf der Input-Seite betrifft dies insbesondere Datenbanken. Auf der Output-Seite neben Datenbanken auch bestehende BI-/Reporting-Tools. Neben der grundsätzlichen Frage der Kompatibilität spielt auch die Frage der Zertifizierung eine Rolle, ohne die manche Hersteller keinen Support für bestimmte Konstellationen geben, auch wenn die entsprechenden Programme eigentlich harmonieren. Auch die Performance sollte nicht vergessen werden. Während alle Statistik-Programme über ODBC mit jedem gebräuchlichen Datenbank-System kommunizieren können, bringen native Treiber häufig eine deutlich höhere Performance und erweiterte Funktionalität.

Branchenspezifische Anforderungen

Nicht nur in der klinischen Forschung gelten spezielle gesetzliche Vorschriften. So verlangt die in den USA für die Zulassung von Medikamenten zuständige Food and Drug Administration (FDA) die Übergabe von Daten für klinische Versuche im SAS-Format. Auch in anderen Branchen können spezielle Versicherungen gegen Analyse-Fehler eine Rolle spielen, die nur ausgewählte Statistik-Programme bieten. In diesen Bereichen konnte sich insbesondere SAS druchsetzen.

Akzeptanz

Natürlich sollte eine simple lineare Regression - auf der selben Datenbasis gerechnet - mit jeder Statistik-Software auch das selbe Ergebnis liefern. Dennoch konnten sich in bestimmten Branchen/Forschungsrichtungen einige Statistik-Programme so fest etablieren, dass man beim Publizieren von Ergebnissen oder dem Austausch mit Kollegen schnell auf Akzeptanzprobleme stößt, wenn man eine andere Software verwendet. Lange galt dies z.B. für die Nutzung von SPSS in den Sozialwissenschaften und speziell in der Psychologie.

Support

Immer wieder treten Fragen bei Installation und Nutzung von Statistik-Software auf. Alle kommerziellen Statistik-Lösungen bieten entsprechenden Hersteller-Support. Darüber hinaus gibt es für die gebräuchlichen Statistik-Programme umfangreiche Tutorials und Diskussionsforen im Internet. Oft bieten auch Drittanbieter kostenpflichtigen Support. Letzteres ist gerade im Open Source-Bereich der Fall. Nicht selten ist guter Community-Support in Bezug auf Reaktionszeit und Kompetenz dem kostenpflichtigen Hersteller-Support überlegen, wenn man sich an bestimmte Regeln hält.

Angebot an Schulungen

Nicht jede Einzelfrage sollte mit dem oft teuren Support geklärt werden. Gerade in größeren Unternehmen wird die Einführung einer neuen Software häufig durch ein umfassendes Schulungsangebot für die betroffenen Mitarbeiter begleitet. Dabei ist - abhängig von der Zielgruppe - zwischen reinen Softwareschulungen und kombinierten Software- und Theorieschulungen zu unterscheiden, bezüglich des Levels zwischen Grundlagen- und spezifischen Fortgeschrittenen-Schulungen. Es ist in jedem Fall sinnvoll, den Schulungsbedarf parallel zur Einführung der Software zu evaluieren und zu planen und die (oft erheblichen) Kosten für begleitende Schulungen bei der Kalkulation des Gesamtaufwands zu berücksichtigen.

Vorhandene Qualifikation der Mitarbeiter

Bei den meisten Anbietern liegen die Kosten für einen Schulungstag pro Mitarbeiter bei ca. 700 - 1200 €. Eine Grundlagenschulung nimmt schnell mehrere Tage in Anspruch, darauf aufsetzende Methodenschulungen haben typischerweise einen Umfang von mindestens 2 Tagen. Gerade für kleinere Unternehmen, in denen nur wenige Mitarbeiter mit der zu beschaffenden Statistik-Software arbeiten, sollten die anbieterspezifischen Vorkenntnisse berücksichtigt werden. Häufig bringen insbesondere Berufseinsteiger aus Fächern wie BWL/VWL, Psychologie, (Veterinär-)Medizin, etc. Kenntnisse im Umgang mit Statistik-Programmen aus ihrem Studium mit. Eine Entscheidung nach diesem Gesichtspunkt kann zwar Abstriche bei der Flexibilität der Lösung mit sich bringen, die Gesamtkosten der Einführung jedoch drastisch reduzieren.

Stabilität/Innovativität

Zwischen den Programmen gibt es große Unterschiede im Release-Zyklus und den Erweiterungsmöglichkeiten. STATA bringt z.B. alle drei Jahre eine neue Release heraus, während SPSS einen 1-jährigen Release-Zyklus hat. Damit einher gehen Unterschiede bei der Verfügbarkeit neuer statistischer Verfahren. Neue Verfahren sind i.d.R. als erstes in R oder Python implementiert. Viele Hersteller erlauben eine Erweiterung der Funktionalität durch die Community oder Drittanbieter. So kann der Hersteller hohe Stabiltät der Kernfunktionen gewährleisten und ermöglicht es gleichzeitig Anwendern, neue Funktionen schneller über (im Zweifel weniger stabile) Erweiterungen zu ergänzen. Abhängig von Umfang der Änderungen können neue Releases auch neuen Schulungsbedarf generieren und Anpassungen an bestehendem Programmcode erfordern.

Diese umfangreiche Checkliste macht deutlich, wie komplex die Entscheidung für eine Statistik-Software sein kann. Während einige kleinere Unternehmen nur sporadisch zeitlich limitierte Evaluations-Versionen oder einige von Werkstudenten beschaffte Universitäts-Lizenzen einsetzen (zumindest letzteres stellt ganz klar einen Verstoß gegen die Lizenzbestimmungen dar), schaffen Banken oder Pharmakonzerne im Rahmen langwieriger Auswahl- und Beschaffungsprozesse mit einem 6- oder 7-stelligen Budget konzernweit Statistik-Software an und begleiten die Einführung durch Schulungsprogramme.

Insbesondere für mittelständische Unternehmen empfehlen wir, die oben aufgezählten Punkte im Sinne eines Anforderungskatalogs durchzugehen und - sofern möglich - die eigenen Anforderungen zu präzisieren. In den folgenden Artikeln werden wir - um den Beschaffungs-/Entscheidungs-Prozess weiter zu unterstützen - in Form einer Kurzübersicht die Stärken und Schwächen der gängigsten Statistik-Programme vorstellen und dann sukzessive im Detail auf die einzelnen Programme eingehen.