Blog
  • INWT
  • Blog
  • Mehr als nur Panel-Analysen: STATA

Mehr als nur Panel-Analysen: STATA

22.04.2018 10:30
von Sebastian Warnholz

STATA ist eines der kommerziell vermarkteten Statistik-Programme und wird von der StataCorp vertrieben und weiterentwickelt. Als sicherlich eines der bekannteren Statistik-Programme bietet STATA vom Umfang und der Handhabung her viele Vorteile. Von der Konkurrenz hebt sich STATA hinsichtlich der Bedienung ab: Während SPSS eher über ein Menü bedient wird und R sowie SAS fast ausschließlich über die Kommandozeile gesteuert werden, gelingt STATA der Spagat zwischen beiden Ansätzen. Es steht sowohl ein intuitiv zu bedienendes Menü zur Verfügung als auch eine eigene Skriptsprache, mit deren Hilfe eigene statistische Verfahren programmiert und Auswertungen automatisiert werden können. Insbesondere für Statistik-Einsteiger bietet dieses zweigleisige Bedienkonzept Vorteile, da über das Menü alle gängigen statistischen Verfahren anwendbar sind. Für fortgeschrittene Anwendungen und mit steigender Erfahrung des Anwenders ist eine brauchbare Skriptsprache jedoch unerlässlich.

Im folgenden wird STATA hinsichtlich des im ersten Teil der Artikelserie vorgestellten Kriterienkatalogs genauer untersucht:

Methoden: Statistik vs. Machine Learning

STATA bietet einen umfassenden Katalog an statistischen Methoden. Sowohl für deskriptive und grafische Auswertungen als auch für fortgeschrittene Analyseverfahren bietet STATA alle gängigen bzw. etablierten statistischen Verfahren. Angefangen bei explorativer Datenanalyse bis zu gemischten Modellen im Kontext von Paneldaten sind hier kaum Grenzen gesetzt. Es ist aber sicherlich zulässig zu sagen, dass STATA überwiegend in der Wirtschaftswissenschaft beliebt ist. Daher ist STATA besonders auf die Anwendung statistischer Verfahren in der Ökonometrie ausgelegt und bietet in diesem Bereich auch Vorteile gegenüber R und SPSS. Es stehen viele speziellere statistische Verfahren, die gerade in der Ökonometrie Anwendung finden, zur Verfügung. STATA, welches sich selbst als Statistikprogramm beschreibt, weist nur eingeschränkt Machine Learning-Funktionalitäten auf.

Bedienkonzept

STATA bietet sowohl eine brauchbare "Klick-Oberfläche" als auch eine eigene Skriptsprache. Viele erfahrenere Anwender verlassen sich eher auf die Eingabe von Befehlen als auf die Menüführung. Grundsätzlich bietet aber jedes Menü auch immer die Möglichkeit, die hinterlegten Befehle in der Konsole auszugeben, um diese für die Protokollierung abzuspeichern. Die Skript-Sprache wird oft verwendet, um die eigene Arbeit zu protokollieren und Auswertungen reproduzierbar zu machen.

Nutzungsintensität und -frequenz

Primär wird STATA auf Kommandozeilenebene bedient, die Befehlsstruktur ist dabei einfach und einheitlich gestaltet. Konsistenz in der Sprache ist einer der wesentlichen Vorteile gegenüber anderen Statistik-Programmen. Trotzdem sollten einige Tage für die Einarbeitung eingeplant werden. Die "Klick-Oberfläche" schafft hier einen gewissen Ausgleich, da statistische Methoden sowie Grafiken über die Menüs zu erreichen sind. Im Gegensatz zu anderer Statistik-Software kann daher oft schon einmal gerechnet werden, bevor der Griff zum Handbuch für die Verwendung der fortgeschrittenen Optionen notwendig wird.

Automatisierbarkeit

STATA bietet über die Skript-Sprache die Möglichkeit, eigene Funktionen zu definieren. Damit können häufig wiederkehrende Aufgaben zusammengefasst werden. Die wohl am häufigsten verwendete Form der Automatisierung ist das Verfassen von sogenannten Do-Files, die aus STATA heraus ausgeführt werden können. Do-Files beinhalten Befehle und Kommandos, die nacheinander ausgeführt werden. Vom Einlesen von Daten und deren Aufbereitung über Auswertungen bis hin zum Abspeichern von Ergebnissen in Text-Dateien kann hier jede beliebige Aufgabe automatisiert werden.

Umfang der zu analysierenden Daten

STATA wird in verschiedenen Versionen vertrieben. Der wesentliche Unterschied zwischen der kostengünstigeren Version STATA/IC und STATA/SE/MP ist, dass in den Versionen SE und MP Beschränkungen bezüglich der Datenmenge nur durch die Hardware entstehen. Wie die meisten Statistik-Programme (eine der wenigen Ausnahmen bildet SAS) kann STATA nur Daten auswerten, die auch in den Arbeitsspeicher passen. Sollte dies zu einem Problem werden, so sind Datenbanksysteme als Datenquelle zu empfehlen. Zu den gängigen Datenbanken bietet STATA eine Schnittstelle.

Sicherung der Datenqualität

Ausschlaggebend für die Sicherung der Datenqualität sind oft einfache deskriptive Analysen, mit denen offensichtlich fehlerhafte oder auffällige Datenpunkte identifiziert werden können. Dazu gehören Minima und Maxima oder auch grafische Verfahren wie Boxplots und Streudiagramme. Diese Anforderungen erfüllt STATA selbstverständlich. Andere Statistikprogramme bieten allerdings z.B. die Möglichkeit, direkt in Grafiken die Zeilennummern von auffälligen Datenpunkten anzugeben. Dies ist so in STATA nicht vorgesehen. Ansonsten gehören (gegenüber Ausreißern) robuste Analyseverfahren bis zu einem gewissen Grad zum Standardrepertoire moderner Statistiksoftware und sind entsprechend auch in STATA implementiert. Ein Aspekt, mit dem sich STATA in diesem Zusammenhang gegenüber anderer Software absetzt, ist die Verfügbarkeit von Diagnose-Grafiken statistischer Verfahren. So bietet STATA diverse Residuenplots zur Validierung statistischer Verfahren an, die sich zudem auch gut zur Diagnose von Ausreißern eignen.

Installationsszenario

STATA wird für die gängigen Betriebssysteme angeboten. Unterstützt werden Windows (ab XP), Mac OS X (ab Version 10.6.8) sowie Linux, jeweils als 32 und 64 Bit-Plattform.

Performance

Für hohe Anforderungen an die Performance bietet STATA eine eigene MP-Version, die sich durch die Nutzung mehrerer Pozessoren auszeichnet. Die Nutzung mehrerer Kerne ist in der Standardversion nicht möglich, so dass immer nur ein Prozessor(-kern) verwendet wird, selbst wenn mehrere zur Verfügung stehen. Der Geschwindigkeitsvorteil hängt dabei stark von den Anwendungen ab. Laut dem Handbuch von STATA MP liegt der mittlere zu erwartende Geschwindigkeitsvorteil mit 2 Prozessoren bzw. Kernen bei einem Faktor von ca. 1,7. Gegenüber anderen Sofwarepaketen - wie R - schneidet bereits die Standardversion von STATA hinsichtlich der Performance in vielen Vergleichen besser ab. Für Standardanwendungen im wirtschafts- und sozialwissenschaftlichen Kontext spielen diese Performanceunterschiede jedoch nur eine untergeordnete Rolle.

Rechteverwaltung

STATA bietet keine gesonderte Möglichkeit zur Rechteverwaltung. Werden Schnittstellen zu Datenbanksystemen verwendet, können darüber Zugriffsrechte auf Ebene der Daten vergeben und bis zum Import der Daten in STATA durchgesetzt werden.

Lizenzmodell

STATA bietet eine Vielzahl von Lizenzmodellen an. Dabei wird grob zwischen Unternehmen, Forschung/Lehre und öffentlichen Einrichtungen unterschieden. Zudem kann STATA als Einzellizenz oder im Bündel erworben werden. Bereits bei der Abnahme von 3 oder mehr Lizenzen werden z.T. erhebliche Mengenrabatte eingeräumt. Der letzte Faktor, der den Preis beeinflusst, ist die Version. Dabei stehen die Versionen IC, SE und MP zur Auswahl. Die vollwertige STATA Version ist STATA/SE - hier gibt es keine Einschränkung in der Nutzung. Die Version STATA/IC ist eine kostengünstigere Version mit einigen Einschränkungen. Die wesentlichste ist, dass ein Datensatz nur über eine bestimmte Anzahl von Variablen (Spalten) und Beobachtungen (Zeilen) verfügen darf. Zudem wird der verfügbare Arbeitsspeicher künstlich limitiert. Die Version STATA/MP ist darauf ausgelegt, mehr als einen Prozessor zu verwenden, wobei auch hierbei verschiedene Varianten zur Verfügung stehen, von 2 bis 64 Kernen. Dabei muss für die Menge der Prozessoren entsprechend mehr bezahlt werden. Eine Einzelnutzungslizenz für Unternehmen von STATA/SE wird derzeit zum Listenpreis von 1695 $ angeboten, die gleiche Lizenz für Studenten ist für ungefähr die Hälfte zu haben.

Integration mit anderen Anwendungen

STATA bietet die Möglichkeit, verschiedene Datenquellen für den Import und Export von Daten zu nutzen. Gängige Datenquellen wie Kommagetrennte Datensätze, Excel-Dateien oder ODBC-Verbindungen stellen dabei kein Problem dar. Auch können Ergebnisse direkt in Word-Dateien exportiert werden oder als Latex-Datei (.tex) gespeichert werden. Grafiken können in verschiedenen Bildformaten exportiert werden und lassen sich so in anderen Anwendungen weiterverarbeiten. Speziell, was die unmittelbare Integration von Drittanwendungen - wie z.B. Hadoop - angeht, ist STATA jedoch weniger flexibel als z.B. R.

Branchenspezifische Anforderungen

Wie bereits oben erwähnt, hat STATA insbesondere in den Wirtschafts- und Sozialwissenschaften Verbreitung gefunden. Insofern reagiert STATA auch auf dort gängige Trends in den Forschungsmethoden. Verwandte Branchen wie Banken, Versicherungen und auch die amtliche Statistik sind neben der Wissenschaft die Zielgruppe dieses Programms.

Akzeptanz

STATA wird vorwiegend in den Wirtschafts- und Sozialwissenschaften verwendet. Die Software gilt als zuverlässig und ist seit Jahren als solche etabliert. In diversen Forschungsinstituten wird STATA als Standardsoftware für Wirtschaftsprognosen oder beispielsweise auch bei der Berechnung von Armutsindizes verwendet. In der Privatwirtschaft, z.B. im Marketing, ist STATA hingegen kaum verbreitet.

Support

STATA bietet Support auf verschiedenen Ebenen. Zum einen gibt es eine umfangreiche Dokumentation zu allen Prozeduren und statistischen Verfahren in STATA. Diese werden typischerweise mit Anwendungsbeispielen und Literaturempfehlungen erweitert und sind in der Auslieferung von STATA als PDF-Dokumente enthalten oder können als gedruckte Version gekauft werden. Zudem bietet STATA selbst mehrere Tutorials und Einführungsvideos in diversen Themenbereichen an. Vergleichbares Material ist aber auch frei im Netz verfügbar. Bei technischen Problemen gibt es die Möglichkeit, Mitarbeiter von STATA per E-Mail oder Telefon zu kontaktieren. STATA gibt sich zudem viel Mühe, die eigene Community zu unterstützen - mit einigem Erfolg. Es gibt mehrere Mailinglisten, die genutzt werden können, um Fragen zu stellen, und eine eigene STATA-Konferenz, die Nutzer der Software und Entwickler des Unternehmens zusammenbringt.

Angebot an Schulungen

Schulungen werden in Deutschland überwiegend an Universitäten angeboten und sind oft nicht ohne weiteres für Mitarbeiter von Unternehmen zugänglich. Eine realistische Preisvorstellung auf dem freien Markt liegt zwischen 700 und 1200 € pro Person und Tag. Zusätzlich bietet auch STATA selbst in verschiedenen Formaten (auch online) Schulungen an.

Vorhandene Qualifikation der Mitarbeiter

In den Wirtschafts- und Sozialwissenschaften ist STATA nach wie vor an vielen Hochschulen eine beliebte Software, die auch in der Lehre eingesetzt wird. So haben die meisten Absolventen der Wirtschaftswissenschaft mit quantitativer Ausrichtung auch Kontakt mit STATA gehabt. Wie in vielen Bereichen wird allerdings zunehmend auch in den Wirtschaftswissenschaft R verwendet. Hierbei ist zumindest langfristig schwierig einzuschätzen, inwieweit STATA seine Position erhalten kann.

Stabilität/Innovativität

Bis ein neues statistisches Verfahren in STATA übernommen wird, vergeht typischerweise etwas Zeit. Der Release-Zyklus beträgt 3 Jahre, allerdings baut STATA kontinuierlich den Funktionsumfang aus. Der vergleichsweise lange Release-Zyklus ist mit verantwortlich für die Qualität der Software. Fehler und Bugs sind zwar nie ganz ausgeschlossen, STATA konnte sich aber das Image einer stabilen und zuverlässigen Software erarbeiten. Gerade gegenüber R und SPSS stellt dieses ein anderes Paradigma im Umgang mit der Einführung neuer Verfahren dar. Die Skript-Sprache und alte Befehle ändern sich typischerweise nur sehr wenig. Zusätzlich gewährleistet STATA eine gewisse Rückwärtskompatibilität, indem es die Möglichkeit gibt, zu Beginn eines Skriptes die Versionsnummer von STATA anzugeben, deren Funktionsumfang STATA dann bei der Ausführung des Skripts zu emulieren versucht. Auf diesem Wege bleiben auch ältere Skripte - ohne Änderungen - mit neueren Versionen der Software lauffähig, selbst wenn sich an der Syntax der relevanten Befehle Änderungen ergeben haben.

Die wesentlichen Vorteile von STATA gegenüber anderen Lösungen sind zum einen die Bedienbarkeit und zum anderen der vergleichsweise geringe Preis. Sowohl für Statistik-Neulinge als auch für erfahrene Analytiker bietet STATA die passende Arbeitsumgebung: für den Einstieg ein Menü, zur Reproduzierbarkeit und für fortgeschrittene Aufgaben eine Skriptsprache. In dieser Form hebt sich STATA klar von den Konkurrenten ab. In Bezug auf Einzel- und Gruppenlizenzen ist STATA im Vergleich zu SAS und SPSS günstig (siehe hierzu die Lizenzmodelle von SAS und SPSS). Zudem ist die Preispolitik transparent, da Mengenrabatte in den Listenpreisen ausgewiesen werden und so keine große Lücke zu den Straßenpreisen klafft.

Günstig, einfach zu bedienen und flexibel... Speziell im direkten Vergleich zu SPSS kann STATA in vielen Bereichen punkten - trotzdem konnte STATA dem Konkurrenten außerhalb der Wirtschaftswissenschaft überraschenderweise kaum Marktanteile abnehmen. Abstriche muss der STATA-Nutzer hingegen beim Umfang der Methoden im Vergleich zu den Umgebungen R, Python und SAS hinnehmen. STATA bietet alle grundlegenden statistischen Verfahren und gerade im wirtschafts- und sozialwissenschaftlichen Kontext wird man in der alltäglichen Arbeit wenig bis nichts vermissen. Mit dem Update von 2015 sind nun auch Methoden der bayesianischen Statistik verfügbar. Im Bereich Machine Learning wird eine Grundausstattung geboten, die allerdings nicht mit der von R oder Python mithalten kann. Im Gegensatz zu den Konkurrenten steht bei STATA eher Stabilität im Mittelpunkt, als die neuesten Methoden schnellstmöglich aufzunehmen.

Zurück