Blog
  • INWT
  • Blog
  • Der Mercedes unter den Statistik-Programmen: SAS

Der Mercedes unter den Statistik-Programmen: SAS

24.04.2018 10:00
von Marcus Groß

SAS ist eine kommerzielle Statistik-Software, die vom amerikanischen Unternehmen SAS Institute entwickelt wird. Neben statistischen Analysen bietet die Software von SAS Institute für den Anwender unter anderem auch Business Intelligence (BI), Data Mining, Risikomanagement und Unternehmenssteuerung. Durch diese vielfältigen Erweiterungsmöglichkeiten – insbesondere hinsichtlich des Datenmanagements – ist SAS als All-in-one-Lösung bei Großunternehmen sehr beliebt.

Im folgenden wird SAS hinsichtlich des im ersten Teil der Artikelserie vorgestellten Kriterienkatalogs genauer untersucht:

Methoden: Statistik vs. Machine Learning

Praktisch alle gängigen statistischen Methoden sind in SAS verfügbar. Generell sind die Funktionen sehr ausgereift, stabil und performant. Hervorstechend gegenüber anderen Statistik-Programmen ist die außerordentlich gute Dokumentation. Alle Optionen der statistischen Prozeduren sind bis in das kleinste Detail erklärt, unterstützt durch eine große Anzahl von ausführlichen Beispielen. SAS bietet in Bezug auf Machine Learning die gängigsten Verfahren. Allerdings arbeitet die Machine Learning-Community größtenteils mit Python und R. SAS nimmt diesbezüglich keinen all zu großen Stellenwert ein. Das mag unter anderem daran liegen, dass Machine Learning-Funktionalitäten zusätzlich gekauft werden müssen.

Bedienkonzept

Grundsätzlich erfolgt die Bedienung über ein Eingabeskript, den sogenannten Programm-Editor. Dazu stehen ein Log-Fenster, welches den Programmcode noch einmal wiederholt und Warnungen bzw. Fehler anzeigt, sowie ein Output-Fenster mit den Ergebnissen zur Verfügung. Der Editor bietet nützliche Funktionen wie Syntax-Highlighting, insgesamt wirkt die Programmoberfläche jedoch leicht veraltet. Anfänglich etwas verwirrend für Anwender ist die Eigenheit, dass für verschiedene Aufgaben unterschiedliche Sprachen mit leicht variierender Syntax existieren. In den meisten Fällen reicht die Standard-SAS-Sprache („SAS-Language“) aus, jedoch kann man bei der Implementierung eigener Methoden auf die mächtige Interactive Matrix Language (IML) zurückgreifen, während für automatisierte Funktionen die SAS-Makrosprache vorhanden ist. Optional steht mit dem SAS Enterprise Guide auch ein einfach zu bedienendes Point-and-click-Interface zur Verfügung. Außerdem existiert mit SAS JMP® eine interaktive und einfach zu bedienende Software zur Datenanalyse, die eng mit der eigentlichen SAS-Software verknüpft ist.

Nutzungsintensität und -frequenz

SAS benötigt aufgrund des großen Funktionsumfangs und des leicht gewöhnungsbedürftigen Bedienkonzepts einige Tage Einarbeitungszeit. Um die Möglichkeiten von SAS voll auszunutzen, bedarf es noch einer deutlich tieferen Einarbeitung, jedoch steht dem Nutzer dann auch eine Software-Umgebung zur Verfügung, mit der alle Teilschritte einer statistischen Analyse umsetzbar sind. Eine sehr ausführliche Dokumentation mit vielen Praxisbeispielen unterstützt die Einarbeitung in SAS.

Automatisierbarkeit

Die SAS-Software erlaubt die umfassende Automatisierung von wiederkehrenden Analyseroutinen. Über die SAS-Makrosprache lassen sich wiederkehrende Daten-Management-Aufgaben und Analyseschritte zu flexiblen Funktionen zusammenfassen. Zusammen mit dem Output Delivery System (ODS) lassen sich so völlig von selbst ablaufende Skripte erstellen, welche aus einer gegebenen Datenquelle optisch ansprechende Reports genieren.

Umfang der zu analysierenden Daten

Die Verarbeitung von extrem großen Datensätzen ist eine Spezialität von SAS. Auch die Analyse von Datenmengen, die nicht in den Arbeitsspeicher passen, ist durch das effiziente Datenmanagement, welches die Auslagerung auf die Festplatte erlaubt, problemlos möglich. Die enorme Skalierbarkeit und Stabilität gewährleisten die Verarbeitung ständig wachsender Datenmengen („Big Data“). In diesem Punkt ist SAS anderen Statistik-Programmen überlegen.

Sicherung der Datenqualität

SAS bietet viele gängige robuste Verfahren für kontaminierte bzw. ausreißerbehaftete Daten oder für Stichproben mit unbekannten Verteilungen. Beispielsweise bietet die Prozedur ROBUSTREG umfangreiche Optionen für Ausreißer-robuste Regressionsanalyse. Ebenso bieten viele Standardprozeduren (z.B. PROC GLM für generalisierte lineare Modelle) die Option von robusten Standardfehlern. Andere robuste Verfahren sind über die Makro-Programme verfügbar.

Installationsszenario

Die Client-Software erfordert eine Windows-Version ab XP aufwärts. Mit der neuesten Version 9.4 werden allerdings nur noch 64 Bit-Versionen von Windows 7/8/10 unterstützt. Für die Host/Server-Versionen werden daneben noch verschiedene Unix-sowie Linux-Versionen unterstützt. Mac OS X wird nicht unterstützt.

Performance

SAS ist im Allgemeinen recht performant (vergleichbar etwa mit R) und kann auch mit großen Datensätzen in angemessener Geschwindigkeit umgehen. Falls eine Analyse geschwindigkeitskritisch ist, können Funktionen auch in C geschrieben und über SAS aufrufen werden.

Rechteverwaltung

In SAS Analytics gibt es keine speziellen Mechanismen zur Steuerung des Zugriffs. Wie bei anderen Statistik-Programmen greifen aber bei der Bereitstellung von Daten über einen SQL-Server die dort verankerten Zugriffsbeschränkungen.

Lizenzmodell

Ein dauerhaftes Nutzungsrecht für die SAS-Software ist für kleinere Endnutzer nicht vorgesehen. Stattdessen gibt es eine Lizenz für etwa 7.500 €, die eine einjährige Nutzungsberechtigung beinhaltet. Für größere Kunden wird in der Regel ein individuelles Angebot erstellt, wobei für den Bildungssektor und den öffentlichen Dienst spezielle Konditionen angeboten werden.

Integration mit anderen Anwendungen

Zu fast allen Datenquellen sieht SAS Importmöglichkeiten vor, u.a Excel, Access, SPSS, SQL (nativ oder über eine ODBC-Schnittstelle). Neben C-Code kann SAS seit einiger Zeit außerdem innerhalb von PROC IML R-Programme aufrufen, so dass die volle Funktionalität von R auch für SAS verfügbar ist. Über das Output Delivery System (ODS) können Ergebnisse direkt in alle gängigen Dokument- und Präsentationsformate wie PDF, HTML, Excel oder Powerpoint ausgegeben werden. Das System bietet sehr umfangreiche Formatierungsoptionen und ist hervorragend dazu geeignet, auch automatisiert Reports zu erstellen.

Branchenspezifische Anforderungen

Begünstigt durch die Zuverlässigkeit und den guten Support wird SAS als das Standardprogramm für die Datenanalyse und das Reporting in der Pharmaindustrie und der klinischen Forschung angesehen. Viele relevante SAS-Makros sind bereits für klinische Studien validiert.

Akzeptanz

Besonders in großen Unternehmen und im Biostatistik-Bereich ist SAS als Auswertungsprogramm etabliert und hoch angesehen.

Support

SAS bietet einen umfassenden Support sowohl über die sogenannte Knowledge Base, welche zu vielen Problemen und Fragestellungen Hilfen und Beispiele liefert, als auch über die SAS Community Foren und diverse Blogs und Newsletter. Dazu können Anwender sich auch direkt an den technischen Support von SAS wenden, bei dem sich ein persönlicher Berater zeitnah der Probleme annimmt.

Angebot an Schulungen

SAS bietet selbst eine große Anzahl professioneller Schulungen an (auf Wunsch auch maßgeschneidert), jedoch zu recht hohen Preisen. Neben anderen kommerziellen Drittanbietern werden im universitären Bereich auch Kurse angeboten, u.a. von der Freien Universität Berlin oder der Universität Heidelberg.

Vorhandene Qualifikation der Mitarbeiter

In der universitären Ausbildung ist die Verwendung von SAS derzeit eher rückläufig. Verstärkt kommt SAS aber immer noch im medizinischen Bereich zur Verwendung, da sich SAS in der klinischen Forschung zum Quasi-Standard entwickelt hat. Die relativ aufwändige Einarbeitung in SAS verkürzt sich i.d.R. deutlich, wenn Erfahrungen im Umgang mit anderen Statistik-Programmen (wie R) vorhanden sind.

Stabilität/Innovativität

SAS wird konsequent weiterentwickelt, allerdings wird Innovativität zugunsten der Stabilität etwas zurückgestellt. Über viele Jahre hinweg hat sich SAS in seinen Grundzügen und der Bedienbarkeit kaum verändert, so dass neue Versionen praktisch keine Einarbeitungszeit benötigen. Alle Routinen sind dadurch äußerst verlässlich und hinsichtlich der Stabilität unübertroffen. Nachteilig daran ist das veraltete und nicht besonders benutzerfreundliche Bedien-Interface sowie die leicht verzögerte Integration neuester statistischer Methoden.

Insgesamt eignet sich SAS vor allem für Großunternehmen und im Pharmabereich sehr gut, wo es auf validierte und stabile statistische Methoden und Routinen ankommt. Für dieses Umfeld typische wiederkehrende Aufgaben lassen sich mit überschaubarem Aufwand automatisieren, wodurch sich eine große Arbeits- und Zeitersparnis erreichen lässt. Ein weiteres Anwendungfeld ist der Umgang mit extrem großen Datenmengen. Positiv hervorzuheben ist außerdem der qualitativ sehr gute Support. Nachteilig sind dagegen vor allem die hohen Kosten und die komplexe Einarbeitung bzw. die etwas uneinheitliche Bedienung. Wenn es - wie z.B. in der universitären Forschung - darauf ankommt, dass die neuesten statistischen Methoden zeitnah zur Verfügung stehen, ist SAS nur bedingt geeignet.

Zurück