Statistik

Statistik

Wir bieten eine Vielzahl verschiedener Einzelmodule an, die sich flexibel kombinieren lassen. Wir unterstützen Sie gerne dabei, Ihr individuelles Training zusammenzustellen.

Weil R speziell für statistische Anwendungen entwickelt wurde, haben wir eine ganze Kategorie mit Modulen zu statistischen Analysen mit R. Modul 2.1 gibt eine allgemeine Einführung in die Inferenzstatistik, während die übrigen Module jeweils die Anwendung verschiedener statistischer Methoden in R behandeln.

Modul 2.1 Einführung in die Inferenzstatistik

Voraussetzungen: Keine

In der Inferenzstatistik werden Daten aus einer Stichprobe verwendet, um Rückschlüsse auf die Grundgesamtheit zu ziehen. In diesem Modul legen wir die Grundlage für statistisches Testen und behandeln Hypothesentests, Signifikanzniveaus, Regeln für die Konstruktion von Konfidenzintervallen und schließlich die Interpretation von Testergebnissen. Am Ende dieses Moduls werden Sie mit Begriffen wie dem \( \alpha \)-Fehler, p-Wert, Population, Stichprobe und Nullhypothese vertraut sein.

Dauer: ca. 3 Stunde

Modul 2.2 Gängige statistische Tests

Voraussetzungen: Inferenzstatistik (Modul 2.1 oder vergleichbare Fähigkeiten)

Die Wahl eines geeigneten Tests hängt im Wesentlichen von der Fragestellung, der Stichprobenanzahl und deren Beziehung zueinander sowie weiteren Verteilungsannahmen ab. Wir stellen die gängigsten Tests vor und wie diese in R berechnet werden. Dazu gehören beispielsweise der Einstichproben-t-Test (und sein nichtparametrisches Gegenstück), der Zweistichproben-t-Test, der Chi-Quadrat-Test und die ANOVA für Mehrfachstichproben.

Dauer: ca. 3 Stunden

Modul 2.3 Lineare Regression

Voraussetzungen: Einführung in R (Modul 1.1 oder vergleichbare Fähigkeiten), Inferenzstatistik (Modul 2.1 oder vergleichbare Fähigkeiten); Erfahrung mit ggplot2 (Modul 4.1) ist von Vorteil

Die lineare Regression verwendet Informationen über verschiedene Variablen, um das Ergebnis einer anderen Variablen vorherzusagen. Wir zeigen Ihnen, wie Sie eine lineare Regression in R durchführen, die Ergebnisse interpretieren und damit Vorhersagen treffen können. Dieses Modul behandelt auch mögliche Herausforderungen, die bei der linearen Regression auftreten können, und zeigt, wie man damit umgeht: beispielsweise Extrapolation (außerhalb des Wertebereichs der Daten), Kontrolle von Drittvariablen, Overfitting, Dummy-Variablen, Anpassungsgüte und Modellvergleich.

Dauer: ca. 3,5 Stunden

Modul 2.4 Logistische Regression

Voraussetzungen: Einführung in R (Modul 1.1 oder vergleichbare Fähigkeiten), Inferenzstatistik (Modul 2.1 oder vergleichbare Fähigkeiten), Lineare Regression (Modul 2.3 oder vergleichbare Fähigkeiten)

Während sich die einfache lineare Regression perfekt für die Vorhersage kontinuierlicher Variablen eignet, ist sie für binäre Variablen wie "0/1" oder "ja/nein" ungeeignet. In diesem Modul vermitteln wir Ihnen, wie man eine logistische Regression in R berechnet und die Ergebnisse interpretiert.

Dauer: ca. 2,5 Stunden

Modul 2.5 Overfitting, Out-of-sample Fit und Modellvergleich

Voraussetzungen: Einführung in R (Modul 1.1 oder vergleichbare Fähigkeiten), Inferenzstatistik (Modul 2.1 oder vergleichbare Fähigkeiten), Lineare Regression (Modul 2.3)

Wenn ein statistisches Modell zu flexibel ist, kann es bei der Anwendung auf neue Daten deutlich schlechter abschneiden als auf den Daten, die zur Eichung des Modells verwendet wurden. Diese unangenehme Überraschung wird als "Overfitting" bezeichnet. In diesem Modul beschäftigen wir uns mit Methoden zur Identifikation von Overfitting, Strategien zu seiner Vermeidung, Tests zur Prüfung der Modellqualität auf neuen Daten und dem Vergleich mehrerer Modelle.

Dauer: ca. 2 Stunden

Modul 2.6 Clusteranalyse

Voraussetzungen: Einführung in R (Modul 1.1 oder vergleichbare Fähigkeiten)

Die Clusteranalyse strukturiert Daten (z.B. Kunden eines Unternehmens) in Gruppen. Dabei sind einige Entscheidungen zu treffen, wie beispielsweise die Wahl eines geeigneten Distanzmaßes oder des Cluster-Algorithmus. In diesem Modul decken wir hierarchische, partitionierende und modellbasierte Clusterverfahren ab und erklären, wie man die geeignete Methode für die vorhandenen Daten und die Fragestellung auswählt.

Dauer: ca. 3 Stunden

Modul 2.7 Dimensionsreduktion: Faktorenanalyse und Hauptkomponentenanalyse

Voraussetzungen: Einführung in R (Modul 1.1 oder vergleichbare Fähigkeiten)

Faktorenanalyse und Hauptkomponentenanalyse sind zwei sehr verbreitete Methoden zur Dimensionsreduktion, also um eine große Menge von Variablen auf eine überschaubare Anzahl zu reduzieren. Wir erklären die zugrunde liegende Theorie und wenden beide Methoden auf Beispieldaten an. Da die beiden Methoden häufig verwechselt werden, erklären wir die Unterschiede und gehen darauf ein, wann welche Methode die richtige ist.

Dauer: ca. 2 Stunden

Modul 2.8 Fragebogen-Design und Skalengüte

Voraussetzungen: Einführung in R (Modul 1.1 oder vergleichbare Fähigkeiten)

Die Erstellung eines Fragebogens scheint einfach, aber trotzdem passieren schnell Fehler, die die gesammelten Daten unbrauchbar machen können. In diesem Modul geht es darum, vollständige, valide und unverzerrte Daten zu sammeln. Dazu gehören die drei wichtigen Konzepte Objektivität, Reliabilität und Validität. In diesem Zusammenhang behandeln wir auch Cronbachs \( \alpha \), ein Maß für die interne Konsistenz eines Fragebogens.

Dauer: ca. 1,5 Stunden