Statistik mit R

Statistik mit R

Lernen Sie in unserem zweitägigen Training wichtige Grundlagen der deskriptiven Statistik und die Umsetzung mit der Statistikumgebung R. Mit unserem praxisnahen Konzept führen wir Sie in explorative Datenanalyse, Inferenzstatistik und Regression ein.

Data Science Venn Diagramm by Drew Conway from http://drewconway.com/the-lab/

Explorative Datenanalyse: "Each and every investigation should start with an explorative data analysis" (Tukey 1977). Oft wird dieser entscheidende Schritt bei der Arbeit mit Daten übergangen. Dabei ist es wichtig, ein „Gefühl“ für die Daten zu bekommen und vor allem auch mögliche Kodierungs- und Messfehler sowie Annahmen (z.B. auf Normalverteilung) zu prüfen. Neben einer Einführung in die deskriptive Statistik lernen Sie, wie man professionelle Grafiken mit dem Paket ggplot2 erstellt und erhalten Tipps zur Präsentation der Ergebnisse.

Inferenzstatistik: Auch in Zeiten von Big Data basieren die meisten Analysen auf Stichproben. Die Aussagen der Analyse sollen jedoch verallgemeinerbar sein (also für die sog. Grundgesamtheit gelten). Die Schließende Statistik beschäftigt sich exakt mit dieser Problemstellung. Wir vermitteln Ihnen die theoretischen Konzepte u.a. von Konfidenzintervallen, Hypothesen- und Signifikanztests und wie man diese in R praktisch umsetzt.

Regression: Ein sehr wichtiges Gebiet von Data Science ist Prediction, den Einstieg in dieses Thema bildet die Regression. Diese vielseitig einsetzbar Modellklasse nutzt Informationen verschiedener Metriken (sog. unabhängige oder erklärende Variablen), um den Wert einer interessierenden Metrik vorherzusagen (sog. abhängige Variable). Wenn Sie schon einmal in das spannende Thema Regression reinschnuppern möchten, schauen Sie doch unseren Blogartikel zur einfachen linearen Regression an.

Kenntnisse: Das Modul Statistik mit R setzt grundlegende Kenntnisse in R voraus, vergleichbar mit den Inhalten aus dem Modul R Basics: Objektklassen und ihre Eigenschaften, grundlegende Operationen, Datenimport und Datenmanagement mit dem Paket dplyr. Fundamentale Statistik-Kenntnisse sind von Vorteil, die vorgestellten Methoden werden aber noch einmal von Grund auf erläutert.

Hard- und Software: Benötigt wird ein Laptop mit der aktuellen Version von R und RStudio. Die Statistikumgebung R kann auf der Seite des Comprehensive R Archive Network heruntergeladen werden. Die kostenfreie Desktopversion von RStudio können Sie auf der Webseite von RStudio downloaden.

Marina Runge

Marina sammelte während ihres Mathematik- und Statistikstudiums Erfahrungen in der Statistikberatung und Lehre. Seit 2014 ist sie bei INWT im Bereich Data Science tätig. Marinas Arbeitsschwerpunkt liegt in den Themenkomplexen Predictive Analytics, Online Marketing und Training.



Verena Pflieger

Data & Analytics gehörten schon neben dem Studium der Politik- und Verwaltungswissenschaften und dem Statistik-Studium zu Verenas Kompetenzen. Seit ihrem Abschluss 2014 setzt Verena ihre Erfahrung und ihr Wissen in den Bereichen Training und Data Science bei INWT um. Verena ist interne Datenschutzbeauftragte bei INWT.