R Basics

R Basics

Erfassen Sie die wesentlichen Grundlagen von Data Science in unserem zweitägigen Training und legen Sie so das Fundament für den Bereich Hacking Skills. In unserer praxisorientierten Einführung in die Statistikumgebung R stehen die Themen Datenimport und -export, Prüfung und Sicherung der Datenqualität sowie Datenmanagement im Mittelpunkt.

Data Science Venn Diagramm by Drew Conway from http://drewconway.com/the-lab/

Einführung in R: Zunächst informieren wir Sie ausführlich über die Statistikumgebung R, von der Installation bis hin zum Support, damit Sie später selbstständig mit R arbeiten, Probleme lösen oder Hilfe anfordern können. Anschließend erlernen Sie Schritt für Schritt die Grundbausteine dieser Programmiersprache. Durch Beispiele und Übungsaufgaben sind Sie von Anfang an dazu eingeladen, selbst Code auszuführen und zu schreiben.

Import und Export von Daten: Vor der eigentlichen Analyse steht der Datenimport. Der Fall, dass die Daten dabei im bevorzugten Format in einer Datei auf dem lokalen Computer liegen, bildet dabei eher die Ausnahme. Ob direkt aus einer Datenbank oder aus dem Internet, ob .csv, .xls oder .sav File, wir bereiten Sie auf alle Eventualitäten vor.

Tidy Data: Im Informationszeitalter spielt Datenqualität eine große Rolle für den ökonomischen Erfolg eines Unternehmens. Inkorrekte Daten oder fehlende Werte können zu fehlerhaften Informationen und somit zu ineffizienten oder falschen Entscheidungen führen. Die Qualität einer statistischen Datenanalyse ist direkt abhängig von der Qualität der zugrunde liegenden Daten (garbage in – garbage out Prinzip). In diesem Modul geben wir Ihnen Hilfestellung zu den Themen Sammeln, Bereinigen und Handling von Daten.

Datenmanagement: Eine Alternative zum Datenmanagement mit R base bietet das Paket dplyr, welches besonders hilfreich im Umgang mit großen Datensätzen ist. Das Konzept hinter diesem Paket lautet: "Instead of moving the data to where the computation is, you want to send the computation to where the data is" (Hadley Wickham). Einer der vielen Vorteile von dplyr sind damit um ein Vielfaches schnellere Berechnungen und Datenmanipulationen in R.

Kenntnisse: Das Modul R Basics setzt keine Vorkenntnisse der Teilnehmer voraus.

Hard- und Software: Benötigt wird ein Laptop mit der aktuellen Version von R und RStudio. Die Statistikumgebung R kann auf der Seite des Comprehensive R Archive Network heruntergeladen werden. Die kostenfreie Desktopversion von RStudio können Sie auf der Webseite von RStudio downloaden.

Dr. Amit Ghosh

Amit ist seit 13 Jahren als Consultant mit Schwerpunkt Data & Analytics tätig. Nach seiner Promotion zum Thema „Robuste Statistik“ übernahm er Aufbau und Leitung der Statistischen Beratungseinheit an der Freien Universität Berlin. Amit ist Mitgründer und Geschäftsführer von INWT.

Dr. Sebastian Warnholz

Sebastian unterstützt den Themenbereich Predicitve Analytics und besetzt die Schnittstelle zwischen Softwareentwicklung und Data Science. Der promovierte Statistiker ist als Consultant und Trainer bei INWT tätig und bringt langjährige Erfahrung aus der Statistikberatung und Lehre mit.