Blog
  • INWT
  • Blog: Data Science

Do 27 Okt 2022·von

Der Zweck unseres PACs ist es, eine Infrastruktur von Daten, Modellen, Prognosen und Berichten aufzubauen, die auf Grundlage einer standardisierten Bewertung einen schnellen Vergleich von Modellen hinsichtlich ihrer Vorhersagekraft ermöglicht.

Mi 26 Jan 2022·von

Dieser Artikel beschreibt, wie man Daten aus Python in eine Excel-Datei schreibt und formatiert. Durch die Automatisierung müssen der Inhalt und das Erscheinungsbild des Reports nur einmal programmiert werden; danach lässt sich der Report mit minimalem Aufwand immer wieder erstellen, zum Beispiel für Teildatensätze oder täglich geupdatete Daten.

Mi 15 Dez 2021·von

Softwareprojekte erfordern mittlerweile weitaus mehr als nur das Schreiben von Code. So erhöhen unter anderem unterschiedliche Programmiersprachen, Frameworks und Architekturen die Komplexität von Projekten. Docker stellt Anwendungen mit all ihren Abhängigkeiten als Pakete in sogenannten "Images" bereit und ermöglicht es so, Arbeitsabläufe zu vereinfachen. Dieser Artikel soll als Einführung in das Thema dienen und Ihnen einen Überblick über die grundlegenden Konzepte von Docker geben.

Do 18 Nov 2021·von

In diesem Teil zeigen wir wie Sie mit Pydantic eine einfache, aber flexible und leistungsstarke Methode zur Durchführung komplexer Pandas DataFrame Validierungen erstellen. Auf diese Weise können Unit-Tests für Funktionen, die DataFrames zurückgeben, reduziert und die Datenqualität innerhalb von Produktionspipelines trotzdem sichergestellt werden.

Mo 15 Nov 2021·von

Seit Januar 2021 veröffentlichten wir auf wer-gewinnt-die-wahl.de Prognosen zum Ausgang der Bundestagswahl 2021. Hierfür analysierten wir Wahlumfragen, Wahlergebnisse und Regierungskonstellationen der letzten 20 Jahre. Auch wenn die zukünftige Regierungskonstellation noch nicht endgültig klar ist, wollen wir ein vorläufiges Fazit ziehen und unsere Prognosen kritisch evaluieren.

Di 09 Nov 2021·von

In diesem Artikel diskutieren wir die Nachteile der dynamischen Typisierung in Python in Bezug auf Datenqualität und Code-Wartbarkeit. Es gibt eine Einführung in das Pydantic-Paket für Input-Validierung und wir zeigen, wie Decorators funktionieren.

Mo 04 Okt 2021·von

In unserem einführenden Artikel haben wir erläutert, wie Discrete-Choice-Modelle Einsichten in das Entscheidungsverhalten von Kund*innen generieren können. In diesem Artikel zeigen wir auf, wie man ein MNL-Modell mit Hilfe von RStan, dem R-Interface der Statistik-Software Stan, schätzen kann.

Do 05 Aug 2021·von

Dies ist der vierte und letzte Teil unserer Serie über Code-Performanz in R. Im ersten Part ging es darum, Code-Geschwindigkeit zu messen und herauszufinden, welcher Teil des Codes langsam ist. Der zweite Teil umfasste allgemeine Techniken zur Beschleunigung von R-Code. Im dritten Teil wurde beschrieben, wie man unter Linux, Mac und Windows R-Code parallelisiert. Dieser Teil widmet sich nun den Herausforderungen, die große Datensätze mit sich bringen

Mi 30 Jun 2021·von

Dies ist der dritte Teil unserer Serie über Code-Performanz in R. Im ersten Teil ging es darum, den langsamen Teil den Codes zu identifizieren und Code-Geschwindigkeit zu messen.
Der zweite Teil umfasste allgemeine Techniken zur Beschleunigung von R-Code. Dieser Teil widmet sich nun komplett der Parallelisierung in R.

Do 03 Jun 2021·von

Visualisierungen und Screenshots von Inhalten aktueller Projekte können in den sozialen Medien sehr effektiv und aufmerksamkeitsstark sein. Dieser Artikel zeigt, wie man einen Screenshot einer Website anfertigt und diesen auf Twitter über die Twitter-API veröffentlichen kann, um die Präsenz in sozialen Medien zu verbessern und automatisieren.

Mi 05 Mai 2021·von

Dies ist der zweite Teil unserer Serie über Code-Performanz in R. Hier behandeln wir verschiedene Ansätze, um R-Code zu beschleunigen. Zum einen ist dieses Wissen bereits nützlich, bevor man anfängt, neuen Code zu schreiben; zum anderen hilft es dabei, bestehenden Code zu beschleunigen.

Mo 26 Apr 2021·von

Angenommen wir haben Code geschrieben, er läuft durch und er berechnet genau das, was wir brauchen - aber er ist unglaublich langsam. Wenn wir nicht dauerhaft bei unserer Arbeit ausgebremst werden wollen, müssen wir unbedingt die Laufzeit des Codes zu verbessern. Am besten findet man erst einmal heraus, wo man mit der Optimierung ansetzen sollte.

Mo 29 Mär 2021·von

In diesem Artikel möchten wir auf Discrete-Choice-Modelle eingehen, die in der Marketing-Analyse und -Modellierung verwendet werden. Discrete-Choice-Modelle erlauben ein besseres Verständnis für das Entscheidungsverhalten von Kunden zu entwickeln. Dieses Verständnis kann u.a. dazu genutzt werden, präzise Vorhersagen zu Kaufentscheidungen zu treffen und zu evaluieren, wie Kunden Werbeangebote, Produktbotschaften oder Markenstrategien aufnehmen und neue Produkte oder verbesserte Produktfeatures einschätzen.

Mo 15 Mär 2021·von

In den Medien finden sich zahlreiche Darstellungen der Intensität und der räumlichen Verteilung von Corona-Neuinfektionen, die auf der Annahme einer einzigen Inzidenzzahl für das gesamte Kreisgebiet beruhen. Geht man einer glatten Verteilung derAnsteckungsrisiken über ganz Deutschland aus, so erhält man eine Kreis-unabhängige glatte Funktion, die die Anzahl der auftretenden Neuinfektionen an einem Ort beschreibt. Diese Darstellung erlaubt die Identifikation von lokalen Hotspots und ihrer zeitlichen Entwicklung und liefert damit wertvolle Hinweise zur Aufdeckung von Verbreitungsrisiken der Corona-Pandemie.

Fr 19 Feb 2021·von

Die Karte zeigt die lokale 7-Tage-Inzidenz der offiziell gemeldeten Covid-19 Infektionen in Deutschland im Zeitablauf. Das Projekt entstand aus einer Masterarbeit im Joint Master Studiengang Statistics in Kooperation mit der Freien Universität Berlin und INWT Statistics. Es kommt ein fortgeschrittener Algorithmus zum Einsatz, der landkreisübergreifende Muster in den Inzidenzen besser sichtbar macht und gegenüber einer Inzidenzangabe auf Landkreisebene eine höhere Genauigkeit ermöglicht.

Mi 13 Jan 2021·von

Die US-Präsidentschaftswahlen 2020 im vergangenen November waren das wichtigste politische Ereignis des letzten Jahres. Politikwissenschaftler und Data Scientists hatten die Gelegenheit, Prognosemodelle zu entwickeln, um das Verhalten der amerikanischen Wähler zu verstehen und vorherzusagen. Vergleicht man verschiedene Prognosemethodologien, gibt es 10 wichtige Dinge, die jeder Data Scientist beachten sollte.

Do 10 Dez 2020·von

Datengetriebene Ansätze zur Maximierung der Kundenbeziehung sind in den heutigen stark gesättigten und wettbewerbsintensiven Märkten wichtiger denn je. Es gibt viele Schritte, die ein proaktives Unternehmen gehen kann, um sich positiv zu positionieren und hochwertige Kunden zu halten sowie Kundenabwanderung zu verhindern.

Mo 30 Nov 2020·von

Da Halloween nun vorbei ist und der Advent vor der Tür steht, ist es Zeit für die Weihnachtsdekoration. Und wie kann man besser in Stimmung für die Feiertage kommen als mit einem Python-Projekt 🐍?

Di 20 Okt 2020·von

Wie Sie Ihre Daten vor einem der häufigsten (und potenziell schädlichsten) Web-Sicherheitsrisiken schützen können.   

Mi 16 Sep 2020·von

Traditionell werden Marketingentscheidungen von den Verantwortlichen auf der Grundlage von Instinkt, Erfahrung und verfügbaren Daten getroffen. Was aber, wenn dies automatisiert werden könnte, indem ein künstlicher Agent große Datenmengen verwendet, um automatisch die individuell optimale Marketingstrategie für jeden Kunden zu jedem Zeitpunkt zu bestimmen? Dies ist genau das Versprechen des Reinforcement Learnings.

Mo 15 Jun 2020·von

Jenkins ist derzeit der führende Open Source-Automatisierungsserver und in Java programmiert. Es wird unter der MIT-Lizenz vertrieben. Jenkins ist absolut kostenlos und sehr flexibel, da es die Verwendung einer großen Auswahl an Versionskontrollsystemen ermöglicht und mehr als 1.500 Plugins bietet. In diesem Blogartikel möchten wir das CI Tool Jenkins vorstellen und in die wesentlichen Aspekte der Benutzeroberfläche einführen.

Mo 15 Jun 2020·von

Dieser Artikel gibt eine theoretische Einführung in Continuous Integration und eine Übersicht über die Vor- sowie Nachteile für die Verwendung von CI Tools. Eine Auswahl verschiedener Tools für den Einstieg wird abschließend vorgestellt.

Di 31 Mär 2020·von

Fehlende oder unvollständige Daten können enorm negative Auswirkungen auf jedes Data Science-Projekt haben. In diesem Blog untersuchen wir, welche Arten von fehlenden Werten es gibt und wie wir die damit verbundenen Herausforderungen bewältigen können.

Do 13 Feb 2020·von

In diesem Artikel stellen wir unser neues Paket shinyMatrix vor. Dieses stellt ein Eingabefeld für Matrizen in Shiny bereit.

Fr 27 Dez 2019·von

Die Business-Welt verändert sich aufgrund der zunehmenden Menge und Vielfalt der verfügbaren Daten. Durch die Nutzung des in diesen Daten enthaltenen Wissens, eröffnen sich bedeutende neue Chancen - wenn man weiß, wo man suchen muss. Ein Data Science-Team trägt dazu bei, aus der Verarbeitung und Analyse dieser Rohdaten Erkenntnisse zu gewinnen, die im kompetetiven technologischen Umfeld von entscheidender Bedeutung sind.

Mo 23 Dez 2019·von

Tools zur Visualisierung in R und Python bieten in unterschiedlicher Weise Unterstützung für Projekte. Wenn Sie sich noch unschlüssig sind, welches die passende Sprache für Sie ist, könnte dieser Artikel für Sie interessant sein und Hilfe bei der Entscheidungsfindung bieten. Es werden gängige Pakete beider Sprachen vorgestellt und beispielhafte Grafiken erstellt.

Di 19 Nov 2019·von

Wenn Sie Code schreiben, ist es unvermeidlich, dass sich von Zeit zu Zeit mal ein Fehler einschleicht. Hier sind einige Tipps zur Behandlung dieser Fehler.

Di 22 Okt 2019·von

Eine der größten Herausforderungen für Unternehmen besteht darin, ihre Werbebudgets effizient einzusetzen und gezielt so zu werben, dass die Werbung den Kunden trifft, wenn sie die größte Hebelwirkung hat - ohne überwältigend, wiederholend oder irrelevant zu sein. Mit Marketing Mix Modeling können wir helfen, diese Herausforderung zu meistern.

Do 26 Sep 2019·von

Multi-Armed Bandit Algorithmen sind eine moderne Alternative zum traditionellen A/B-Test. Ähnlich wie beim Reinforcement Learning können diese Algorithmen das, was den Kunden gezeigt wird, während des Tests optimieren, um den Gewinn zu maximieren. Gleichzeitig wird die erfolgreichste Option für Ihr Unternehmen bestimmt.

Di 17 Sep 2019·von

Verständliche, saubere und konforme Daten sind eine Voraussetzung für den Geschäftserfolg. Es bedarf besonderer Sorgfalt, um sicherzustellen, dass Analysen die auf Grundlage von Daten durchgeführt werden, zuverlässig sind und einen Mehrwert schaffen. In diesem Zusammenhang wird die Rolle eines Data Steward immer wertvoller. Dieser Artikel diskutiert die verschiedenen Rollen und Aufgaben die in den Bereich Data Stewardship fallen.

Mo 09 Sep 2019·von

Dieser Artikel beschreibt Best Practice-Ansätze für das Entwickeln von Shiny Dashboards. Das Erstellen des Dashboards in Paketform, sowie die Nutzung von Unit Tests sollen die Entwicklung von robusten Lösungen und die Gewährleistung hoher Qualität ermöglichen.

Di 16 Jul 2019·von

In diesem Artikel schauen wir uns an, wie man auch eine Shiny App mit übersichtlichem Code, wiederverwertbaren und automatisiert testbaren Bausteinen (Modulen) baut. Dafür gehen wir zunächst auf die Paketstruktur und das Testen einer App ein, bevor wir uns den eigentlichen Modulen widmen.

Di 21 Mai 2019·von

In diesem Artikel stellen wir unser R-Paket rsync vor, das als Schnittstelle zwischen R und dem beliebten Linux-Kommandozeilen-Tool rsync dient. Mit Rsync können Nutzer von Unix-Systemen lokale und remote Dateien einfach und effizient synchronisieren.

Di 07 Mai 2019·von

Wenn unsere R-Projekte größer werden, dann müssen wir anfangen sie besser zu organisieren. Das passiert oft dadurch, dass wir den Programm-Code in verschiedene Dateien aufteilen, Funktionen verwenden und mit fortgeschrittenen Fähigkeiten sollten wir natürlich auf Pakete zurückgreifen. Es ist dabei etwas schade, dass die Basisfunktionalität in R keine Abstraktionsebene bereitstellt, die sich zwischen Funktionen und Paketen einsortieren lässt. Mit dem Paket modules kann diese Lücke gefüllt werden.

Di 09 Apr 2019·von

ggCorpIdent ist ein R-Paket zum einfachen Anpassen von ggplot2-Grafiken, ohne dass der Code der Grafik selbst angefasst werden muss. Es kann eine individuelle Farbpalette definiert werden, die interpoliert wird, wenn sie nicht so viele Farben enthält wie benötigt werden. Außerdem kann eine neue Schriftart für die Textelemente der Grafik verwendet und ein Logo innerhalb der Grafik eingebettet werden.

Mo 11 Mär 2019·von

Dies ist eine Reproduktion des (einfachen) Balkendiagramms aus dem Kapitel 6.1.1 in Datendesign mit R mit ggplot2.

Mo 11 Feb 2019·von

In diesem Beitrag möchte ich das R Markdown Template für Business-Reports von INWTlab vorstellen. Das Template ist speziell für den Einsatz im Business-Bereich gedacht, so dass Farben, Cover und Logo leicht angepasst und in das Corporate Design überführt werden können. Das allgemeine Erscheinungsbild ist grob an MS Word angelehnt.

Di 29 Jan 2019·von

Sobald Sie Code nicht nur für sich selbst, sondern auch für andere schreiben, wollen Sie Ihre Leser natürlich nicht verlieren. Plötzlich müssen Sie sich Gedanken um Formatierung, Coding-Style und Verständlichkeit machen. Formatierung und teilweise auch Style können durch die Einhaltung eines Styleguides abgedeckt werden. In diesem Artikel wird der Styleguide vorgestellt, den wir bei INWT etabliert haben.

Di 29 Jan 2019·von

Haben Sie schon mal versucht, sich in der Dateistruktur eines bereits bestehenden Projekts zurechtzufinden, in einem „historisch gewachsenen“ Verzeichnis relevante von veralteten Dateien zu unterscheiden, oder herauszufinden, in welcher Reihenfolge vorhandene Skripte ausgeführt werden müssen? Damit dies leichter wird, ist eine konsistente Datei- und Ordnerstruktur in Ihren Projekten sehr hilfreich. In diesem Artikel wird die Lösung vorgestellt, die sich bereits oft in unseren Data Science-Projekten bewähren konnte.

Di 31 Jul 2018·von

Nachdem die INWT Statistics Prognose für die Bundestagswahl 2017 für uns ein voller Erfolg war, wollten wir es auch in diesem Jahr wieder wissen. Und zwar ganz genau. Wer gewinnt die FIFA WM 2018? Wer sind die Gruppensieger? Und wie viele Tore wird Deutschland gegen seinen nächsten Gegner erzielen? Diese und viele weitere Fragen beschäftigten uns im Vorfeld der Weltmeisterschaft. Wir entwickelten ein Data Science-Modell um Antworten auf diese Fragen zu liefern. Wie hat unsere Prognose anhand der der tatsächlichen Ergebnisse der WM, im Vergleich mit dem Tierorakel Achilles und zu anderen statistischen Prognosen abgeschnitten?

Mo 28 Mai 2018·von

Endlich! Die Fußball-Weltmeisterschaft 2018 geht los. Überall auf der Welt, am Kiosk, im öffentlichen Nahverkehr und vor allem in unzähligen Tippgemeinschaften, beschäftigen sich nun wieder gewiefte Fußballfans mit der Frage: Wer wird Weltmeister? Wir haben die Fußball-Weltmeisterschaft 2018 in Russland auf Basis statistischer Data Science-Modelle 10.000 Mal simuliert. In den folgenden Tagen der Fußball-WM zeigen wir Euch hier in unserem Blog datenbasiert und täglich neu berechnet unsere Antwort auf die Frage, wer die Top-Favoriten für den FIFA WM Pokal sind.

Do 24 Mai 2018·von

Python hat in den letzten Jahren, insbesondere durch die intensive Nutzung in den Bereichen Data Science, Machine Learning und Deep Learning, einen massiven Aufschwung erfahren. Auch wenn R in ähnlicher Form am Wachsen ist, kann es für professionelle AnwenderInnen immer von Vorteil sein, über mehrere Sprachen Bescheid zu wissen.

Do 26 Apr 2018·von

Python ist eine voll funktionsfähige, offene interpretierte Programmiersprache, welche sich in den letzten Jahren zu einer mindestens ebenbürtigen Alternative für alle Arten von Data Science-Projekten entwickelt hat. Insbesondere im Deep Learning und Machine Learning-Bereich spiet es dabei seine Stärken aus.

Do 26 Apr 2018·von

Welche Kriterien sollten bei der Auswahl einer Statistik-Software berücksichtigt werden? Die gängigen Statistik-Programm-Pakete unterscheiden sich hinsichtlich ihrer Stärken und Schwächen wie auch in ihrer Handhabung mitunter ganz erheblich. Die Entscheidung für ein System sollte gut überlegt sein. Ein nachträglicher Wechsel verursacht hohe Kosten für neue Lizenzen und die Umschulung der Mitarbeiter. Dieser Artikel arbeitet eine Checkliste aus, anhand derer sich die Alternativen hinsichtlich der individuellen Anforderungen bewerten lassen.

Mi 25 Apr 2018·von

Der zweite Teil der Artikelserie zu Statistik-Programmen stellt die Marktführer R, Python, SAS, SPSS und STATA vor und bietet eine Entscheidungshilfe.

Mi 25 Apr 2018·von

Der dritte Teil der Artikelserie zu Statistik-Software nimmt die Open Source-Statistik-Umgebung R unter die Lupe. R bietet eine umfassende Methodenunterstützung, eignet sich hervorragend zur Automatisierung von Prozessen und ist ungeschlagen hinsichtlich der Integrierbarkeit mit Anwendungen von Drittanbietern.

Di 24 Apr 2018·von

SAS ist eine kommerzielle Statistik-Software, die vom amerikanischen Unternehmen SAS Institute entwickelt wird. Neben statistischen Analysen bietet die Software von SAS Institute für den Anwender unter anderem auch Business Intelligence, Data Mining, Risikomanagement und Unternehmenssteuerung. Durch diese vielfältigen Erweiterungsmöglichkeiten – insbesondere hinsichtlich des Datenmanagements – ist SAS als all-in-one Lösungen bei Großunternehmen sehr beliebt.

Mo 23 Apr 2018·von

SPSS ist eines der ältesten Statistik-Programme am Markt. Ursprünglich wurde SPSS von der eigenständigen Firma „SPSS Inc.“ Ende der 60er Jahre entwickelt. Der Name stand für „Statistical Package for the Social Sciences” und tatsächlich ist SPSS im Bereich der Sozialwissenschaft das dominierende Tool für statistische Analysen.

So 22 Apr 2018·von

STATA ist eines der kommerziell vermarkteten Statistik-Programme und wird von der StataCorp vertrieben und weiterentwickelt. Als sicherlich eines der bekannteren Statistik-Programme bietet STATA vom Umfang und der Handhabung her viele Vorteile.

Di 10 Okt 2017·von

Seit März 2017 veröffentlichen wir in unserem Blog regelmäßig Prognosen zur Bundestagswahl 2017. Unser Prognosemodell basiert auf den Ergebnissen der Umfrageinstitute, welche es gewichtet und zusammenfasst. Nun, nach der Wahl, möchten wir die Gelegenheit nutzen unser Modell anhand der tatsächlichen Wahlergebnisse zu evaluieren.

Mi 06 Sep 2017·von

In diesem Text werden die aktuellen Wahlprogramme der wichtigsten deutschen Parteien mittels Sentiment-Analyse untersucht: Wie positiv oder negativ sind die verwendeten Wörter?

Di 05 Sep 2017·von

Dieser Artikel beschreibt die Vorbereitung der Wahlprogramme der wichtigsten deutschen Parteien für eine Text-Mining-Analyse in R.

Di 05 Sep 2017·von

In diesem Artikel werden die aktuellen Wahlprogramme der wichtigsten Parteien zur Bundestagswahl am 24. September 2017 mittels Text Mining in R untersucht: Welche Wörter kommen am häufigsten vor, welche Wörter sind am wichtigsten?

Mo 21 Aug 2017·von

In Zusammenarbeit mit den Politikberatern der de'ge'pol haben wir unsere Prognose zur Bundestagswahl mit Expertenmeinungen zu den Koalitionsbildungschancen kombiniert. Dies lässt uns fundierte Wahrscheinlichkeitsaussagen darüber treffen, welche Koalition bzw. welcher Kanzler Deutschland nach der Bundestagswahl regieren wird.

 

Mo 20 Mär 2017·von

Dieser Artikel präsentiert die Wahlprognose von INWT zur Bundestagswahl am 24.09.2017. Vorgestellt wird ein statistisches Prognosemodell, das auf den Umfrageergebnissen führender deutscher Umfrageinstitute beruht. Anders als Meinungsforschungsinstitute können wir mit unserer Wahlprognose auch eine Vorhersage über die Wahrscheinlichkeit von möglichen Koalitionen nach der Wahl treffen. 

Di 07 Mär 2017·von

MariaDB ist aktuell die am schnellsten wachsende Open-Source-Datenbanklösung. Sie wird hauptsächlich von der MariaDB Corporation entwickelt und ist ein Fork von MySQL. Dieser Artikel beschreibt eine selbstentwickelte Lösung zum Überwachen und Optimieren des Datenbanksystems: den MariaDB-Monitor. Es handelt sich dabei um eine Alternative zu existierenden kostenpflichtigen oder weniger flexiblen Monitoring-Tools.

Mi 10 Feb 2016·von

Anschließend an den letzten Artikel "Clusteranalyse" wird die Theorie nun mithilfe der Statistikumgebung R in die Praxis umgesetzt.

Mo 04 Jan 2016·von

Die Clusteranalyse dient zum Auffinden von Gruppenstrukturen in Daten. Dieser Artikel gibt einen Überblick über die gängigsten Verfahren und zeigt, wie gefundene Clusterlösungen validiert werden können.

Mo 27 Jul 2015·von

Dieser Artikel zeigt anhand eines realen Datensatzes Schritt für Schritt die Durchführung einer logistischen Regression und die Beurteilung der Modellgüte mithilfe der Open Source-Statistikumgebung "R".

Mo 20 Jul 2015·von

Nachdem man ein Modell gefunden hat, das das Eintreten eines Ereignisses vorhersagt, ist es angebracht, die Vorhersagequalität bzw. Modellgüte zu bestimmen. In diesem Artikel werden die Klassifikationstabelle und die sich daraus ableitenden Gütemaße sowie die Receiver Operating Characteristic (ROC) Kurve näher beleuchtet.

Mi 15 Jul 2015·von

Das logistische Regressionsmodell (kurz: "Logit-Modell") wird zur Modellierung von binären Zielvariablen (z.B. 0 = Kunde kauft, 1 = Kunde kauft nicht) verwendet. Der Artikel gibt eine Einführung ins Logit-Modell und dessen Anwendung.

Di 14 Apr 2015·von

Die Erfahrung zeigt es: Um von Big Data tatsächlich zu profitieren, sollten die Werbeversprechen der Hersteller hinterfragt werden. Darüber hinaus gibt der letzte Teil der Artikelserie zum Thema "Big Data" Hinweise, um Projekte richtig zu planen und zum Erfolg zu führen.

Di 14 Apr 2015·von

In Zusammenhang mit "Big Data" werden häufig immer die selben Erfolgsgeschichten angeführt. Dieser Teil der Artikelserie beleuchtet diese Geschichten.

Di 14 Apr 2015·von

„Big Data” ist einer der dominierenden Trends in der IT, der auch das Motto der CeBiT 2014 prägte und in den letzten Jahren zu einem regelrechten Hype geworden ist. Doch was verbirgt sich hinter dem Begriff und gibt es wirklich nur Gewinner?

Mo 30 Mär 2015·von

In der gängigen Online-Marketing-Praxis wird der kurzfristig durch TV-Werbung induzierte Webseiten-Traffic üblicherweise durch eine einfache Baseline-Korrektur quantifiziert. Wir zeigen in unserem Blog-Artikel, welche Messfehler damit einhergehen, wie sie sich vermeiden lassen und wie der identifizierte TV-Impact richtig in der Attribution berücksichtigt wird.

Do 11 Sep 2014·von

20 Tipps, die Ihnen helfen, die gröbsten Fehler zu umschiffen und einen besseren Fragebogen zu konstruieren.

Do 04 Sep 2014·von

Bei der Fragebogenkonstruktion ist vieles zu beachten. Dieser Artikel gibt einen Überblick über die häufigsten Fehler.

Mo 18 Aug 2014·von

Als Beispiel für eine multiple lineare Regression dient die Frage, welche Faktoren die Qualität von Wein beeinflussen. Beantwortet hat sie Orley Ashenfelter, ein Professor für Ökonomie.

Mo 11 Aug 2014·von

In der Praxis spielt bei der Bestimmung der abhängigen Variablen y oft mehr als nur eine unabhängige Variable x eine Rolle, so dass wir uns jetzt dem multiplen linearen Regressionsmodell und seinen Eigenschaften zuwenden.

Mo 04 Aug 2014·von

Die Durchführung einer Regression (lat. regredi = zurückgehen) hat das Ziel, anhand von mindestens einer unabhängigen Variablen x (auch erklärende Variable genannt) die Eigenschaften einer anderen abhängigen Variablen y zu prognostizieren.

Fr 18 Jul 2014·von

Wie hoch muss das Bestimmtheitsmaß R² sein? Das kommt auf Fachgebiet und Analyseebene an.

Mo 14 Jul 2014·von

Das korrigierte Bestimmtheitsmaß R²: Modellanpassung und Sparsamkeit berücksichtigen.

Mo 07 Jul 2014·von

Wie hängen das Bestimmtheitsmaß R² und die Varianzzerlegung zusammen?

Mo 30 Jun 2014·von

Wie ist das R² definiert und wie wird der Wert des R² interpretiert?

Mo 23 Jun 2014·von

Das R² ist ein Gütemaß der linearen Regression. Doch wie interpretiert man das R² und was ist ein guter Wert?

Mi 28 Mai 2014·von

Eine statistische Analyse von über 150 Lego-Bausätzen zeigt, dass der Preis einzelner Legobauteile nicht nur durch deren Größe, sondern maßgeblich durch die Zugehörigkeit zu bestimmten Lego-Themenwelten, wie z.B. Star Wars, erklärt werden kann.

Fr 06 Dez 2013·von

Aktuell ist Big Data in aller Munde. Mit dem technologischen Fortschritt einhergehend sammeln immer mehr Unternehmen Unmengen an Daten. Dabei bedeuten größere Datenmengen nicht automatisch einen höheren Informationsgehalt.

Mo 23 Sep 2013·von

Ein wesentlicher Vorteil des Online-Marketings besteht in der Messbarkeit der Werbewirkung der eingesetzten Mittel. Besteht der Marketingmix darüber hinaus aus Online- und Offline-Werbung, so stellt sich die Frage nach dem Impact der Offline-Werbung auf das Online-Geschäft. Am Beispiel der TV-Werbewirkung auf die Besucherzahlen eines Online-Auftritts wird gezeigt, wie mittels Zeitreihenzerlegung der Offline-Online-Impact messbar wird.

Mo 05 Aug 2013·von

Mit Analysen auf Tabellen- und Datensatz-Ebene können im Data-Profiling-Prozess Informationen zu Inhalt, Struktur und Qualität von Daten gewonnen werden. In diesem Artikel wird eine Auswahl von Analysen vorgestellt.

Mo 05 Aug 2013·von

Mit Attributanalysen auf Basis von Geschäftsregeln können im Data-Profiling-Prozess Informationen zu Inhalt, Struktur und Qualität von Daten gewonnen werden. In diesem Artikel wird eine Auswahl von Analysen vorgestellt.

Mo 05 Aug 2013·von

Mit der Analyse von Attributen können im Data-Profiling-Prozess Informationen zu Inhalt, Struktur und Qualität von Daten gewonnen werden. In diesem Artikel wird eine Auswahl von Standardanalysen vorgestellt.

Do 01 Aug 2013·von

Für eine realistische Planung von Projekten werden verlässliche Aussagen über die Qualität von Daten benötigt. Eine frühzeitige Untersuchung der Datenqualität bewahrt vor unerwünschten Überraschungen, die den Aufwand des Projektes vergrößern und geplante Termine nach hinten verschieben können.

Mi 19 Jun 2013·von

Qualitativ schlechte Daten können sich im Unternehmen auf verschiedene Ebenen auswirken und je nachdem kurzfristige oder längerfristige Entscheidungen maßgeblich beeinflussen. Um Fehlentscheidungen zu vermeiden, ist eine Überwachung und Steuerung der Datenqualität notwendig. 

Di 11 Jun 2013·von

Datenqualität darf nicht ausschließlich aus der technischen Perspektive betrachtet werden, sondern muss auch über den Inhalt der Daten bestimmt werden.

Mo 10 Jun 2013·von

Im Informationszeitalter trägt Datenqualität entscheidend zum wirtschaftlichen Erfolg eines Unternehmens bei. Fehlerhafte, ungenaue und fehlende Daten führen zu fehlerhaften Informationen und beeinflussen damit negativ die Entscheidungen innerhalb eines Unternehmens.

Fr 27 Apr 2012·von

Anders als im klassischen Marketing, in dem Daten meist Mangelware darstellen, verfügt man im Online-Marketing über riesige Datenbestände. Auch wenn die oft Terabyte großen Logfiles und Datenbanken bisher kaum genutzt wurden, herrschen Pioniergeist und Optimismus vor.

Fr 30 Mär 2012·von

Im zweiten Teil der Artikelserie zur Beurteilung von Placements im Display-Advertising wird ein statistisches Modell vorgestellt, welches die Beurteilung von Placements schneller als konventionelle Ansätze ermöglicht. Das Modell unterstützt dabei auch die Aufdeckung von Fraud. Die frühzeitige Identifikation von nicht-performanten Placements ermöglicht z.T. erhebliche Kosteneduktion durch Ausschluss dieser Placements aus den Kampagnen.

Fr 23 Mär 2012·von

Ein Vorteil des Online-Marketings ist - entsprechende Technologie vorausgesetzt - die direkte Messbarkeit des Werbeerfolgs. Der erste Teil der Artikelserie beschäftigt sich mit den Grundlagen der Beurteilung von Placements im Display-Advertising. Im zweiten Teil wird ein statistisches Modell vorgestellt, welches die Beurteilung von Placements schneller als konventionelle Ansätze ermöglicht.

Mo 13 Feb 2012·von

Journalistisch sauber herausgearbeitet wird der Unterschied zwischen Repräsentativität und Präzision in einer unterhaltsamen Meldung der Süddeutschen Zeitung über das Umfragetief der FDP.

Mo 06 Feb 2012·von

Beständig hält sich das Gerücht, dass die Frage der Repräsentativität primär mit dem Stichprobenumfang (häufig in der Statistik kurz als „n“ bezeichnet) zusammenhängt.

Mo 30 Jan 2012·von

Entscheidend für die Frage der Repräsentativität ist die Stichprobenziehung.

Mo 23 Jan 2012·von

Gerade in Zusammenhang mit Umfragen wird der Begriff der „Repräsentativität“ inflationär gebraucht. Hartnäckig hält sich das Gerücht, dass Repräsentativität primär eine Frage des Stichprobenumfangs sei.