Predictive Modelling

In dieser Reihe geht es um weiterführende Funktionen, die unter anderem für “predictive modelling” Verwendung finden. Ein Kurs zu diesem Thema bildet den Hintergrund.

  • Räumliche Daten

    Als erstes ein Video, das den Umgang mit räumlichen Daten beschreibt.

  • Overfitting 1

    Das nächste Video beschreibt das Phänomen des Overfittings, Gründe und Bedingtheiten, und wie man es erkennt.

  • Overfitting 2

    Video Nr. 3 beschäftigt sich mit dem Scripten eines Overfitting-Tests und der graphischen Darstellung.

  • Overfitting 3

    Das vierte Video zeigt, wie man mittels k-fold und bootstrapping Modellselektion betreiben kann, um Overfitting zu vermeiden.

Statistik mit R

  • R installieren

    Darstellung der Installation von R und von Paketen innerhalb Rs.

  • Variablen in R

    Sinn, Nutzen und Verwendung von Variablen

  • Datentypen in R

    Was sind Skalare, Vektoren, Matrizen, Datenrahmen? Was sind Integer und logische Werte in R?

  • Speichern und Laden von Daten

    Wie kriege ich Daten nach R hinein? Und wie kriege ich sie wieder heraus?

  • Arbeiten mit Editoren

    Erst mit einem Editor ist die Arbeit mit R richtig angenehm. Diese Episode zeigt, wie gedit und Tinn-R als Editoren für R eingesetzt werden können.

  • Tabellieren von Daten

    In dieser Episode geht es um die einfachste Form der Darstellung komplexer Daten: Die Tabelle.

  • Plotten mit R

    In dieser Episode geht es um den grundlegenden Befehl zur graphischen Darstellung in R: plot().

  • Tortendiagramme in R

    Eher der Vollständigkeit halber auch Tortendiagramme, denn auch wenn sie in R möglich sind, ist dies ein eher zu vermeidender Diagrammtyp.

  • Balkendiagramme

    Die häufig bessere Alternative zu Torten, die aber auch andere Vorteile mitbringt.

  • Balkendiagramme

    In dieser Episode geht es um eine der besten Möglichkeiten, sich einen vereinfachten Überblick über die Verteilung der Werte in einer Variable zu informieren: den Boxplot.

  • Scatterplots

    Dieses Mal geht es um Streudiagramme, oder Scatterplots, die klassische Darstellungsform statistischer Analysen.

  • Histogramme und Verwandtes

    In diesem Video geht es um Histogramme und ähnliche darstellende Verfahren, die einen Überblick über die Verteilung der Werte innerhalb einer Variable geben sollen.

  • Kumulative Summedarstellung und Triplot

    Diese Episode rundet die Reihe über Darstellende Statistik mit 2 interessanten Varianten ab.

  • Lagemaße

    Arithmetisches Mittel, Median und Quantile als Maß für die Lage eines Datensatzes auf einer Variable.

  • Streuungsmaße

    Spannweite, Interquartilsabstand, Varianz, Standardabweichung und Variationskoeffizient: Maße für die Variabilität innerhalb eines Datensatzes.

  • Schiefe und Kurtosis

    Zur Abrundung der Deskriptiven Statistik noch zwei Maße für die Form von Verteilungen: Schiefe und Wölbung (Kurtosis) von Verteilungen.

  • Kolmogorow-Smirnow-Test

    Der erste in der Reihe der nichtparametrischen Tests, einer der anspruchslosesten, ist der Kolmogorow-Smirnow-Test, der geeignet ist, zwei ordinal skalierte Verteilungen miteinander zu vergleichen.

  • Mann-Whitney-U-Test

    In dieser Episode geht es um einen weiteren nichtparametrischen Test, den Mann-Whitney-U- oder Wilcoxon-Rangsummen-Test, der unter gewissen Parametern eine teststärkere Alternative zum Kolmogorow-Smirnow-Test bietet.

  • Chi-Quadrat-Test und inverse Tabellierung

    Diese Episode beschäftigt sich vorrangig mit dem Chi-Quadrat-Test, als dem Test für die Beziehung von kategorialen, nominalen Daten. Im Zusammenhang wird das Umwandeln von Daten von der Tabellenform in die Fall-basierte Form beschrieben.

  • Zusammenhangsmaße

    Diese Episode behandelt das Bestimmen der Stärke von Zusammenhängen auf nominalem Datenniveau: Yules Q, phi und Cramers V.

  • Fishers exakter Test

    In dieser Episode geht es um eine Alternative zum Chi2-Test, falls der Datensatz dessen Anforderungen nicht erfüllt: Fishers exakter Test.

  • t-Test

    In diesem Video wird der t-Test behandelt, das “Arbeitspferd” der parametrischen Datenanalyse. Als parametrischer Test hat der t-Test einige Anforderungen an die Daten, die zuvor sichergestellt werden müssen. Hierzu dienen Kolmogorow-Smirnow-Test oder der Shapiro-Test zur Sicherstellung der Normalverteilung sowie der F-Test auf Varianzhomogenität. Diese werden ebenfalls vorgestellt.

  • Multiples Testen und Datensimulation

    Diese Episode behandelt das Problem, das auftritt, wenn man den selben Datensatz mehrfach testet. Hierdurch entsteht eine erhöhte Chance, dass ein Test falsch positiv anschlägt, dies ist mit einer Korrektur der Signifikanzwerte zu beheben. In diesem Zusammenhang wird erläutert, wie man Datensätze zu Testzwecken erstellen und bestimmte Verteilungen simulieren kann.

  • ANOVA

    Diesmal geht es um die ANOVA, einen parametrischen Test, der es erlaubt, den Einfluss von einer oder mehrerer Gruppierungsvariablen mit mehr als zwei Ausprägungen auf eine Abhängige Variable (Response) zu untersuchten. Kurz wird auch die MANOVA angerissen, die es erlaubt, mehr als eine abhängige Variable gleichzeitig zu untersuchen.

  • Korrelation und Regression

    In diesem zugegeben etwas langen Video werden die Grundlagen der Analyse von Korrelation und Regression in R erklärt.

Korrespondenzanalyse

Die folgenden Videos beschreiben die Funktionsweise der Korrespondenzanalyse und ihre Durchführung mittels verschiedener Programme.