Einführung in die nicht-parametrische Statistik: Der Wilcoxon-Vorzeichen-Test

Alexander Niltop Blog, Statistik

Obwohl wir beim letzten Mal nur um Haaresbreite dem Sog des schwarzen Lochs entkommen sind, welches sich in der Nähe der Welt des Wilcoxon-Rangsummen-Tests befindet (Die ganze Geschichte gibt es hier!), lassen wir uns nicht einschüchtern und setzen unsere Entdeckungsreise durch das nicht-parametrische Universum fort. Den nächsten Planeten, den wir dabei erkunden wollen, könnte man auf den ersten Blick mit …

Gut in Form – Der richtige Datentyp in R, Stata und SPSS

Jessica Aust Blog, Statistik

Ist der Datensatz in das gewünschte Statistikprogramm eingeladen, gibt es meist noch einige Stolperfallen, bevor man mit der Anwendung der Methode beginnen kann. Dies liegt oft daran, dass die Variablen nicht dem richtigen Typ zugewiesen sind. Wurden Werte, die eigentlich Zahlen sind, als Strings (Zeichenketten) abgespeichert, können beispielsweise keine Lagemaße der Verteilung berechnet werden. Nach dem Import der Daten sollte …

Stolperfalle Nicht-Linearität marginaler Effekte in der logistischen Regression

Lea Waniek Blog, Statistik

Im vorherigen Beitrag zur logistischen Regression wurde aufgezeigt, dass die absoluten Koeffizienten innerhalb logistischer Regressionsmodelle aufgrund ihrer Bezugseinheiten kaum verständlich zu interpretieren sind. Eine weitere Schwierigkeit bei der Interpretation logistischer Regressionsgewichte wurde bisher noch nicht explizit thematisiert: Der Effekt einer Erhöhung einer unabhängigen Variable um eine Einheit auf die Ausprägung der AV, der sogenannte marginale Effekt, ist in der logistischen …

Methoden Einführung: Statistik mit Löwen – Teil 2

Nick Bornschein Blog, Statistik

Nach der deskriptiven Betrachtung der historischen Daten gehen unsere Archäologen einen Schritt weiter und stellen sich folgende Forschungsfrage: H1: Je länger die Löwen bei den Zirkusspielen im Einsatz sind, desto höher ist ihr Gewicht. Für die Beantwortung dieser Frage bedienen sich die Forscher zunächst einer einfachen Korrelationsanalyse. pwcorr gewicht monate, sig obs Diese fördert zu Tage, dass das Gewicht und …

Fehlerbehandlung in R – Debugging mit RStudio Teil 2

Markus Berroth Blog, Data Science, Statistik

Nachdem der erste Teil die unterschiedlichen Aktivierungsmöglichkeiten für den Debugger behandelt hat, dreht sich der zweite Teil um effizientes Debugging. „Debugging is like being the detective in a crime movie where you are also the murderer.”(1) … und manchmal erinnert man sich nicht mal die Tat begangen zu haben. Im Folgenden werden wir die Debugging-Features von RStudio an einem einfachen …

Mit Feather verleihen Sie Ihren Daten Flügel

Tobias Krabel Blog, Data Science, Statistik

Das Lesen und Schreiben von großen Datenmengen ist schon seit Entwicklung der Datenbanken das Sorgenkind eines jeden Informatikers. Da in der heutigen Zeit die Datenmengen unweigerlich größer werden, ist dieses Thema auch bei Data Scientists angekommen, die in Großprojekten große Objekte auf der Festplatte zwischenspeichern möchten. Seit einiger Zeit jedoch kursiert in der R Community das Paket feather, das mit …

Der p-Wert und die False Discovery Rate

Jakob Gepp Blog, Statistik

Zum Überprüfen von Hypothesen werden meist p-Werte verwendet. Doch häufig werden diese falsch interpretiert oder gar so lange bearbeitet, bis etwas „signifikant“ ist. Letzteres wird auch p-Hacking genannt. Die Frage ist nun, was genau sagen p-Werte aus? Definition Der p-Wert ist die Wahrscheinlichkeit, dass ein beobachtetes Ergebnis, unter der Annahme die Nullhypothese ist korrekt, mindestens so extrem ausfällt wie es …

Herausforderungen der nicht-parametrischen Statistik: der Wilcoxon-Rangsummen-Test

Alexander Niltop Blog, Statistik

Bei der Reise durch das nicht-parametrische Universum begegnet man auch Phänomenen, denen man lieber nicht begegnen möchte: schwarzen Löchern. Diese können zu Beginn sehr klein sein, doch wenn man sie nicht beachtet und versucht, sich (heimlich) an ihnen vorbeizuschleichen, stürzen sie alles ins Chaos. Auch in der Nähe der Welt des Wilcoxon-Rangsummen-Tests gibt es eines davon. Die Welt des Wilcoxon-Rangsummen-Tests …

Gut in Form – So klappts mit der Datenaufbereitung in R, Stata und SPSS

Jessica Aust Blog, Statistik

In der “Gut in Form”-Serie werden in den nächsten Wochen verschiedene Möglichkeiten gezeigt, um die Daten optimal für die Analyse vorzubereiten. Die Durchführung wird dabei jeweils in R, Stata und SPSS vorgestellt. So werden auch Vor- oder Nachteile der verschiedenen Programme sichtbar. Datenimport und -export Egal wie gut die Methodenkenntnisse sind, haben die Daten nicht die gewünschte Form, lässt sich …

Snack Wars – XML-Logfiles und Prozessdaten analysieren mit R und tidyverse

David Schlepps Blog, Data Science, Statistik

Neuen Mitarbeitern bei STATWORX fällt unweigerlich das großzügige Angebot und die ebenbürtig große Nachfrage nach Snacks von der Banane bis zum Schokoriegel auf. Da liegt es für Datenliebhaber sehr nah, (anonymisierte) Daten über den Snack-Konsum in der Firma zu sammeln. Im Folgenden soll es um eine beliebte Form des Sammelns und der Analyse von Prozessdaten gehen: XML-Logfiles. Für die Erstellung …