Titelbild_xmas-2019

Is it the most wonderful time of the year?

Jessica Aust Blog, Statistik

Um herauszufinden, wie weihnachtlich die STATWORX Mitarbeiter eingestellt sind, haben wir eine kleine Umfrage zur Weihnachtsvorfreude erstellt. Dabei war es gar nicht so einfach zu entscheiden, wie die Befragten zu Weihnachtstypen zugeordnet werden sollen. Dieser Blogbeitrag zeigt die Bestimmung mittels Summenscore und Clusteranalyse und vergleicht die beiden Lösungen miteinander.

greedy forest

Regularized Greedy Forest – The Scottish Play (Act I)

Fabian Müller Blog, Data Science, Statistik

Macbeth shall never vanquish'd be until Great Birnam Wood to high Dunsinane Hill Shall come against him. (Act 4, Scene 1) In Shakespeare's The Tragedy of Macbeth, the prophecy of Birnam Wood is one of three misleading prophecies foreshadowing the defeat of the protagonist of the same name. While highly unlikely, the event of a nearby forest moving towards his …

Intern Titel

Als Data Science Praktikant bei STATWORX

Moritz Gnisia Blog, Data Science, Statistik

Neben dem Einstieg als Trainee oder Data Science Consultant bei STATWORX gibt es ebenso die Möglichkeit, ein Praktikum im Bereich Data Science zu absolvieren. Unsere aktuellen Stellenausschreibungen findet ihr übrigens hier. Bewerbung bei STATWORX Das Berufsbild des Data Scientists ist durch seine vielfältigen Aufgaben und die bunte Durchmischung der Kompetenzen vor allem in den letzten Jahren sehr attraktiv geworden. Dies …

overplotting-main

How NOT to overplot

Lea Waniek Blog, Data Science, Statistik

Overplotting can be a serious problem, which complicates data visualization and thus also data exploration. Overplotting describes situations, in which multiple data points overlay each other within a plot, causing the individual observations to be non-distinguishable. In such cases, plots only indicate the general extent of the data, while existing relationshipsmight be heavily obscured. Overplotting especially occurs when dealing with …

Gut in Form! Reshapes in R, Stata und SPSS

Jessica Aust Blog, Statistik

In diesem Blogeintrag aus der „Gut in Form”-Reihe wird gezeigt, wie sich Datenreshapes in R, Stata und SPSS umsetzten lassen. Diese Datenreshapes dienen dazu, die vorliegenden Daten zu transformieren und so die optimale Darstellung zu erhalten, wenn pro Einheit mehrere Informationen zu einer Begebenheit vorliegen. Was vielleicht etwas kompliziert klingt, soll anhand eines Beispiels erläutert werden: Es soll ein Datensatz …

Methoden Einführung: Statistik mit Löwen – Teil 3

Nick Bornschein Blog, Statistik

Hauptanalyse Unsere Archäologen stehen vor ihrem analytischen Ziel, die Voraussetzungsprüfung der ANOVA ist überstanden. Zur Erinnerung noch einmal die Forschungsfrage: H1: Je länger die Löwen bei den Zirkusspielen im Einsatz sind, desto höher ist ihr Gewicht. Da alle Daten (Gewicht als metrische und Monate im Zirkus als kategoriale Variable) vorbereitet sind, kann es direkt losgehen. Der Stata-Befehl für die Analyse …

Einführung in die nicht-parametrische Statistik: Der Wilcoxon-Vorzeichen-Test

Alexander Niltop Blog, Statistik

Obwohl wir beim letzten Mal nur um Haaresbreite dem Sog des schwarzen Lochs entkommen sind, welches sich in der Nähe der Welt des Wilcoxon-Rangsummen-Tests befindet (Die ganze Geschichte gibt es hier!), lassen wir uns nicht einschüchtern und setzen unsere Entdeckungsreise durch das nicht-parametrische Universum fort. Den nächsten Planeten, den wir dabei erkunden wollen, könnte man auf den ersten Blick mit …

Gut in Form – Der richtige Datentyp in R, Stata und SPSS

Jessica Aust Blog, Statistik

Ist der Datensatz in das gewünschte Statistikprogramm eingeladen, gibt es meist noch einige Stolperfallen, bevor man mit der Anwendung der Methode beginnen kann. Dies liegt oft daran, dass die Variablen nicht dem richtigen Typ zugewiesen sind. Wurden Werte, die eigentlich Zahlen sind, als Strings (Zeichenketten) abgespeichert, können beispielsweise keine Lagemaße der Verteilung berechnet werden. Nach dem Import der Daten sollte …

Stolperfalle Nicht-Linearität marginaler Effekte in der logistischen Regression

Lea Waniek Blog, Statistik

Im vorherigen Beitrag zur logistischen Regression wurde aufgezeigt, dass die absoluten Koeffizienten innerhalb logistischer Regressionsmodelle aufgrund ihrer Bezugseinheiten kaum verständlich zu interpretieren sind. Eine weitere Schwierigkeit bei der Interpretation logistischer Regressionsgewichte wurde bisher noch nicht explizit thematisiert: Der Effekt einer Erhöhung einer unabhängigen Variable um eine Einheit auf die Ausprägung der AV, der sogenannte marginale Effekt, ist in der logistischen …