STATWORX on TOUR

A data geek, an AI guy, and a fintech dude go into a bar…

Lukas Strömsdörfer Blog, Data Science, Statistik

… some water down the bridge, we are having a Co-Meetup in Frankfurt – kudos to the organizers. Those guys are just awesome. For the past years they have been making an effort to build a Data Science community in Frankfurt – you should check out their Twitter feed. Whenever there is a Meetup – which you should totally check …

XY Titel

Simulating Regression Data with Xy

André Bleier Blog, Data Science, Statistik

In a recent project, I have developed a gradient boosting algorithm to estimate price elasticities. Surely, it is necessary to validate if the functionalities of the algorithm are working as intended. I started using nonlinear time series data from another blog post about lag selection as a validation basis. Unfortunately, at that time I did not wrap the simulation code …

STATWORX on TOUR

STATWORX on TOUR

Jakob Gepp Blog, Data Science, Statistik

Life is an ongoing process of learning new things. But how can you stay up to date in an always moving and evolving topic? One way to do this is to read blogs and follow forums like stackoverflow, where you can learn from the problems and solutions of the community. Another way is to meet people on a regular basis …

overplotting-main

How NOT to overplot

Lea Waniek Blog, Data Science, Statistik

Overplotting can be a serious problem, which complicates data visualization and thus also data exploration. Overplotting describes situations, in which multiple data points overlay each other within a plot, causing the individual observations to be non-distinguishable. In such cases, plots only indicate the general extent of the data, while existing relationshipsmight be heavily obscured. Overplotting especially occurs when dealing with …

Compiling R Code in Sublime Text

Lukas Strömsdörfer Blog, Data Science, Statistik

What is Sublime Text? Nearly every coder has at one point googled for the best code editor. To those who did, you already know Sublime Text. To those who didn't: best code editors. After its initial release in 2007 Sublime Text has for sure made its way into the ranks of the most popular editors. Here at STATWORX, most of …

Gut in Form! Reshapes in R, Stata und SPSS

Jessica Aust Blog, Statistik

In diesem Blogeintrag aus der „Gut in Form”-Reihe wird gezeigt, wie sich Datenreshapes in R, Stata und SPSS umsetzten lassen. Diese Datenreshapes dienen dazu, die vorliegenden Daten zu transformieren und so die optimale Darstellung zu erhalten, wenn pro Einheit mehrere Informationen zu einer Begebenheit vorliegen. Was vielleicht etwas kompliziert klingt, soll anhand eines Beispiels erläutert werden: Es soll ein Datensatz …

ggplot, ggplot, gg all the way …

Lea Waniek Blog, Statistik

.. oh what fun, it is to write, an R blog for this day! Der Grundgedanke von ggplot2 Das erklärte Ziel von Hadley Wickham’s package ggplot2, ist es R-Usern zu ermöglichen Daten einfach, ansprechend und vor allem informativ zu visualisieren. Dabei wurde angestrebt die Vorteile von sowohl base-R als auch dem älteren Package lattice zu übernehmen und deren Schwächen auszugleichen. …

Methoden Einführung: Statistik mit Löwen – Teil 3

Nick Bornschein Blog, Statistik

Hauptanalyse Unsere Archäologen stehen vor ihrem analytischen Ziel, die Voraussetzungsprüfung der ANOVA ist überstanden. Zur Erinnerung noch einmal die Forschungsfrage: H1: Je länger die Löwen bei den Zirkusspielen im Einsatz sind, desto höher ist ihr Gewicht. Da alle Daten (Gewicht als metrische und Monate im Zirkus als kategoriale Variable) vorbereitet sind, kann es direkt losgehen. Der Stata-Befehl für die Analyse …

Fehlerbehandlung in R – Handhabung von Ausnahmen mit trycatch

Markus Berroth Blog, Data Science, Statistik

Der vorherige Teil der Reihe drehte sich um die Handhabung von unerwarteten Fehlern und Bugs. Doch manchmal erwartet man das Auftreten von Fehlern, beispielsweiße falls man das gleiche Modell für mehrere Datensätze anwenden möchte. Dabei kann unter anderem der Fehler auftreten, dass das Modell aufgrund von fehlender Varianz nicht geschätzt werden kann. In diesem Fall möchte man nicht, dass durch …

Sparse Matrizen – wann sollte man sie nutzen?

Jakob Gepp Blog, Data Science, Statistik

Wenn man mit Matrizen arbeitet, die viele Nullen enthalten, dann sind schwachbesetzte (engl. sparse) Matrizen das richtige. Hierbei wird der benötigte Speicherplatz der Matrix reduziert, in dem der Inhalt der Matrix effizienter verwaltet wird. Es gibt verschiedene Methoden Matrizen zu komprimieren – zum Beispiel in dem nur die Tupel aus Zeile, Spalte und Wert genutzt werden. Die Matrix reduziert sich …