pandas vs. data.table – A study of data-frames – Part 2

Tobias Krabel Blog, Data Science

The story continues As Christian and I have already mentioned in part 1 of this simulation study series, pandas and data.table have become the most widely used packages for data manipulation in Python and R, respectively (in R, of course, one may not miss mentioning the dplyr package). Furthermore, at STATWORX we have experts in both domains, and besides having …

dashboard

Data-Dashboard mit Bokeh

Moritz Gnisia Blog, Data Science

Ein wesentliches Problem von größeren und heterogenen Daten ist häufig ihre Interpretation. Als Data Scientist stellt man sich auch deshalb unter anderem folgende Fragen: Wie sind die Daten strukturiert? Was sind besondere Merkmale? Wie lassen sich die Daten graphisch aufbereiten? Selbstverständlich lässt sich diese Liste noch um beliebige Fragestellungen erweitern. Als Hilfestellung zur Lösung der letzten Frage soll folgender Blog …

title-neuronale-netze

Wie lernen neuronale Netze?

Sebastian Heinz Blog, Data Science

Für Außenstehende umgeben neuronale Netze eine mystische Aura. Obwohl die Funktionsweise der elementaren Bausteine neuronaler Netze, Neuronen genannt, bereits seit vielen Jahrzehnten bekannt sind, stellt das Training von neuronalen Netzen Anwender auch heute noch vor Herausforderungen. Insbesondere im Bereich Deep Learning, in dem sehr tiefe oder anderweitig komplexe Netzarchitekturen geschätzt werden, spielt die Art und Weise wie das Netz aus …

phyton-header

Data Science in Python – Vorschau und Werkzeuge

Marvin Taschenberger Blog, Data Science

Teil 0 – Vorschau und Werkzeuge In Sachen Datenaufbereitung, Datenformatierung und statistischer Auswertung oder kurz Data Science, war (und hier in Deutschland ist immer noch) R die Sprache der Wahl. Global hat Python hier deutlich an Popularität gewonnen und ist mittlerweile sogar vorherrschend in diesem Gebiet (siehe Studie von KDnuggets). Daher soll diese Reihe schon einmal einen Einblick geben „Warum …

pandas vs. data.table – A study of data-frames

Christian Moreau Blog, Data Science

Overview and Setting Python and R have become the most important languages in analytics and data science. Usually a data scientist can at least navigate one language with relative ease and at STATWORX we luckily have both expertises available. While, with enough will and effort, any coding project can be completed in either language, perhaps they differ in some perfomance …

3D splines

XGBoost Tree vs. Linear

Fabian Müller Blog, Data Science

Introduction One of the highlights of this year's H2O World was a Kaggle Grandmaster Panel. The attendees, Gilberto Titericz (Airbnb), Mathias Müller (H2O.ai), Dmitry Larko (H2O.ai), Marios Michailidis (H2O.ai), and Mark Landry (H2O.ai), answered various questions about Kaggle and data science in general. One of the questions from the audience was which tools and algorithms the Grandmasters frequently use. As …

titel-einfuehrung-reinforcement-learning

Einführung in Reinforcement Learning – wenn Maschinen wie Menschen lernen

Sebastian Heinz Blog, Data Science

Die meisten Machine Learning Algorithmen, die heute in der Praxis Anwendung finden, gehören zur Klasse des überwachten Lernens (Supervised Learning). Im Supervised Learning wird dem Machine Learning Modell ex post eine bereits bekannte Zielgröße präsentiert, die auf Basis verschiedener Einflussfaktoren in den Daten durch eine Funktion möglichst genau vorhergesagt werden soll. Die Funktion repräsentiert dabei abstrakt das jeweilige Machine Learning …

Abbildung Deep Learning

Das Rosenblatt Perzeptron – die frühen Anfänge des Deep Learnings

Fabian Müller Blog, Data Science

Das Perzeptron war der erste Typus eines künstlichen Neurons und wurde erstmals durch Frank Rosenbaltt in den späten 1950er Jahren vorgestellt. Das Design des Perzeptrons war durch das Neuronen-Modell nach McCulloch und Pitt inspiriert. Während heutzutage andere Typen von Neuronen das Perzeptron ersetzt haben, findet das grundlegende Design des Perzeptrons in modernen neuronalen Netzwerke weiterhin Anwendung. Das Perzeptron kann zum …

TensorFlow

Einführung TensorFlow

Sebastian Heinz Blog, Data Science

TensorFlow ist aktuell eines der wichtigsten Frameworks zur Programmierung von neuronalen Netzen, Deep Learning Modellen und anderen Machine Learning Algorithmen. Es basiert auf einem C++ Low Level Backend, das jedoch über eine Python Library gesteuert wird. TensorFlow lässt sich sowohl auf CPU als auch GPU (Clustern) ausführen. Seit kurzem existiert auch ein R Package, mit dem TensorFlow genutzt werden kann. …

Abbildung Deep Learning

Deep Learning – Teil 2: Programmierung

Christian Moreau Blog, Data Science

Aufbauend auf der theoretischen Einführung in neuronale Netze und Deep Learning im Rahmen des letzten Blogbeitrags, soll in Teil 2 der Reihe „Deep Learning“ die Implementierung eines einfachen neuronalen Netzes (Feedforward Netz) in Python anschaulich dargestellt werden. Hierzu stehen dem Anwender viele verschiedene Frameworks zur Verfügung. In diesem Beitrag verwenden wir Keras, eine der wichtigsten Python Libraries, zur Programmierung von …