Python Archive

Learning Images with Keras

Lukas Strömsdörfer 10. September 2018 Blog, Data Science

Introduction Teaching machines to handle image data is probably one of the most exciting tasks in our daily routine at STATWORX. Computer vision in general is a path to many possibilities some would consider intruiging. Besides learning images, computer vision algorithms also enable machines to learn any kind of video sequenced data. With autonomous driving on the line, learning images …

Data Science in Python – Der Einstieg in Machine Learning mit Scikit-Learn

Moritz Gnisia 10. August 2018 Blog, Data Science

In unseren bisherigen Artikeln zu Data Science in Python haben wir uns mit der grundlegenden Syntax, Datenstrukturen, Arrays, der Datenvisualisierung und Manipulation/Selektion auseinander gesetzt. Was jetzt noch für den Einstieg fehlt, ist die Möglichkeit Modelle auf die Daten anzuwenden, um so zum einen Muster in diese zu erkennen und zum anderen Prädiktionen abzuleiten. Die Vielfalt an implementierten Modellen in Python …

A framework to automate your work: How to set up Airflow!

Marvin Taschenberger 6. Juli 2018 Blog, Data Science

In the first part of this blog post, we talked about what a DAG is, how to apply this mathematical concept in project planning and programming and why we at STATWORX decided to use Airflow compared to other workflow managers. In this part, however, we will get more technical and investigate a quite informative hello-world programming and how to set …

Comparing predictions: World Cup scores

Jakob Gepp 29. Juni 2018 Blog, Data Science, Statistik

As many others too, me and some colleagues at STATWORX took part in a little betting game for the World Cup 2018. Since the group stage is over, I was wondering how well – or better – how worse my prediction was. I am comparing my result with other predictions by using the point system of the betting game. All …

Data Science in Python – Matplotlib (Teil 4)

Moritz Gnisia 22. Juni 2018 Blog, Data Science

Nachdem wir in dem vorherigen Artikel eine Einführung in Pandas gegeben haben und somit nun Daten auswählen sowie manipulieren können, soll sich in diesem Artikel alles um die Visualisierung von Daten drehen. Bekanntlicherweise lassen sich mit der passenden Grafik Daten häufig noch besser verstehen und ermöglichen eine andere Art der Interpretation, unabhängig von Mittelwerten und anderen Kennzahlen. Welche Bibliothek zu …

Regularized Greedy Forest – The Scottish Play (Act II)

Fabian Müller 28. Mai 2018 Blog, Data Science

In part one of the blog post, the Regularized Greedy Forest (RGF) was introduced as a contender to the more frequently used technique of Gradient Boosting Decision Trees (GBDT). Now it is time to turn words into actions and find out whether it actually is. Among all GBDT implementations, XGBoost is probably the most commonly used implementation in the field …

Pipelines mit sklearn

Martin Albers 25. Mai 2018 Blog, Data Science

Es wird häufig angenommen, dass die meiste Arbeit von Data Scientisten darin besteht Algorithmen auszuwählen und zu tunen. Eine Umfrage von Crowdflower aus dem Jahr 2016 hat jedoch ergeben, dass die meiste Zeit dafür aufgewendet wird, Daten zu bereinigen und zu transformieren. Auch bei modernen Algorithmen im Bereich des Deep Learning ist dies nötig, um entweder die Performance des Modells …

Data Science in Python – Pandas (Teil 3)

Moritz Gnisia 22. Mai 2018 Blog, Data Science

Nachdem mein Kollege Marvin in seinem Artikel die Bibliothek NumPy vorgestellt hat, wird sich dieser STATWORX Blog Beitrag rund um die Bibliothek Pandas drehen. Pandas fußt zu einem großen Teil auf NumPy, bietet allerdings gerade für einen Einsteiger in den Data Science Bereich eine einfache Möglichkeit, Daten in Python einzulesen sowie zu manipulieren. Wer die Funktionsweise von NumPy verstanden hat, …

Data Science in Python – der Kern des Ganzen (Teil 2)

Marvin Taschenberger 18. Mai 2018 Blog, Data Science

Im vorherigen Teil dieser STATWORX Reihe haben wir uns mit verschiedenen Datenstrukturen auseinander gesetzt. Darunter jene, die uns in Python direkt ‚Out of the box‘ zur Verfügung stehen, als auch NumPy’s ndarrays. Bei den nativen Containern (z.B. Tuples oder Listen) konnten wir feststellen, dass nur die Listen unseren Anforderungen im Rahmen der Arbeit mit Daten – veränderbar und indizierbar – …

Data Science in Python – Vorstellung von nützlichen Datenstrukturen Teil 1

Marvin Taschenberger 16. April 2018 Blog, Data Science

Zu Beginn ein kurzer Rückblick in unserem ersten Blog Beitrag zum Thema Data Science mit Python. Wir haben uns mit mit einigen grundlegenden Python-Werkzeugen auseinander gesetzt haben, die uns es ermöglicht, mit IPython oder auch mit Jupyter Notebooks sehr interaktiv zu arbeiten. In diesem Teil stellen wir Euch nun Möglichkeiten vor Zahlen und Variablen eine Struktur zu geben sowie Berechnungen …