bootcamp-statworx

Data Science lernen im STATWORX Bootcamp

Martin Albers Blog

Neben unseren Beratungsaufgaben haben wir von STATWORX einen stetig wachsenden Academy Bereich. Dieser Bereich bietet zu verschiedenen Themengebieten und Programmiersprachen Schulungen. Dies umfasst Kurse in Python oder R und auch zu speziellen Frameworks wie zum Beispiel Tensorflow. Ein Blick auf unser Angebot lohnt sich!

Überblick der Bootcamp Themen

Derzeit findet bei uns im Frankfurter Office das Data Science Bootcamp statt. Dieses deckt innerhalb von fünf Tagen alle wichtigen Data Science Themen von der Planung bis zur Durchführung ab. Der Fokus liegt nicht nur auf dem Lernen von Algorithmen und statischen Methoden, sondern es werden auch die Bereiche Data Strategy, Data Preparation and Exploration und das Deployment behandelt. Data Strategy umfasst unter anderem die Themen Teamorganisation sowie die optimale Zusammensetzung eines Data Science Teams. An Hand von Case Studies veranschaulichen wir die dahinter liegenden Konzepte. Das Deployment behandelt die Kommunikation der Ergebnisse über Dashboards sowie das Integrieren von Modellen in produktive Umgebungen.

Die Themen behandeln damit jegliche Bereiche eines Data Science Projektes, vom ersten Erstellen der Daten-Pipelines über die Erstellung von Modellen bis zur letztendlichen Implementierung im laufenden Betrieb ab. Alle Themen werden stets praxisrelevant behandelt.

Sneak Peek – Data Preparation and Exploration

Am zweiten Tag geht es um das Thema Data Preparation and Exploration, also darum zu verstehen, woher Daten für ein Data Science Projekt kommen und wie diese Daten extrahiert, aufbereitet sowie exploriert werden können. Neben der technischen Implementierung in R und Python sowie dem Verständnis von Datenbanken, sollen die Teilnehmer vor allem diese drei Punkte mitnehmen:

  • Die Exploration der Daten sollte ein integraler Teil eines jeden Projektes sein. Auch trotz – oder gerade wegen – komplexer Algorithmen ist es wichtig, sich eine gute Übersicht über die Verteilung und Form der Daten zu verschaffen. Die Exploration der Daten hilft in erster Linie die Daten zu verstehen, um daraus neue Features zu bilden, Ausreißer zu erkennen und fehlerhafte oder fehlende Daten zu identifizieren. Weiterhin hilft die Exploration dabei Daten gewinnbringend zu transformieren: Bei der Anwendung von Algorithmen kann zum Beispiel durch die Standardisierung der Daten, die Trainingsdauer vermindert werden.
  • Ein großer Teil der Arbeit eines Data Scientisten ist es, Daten in einer für das Modell lesbare Form aufzubereiten. Auch wenn es einen dedizierten Data Engineer gibt, der die Datenbank verwaltet und die Daten „sauber“ sind, gibt es Schritte die vom Data Scientist durchgeführt werden. Sei es das Bilden von Lags in Zeitreihenmodellen oder das Erstellen aufwendigerer Features. Diese Schritte sind unabdingbar für das Gelingen eines Projektes. Dabei ist es wichtig zu verstehen, dass die Datenaufbereitung in realen Projekten häufig sehr viel komplexer ist, als es aus den Beispieldatensätzen im akademischen Bereich bekannt ist.
  • Der sichere Umgang mit dem Objekttyp „Data Frame“ ist ein Muss, wenn in einem Projekt mit R und Python gearbeitet wird. In Python werden Data Frames durch pandas eingeführt und in R sind diese bereits nativ enthalten. Sie erlauben es im Gegensatz zu Matrizen verschiedene Datentypen in einem Objekt zu speichern, was diese zum perfekten Objekttyp im Data Science Bereich macht. Das schnelle selektieren bestimmter Zeilen, die Auswahl von Spalten oder die Zusammenführung verschiedener Data Frames ermöglicht es dabei schnell einen Überblick über die Daten zu bekommen und diese zum Beispiel in eine Trainings- und Testmenge zu unterteilen. Im Bootcamp wird dafür mit dplyr für R und pandas für Python gearbeitet.

Interesse geweckt, aber Termin verpasst?

Das aktuelle Bootcamp ist natürlich nicht das Erste und auch nicht das Letze von STATWORX. Wessen Interesse nun geweckt wurde, kann sich in diesem Jahr finden noch für mehrere Termine in Frankfurt und Zürich anmelden. Eine Übersicht der Termine haben wir hier zusammen gestellt. Es kann dabei jeder mit Interesse am Thema Data Science teilnehmen, da Programmierkenntnisse zwar hilfreich sein können, aber keine Voraussetzung sind!

Über den Autor

Martin Albers

I am a data scientist at STATWORX and I like everything that has to do with analysis and visualization.

ABOUT US


STATWORX
is a consulting company for data science, statistics, machine learning and artificial intelligence located in Frankfurt, Zurich and Vienna. Sign up for our NEWSLETTER and receive reads and treats from the world of data science and AI. If you have questions or suggestions, please write us an e-mail addressed to blog(at)statworx.com.