Kritiker bezeichnen Data Scientists gerne mal als “Statistiker mit einem Mac”. Die Anforderungen in Jobangeboten für “Data Scientists” sind jedoch oft sehr umfangreich, von Technologien für die parallele Verarbeitung großer Datenmengen bis hin zu der Erstellung von Dashboards. Die Liste der gewünschten Skills scheint dabei beliebig lang werden zu können und geht über bloße Statistik weit hinaus. In vielen Jobangeboten wird Erfahrung mit wissenschaftlichen Methoden verlangt, idealerweise sogar verbunden mit einem Doktortitel. Dabei könnte man meinen, dass dies aktuell nicht mehr nötig ist. Lesen Sie in meinem Beitrag, der auch im TDWI Blog veröffentlicht wurde, meine Einschätzung zur Entwicklung des Berufsbildes.

Bislang stand die Modellentwicklung im Vordergrund

Data Scientists nutzen mittlerweile häufig Cloud-Dienste wie AWS und Azure. Sie werben damit, dass sie skalierbare Lösungen für typische Data Science Szenarien anbieten können. Ein klassischer Use Case ist die Analyse von Kundenanfragen bei einem für Endkunden produzierenden Unternehmen. Kundenanfragen kommen über E-Mails oder einen Chatbot und werden entweder mit Standardantworten für die häufigsten Fragen beantwortet oder an den Support weiterreicht. Hierfür kommt ein Klassifikationsmodell zum Einsatz, um die verschiedenen Fragen zu erkennen. Bislang entwickelten viele Data Scientists solche Modelle in Python Notebooks. Hierfür ist Erfahrung wichtig, wie aus Texten Features generiert werden und welche Modelle für die Klassifikation sinnvoll sind. Dieses Wissen muss in Programmcode übertragen werden. Als Ergebnis stehen oft mehrere hundert Zeilen Python-Code und viele Experimente, um alle Schritte zu optimieren. Der wissenschaftliche Teil des Data Science ist gesichert.

Automatisierung macht auch vor Data Scientists nicht halt

Das Angebot der Cloud-Dienste geht mittlerweile jedoch über die Unterstützung einzelner Algorithmen hinaus und es ist möglich, mit einem Service ein Modell automatisiert zu entwickeln. Solche Systeme nennen sich AutoML. Sie automatisieren alle Prozessschritte bei der Entwicklung eines Modells auf Basis eigener Daten. Die Notwendigkeit von manuellem Feature Engineering und der Evaluation verschiedener Modelle entfällt. Der Cloud-Service evaluiert mehrere Algorithmen und optimiert jeweils die Parameter-Kombinationen. Die Laufzeit ist hierbei keine Hürde. Die Data Science-Aufgaben, die sonst Tage dauerten, geschehen nun, dank der Nutzung eines Clusters, innerhalb von Stunden. So sind auch Data Scientists vor Automatisierungsprozessen nicht sicher. Wenn ursprüngliche Aufgaben durch die Automatisierung wegfallen, welche Aufgaben werden Data Scientists übernehmen? Das Mapping der Kundenwünsche auf die Cloud Services, in Anbetracht der vorhandenen Kundendaten, wird zur zentralen Aufgabe. Das Verständnis der Algorithmen bleibt weiterhin von Bedeutung, aber lediglich, um Ergebnisse einordnen und Ressourcen besser einplanen zu können. Die wissenschaftliche Formulierung und Verifikation von Hypothesen werden durch die automatisierte Auswahl des besten Modells in den Hintergrund gedrängt.

Optimierung von Use Cases als “Solution Developer oder “AI Enabler”

Ist also das “Science” in Data Science noch zu retten? Die Automatisierung schafft Raum, um wissenschaftliche Methoden auf eine grundsätzliche Fragestellung anzuwenden: Wie kann man mit Daten einen Mehrwert für das Unternehmen erzielen? Mit automatisch erstellten Modellen kann der Mehrwert schneller bewertet werden. Statt den Modellen werden Data Scientists Use Cases optimieren. Sie werden sich in naher Zukunft wohl eher Solution Developers oder AI Enabler nennen. In bestimmten Fällen bleibt die bisherige Kernaufgabe der Data Scientists dennoch erhalten. Sie entwickeln spezialisierte Algorithmen und Modelle in den Unternehmen, für die standardisierte Prozesse nicht ausreichend sind. Viele andere Unternehmen nutzen ihre vorhandenen Daten bisher allerdings nicht. Sie wünschen sich den Data Scientist als Solution Developer, der ihnen die Möglichkeiten der Cloud Services aufzeigt und einen Mehrwert mit den Daten schafft. Zukünftige Jobangebote für Data Scientists werden also nicht nur wissenschaftliche Expertise fordern, sondern zunehmend auch Kommunikationsfähigkeit, um Unternehmen von den ausgewählten Data Science-Lösungen zu überzeugen.