Inhalt

Cover
Titel
Impressum
Inhalt
Vorwort
Teil I Was ist MLOps, und warum wird es benötigt?
1 Warum jetzt, und was sind die Herausforderungen?
1. MLOps – Definition und Herausforderungen
2. MLOps zum Reduzieren von Risiken
  1. Risikobeurteilung
  2. Risikominderung
  3. Responsible AI durch MLOps
3. MLOps zur Skalierung von Machine-Learning-Modellen
4. Abschließende Überlegungen
2 An MLOps-Prozessen beteiligte Personen
1. Fachexperten
2. Data Scientists
3. Data Engineers
4. Software Engineers
5. DevOps
6. Modellrisikomanager/Auditor
7. Machine Learning Architects
8. Abschließende Überlegungen
3 Die Kernkomponenten von MLOps
1. Eine Einführung in Machine Learning
2. Modellentwicklung
  1. Festlegen von Geschäftszielen
  2. Datenquellen und explorative Datenanalyse
  3. Feature Engineering und Feature Selection
  4. Training und Evaluierung
  5. Reproduzierbarkeit
  6. Responsible AI
3. Überführung in die Produktion und Deployment
  1. Arten und Elemente des Modell-Deployments
  2. Anforderungen beim Deployment von Modellen
4. Monitoring
  1. Verantwortungsbereiche des DevOps-Teams
  2. Verantwortungsbereiche des Data-Science-Teams
  3. Verantwortungsbereiche der Managementebene
5. Iteration und Lebenszyklus
  1. Iteration
  2. Die Feedback-Schleife
6. Governance
  1. Daten-Governance
  2. Prozess-Governance
7. Abschließende Überlegungen
Teil II MLOps einsetzen
4 Modellentwicklung
1. Was genau sind Machine-Learning-Modelle?
  1. Theoretischer Hintergrund
  2. Einsatz in der Praxis
  3. Erforderliche Komponenten
  4. Unterschiedliche ML-Algorithmen – unterschiedliche MLOps-Herausforderungen
2. Explorative Datenanalyse
3. Feature Engineering und Feature Selection
  1. Feature-Engineering-Techniken
  2. Wie die Auswahl der Features die MLOps-Strategie beeinflusst
4. Experimente
5. Modelle evaluieren und vergleichen
  1. Ein geeignetes Qualitätsmaß auswählen
  2. Gegenprüfen des Modellverhaltens (Cross-Checking)
  3. Auswirkungen von Responsible AI auf die Modellentwicklung
6. Versionsverwaltung und Reproduzierbarkeit
7. Abschließende Überlegungen
5 Vorbereitung für die Produktion
1. Laufzeitumgebungen
  1. Modelle aus der Entwicklungs- in die Produktivumgebung überführen
  2. Datenzugriff vor Validierung und Inbetriebnahme in der Produktion
  3. Abschließende Überlegungen zu Laufzeitumgebungen
2. Risikobeurteilung von Modellen
  1. Der Zweck der Modellvalidierung
  2. Die Risikotreiber bei Machine-Learning-Modellen
3. Qualitätssicherung im Rahmen der Verwendung von Machine Learning
4. Wichtige Überlegungen zum Testen
5. Reproduzierbarkeit und Überprüfbarkeit
6. Potenzielle Sicherheitsrisiken im Zusammenhang mit Machine Learning
  1. Adversarial Attacks
  2. Weitere Sicherheitsrisiken
7. Das Modellrisiko eindämmen
  1. Änderungen in der Umgebung
  2. Wechselwirkungen zwischen Modellen
  3. Fehlverhalten von Modellen
8. Abschließende Überlegungen
6 Deployment in die Produktivumgebung
1. CI/CD-Pipelines
2. ML-Artefakte bauen
  1. Was beinhaltet ein ML-Artefakt?
  2. Die Testpipeline
3. Deployment-Strategien
  1. Varianten des Modell-Deployments
  2. Überlegungen beim Überführen von Modellen in die Produktivumgebung
  3. Wartung von Modellen im Produktivbetrieb
4. Containerisierung
5. Deployments skalieren
6. Anforderungen und Herausforderungen
7. Abschließende Überlegungen
7 Monitoring und Feedback-Schleife
1. Wie häufig sollten Modelle neu trainiert werden?
2. Leistungsabfall von Modellen überwachen
  1. Bewertung auf Basis der Ground Truth
  2. Abweichungen in den Eingabedaten erkennen (Input-Drift-Detection)
3. Drift-Erkennung in der Praxis
  1. Mögliche Ursachen für systematische Abweichungen in den Daten
  2. Methoden zur Erkennung systematischer Abweichungen in den Eingabedaten
4. Die Feedback-Schleife
  1. Logging-System
  2. Modelle evaluieren
  3. Evaluierung während des Produktivbetriebs
5. Abschließende Überlegungen
8 Modell-Governance
1. Wer entscheidet, wie die Governance des Unternehmens aussieht?
2. Anpassung der Governance an das Risikoniveau
3. Aktuelle Regulierungen als Treiber der MLOps-Governance
  1. Gesetzliche Richtlinien für die US-Pharmaindustrie: GxP
  2. Regulierung des Modellrisikomanagements in der Finanzbranche
  3. Datenschutzbestimmungen gemäß DSGVO und CCPA
4. Die nächste Welle an KI-spezifischen Regulierungen
5. Die Entstehung einer verantwortungsvollen KI (Responsible AI)
6. Schlüsselelemente von Responsible AI
  1. 1. Element: Daten
  2. 2. Element: Bias
  3. 3. Element: Inklusivität
  4. 4. Element: Modellmanagement im großen Maßstab
  5. 5. Element: Governance
7. Eine Vorlage für MLOps-Governance
  1. 1. Schritt: Verstehen und Kategorisieren der Analytics-Anwendungsfälle
  2. 2. Schritt: Eine ethische Grundhaltung einnehmen
  3. 3. Schritt: Verantwortlichkeiten festlegen
  4. 4. Schritt: Richtlinien für die Governance aufstellen
  5. 5. Schritt: Einbinden von Richtlinien in den MLOps-Prozess
  6. 6. Schritt: Werkzeuge für das zentrale Governance-Management auswählen
  7. 7. Schritt: Einbinden und Schulen
  8. 8. Schritt: Überwachen und Optimieren
8. Abschließende Überlegungen
Teil III MLOps-Anwendungsfälle aus der Praxis
9 MLOps in der Praxis: Kreditrisikomanagement bei der Vergabe von Verbraucherkrediten
1. Hintergründe des geschäftlichen Anwendungsfalls
2. Modellentwicklung
3. Überlegungen zu Bias in Modellen
4. Produktionsvorbereitung
5. Deployment in die Produktivumgebung
6. Abschließende Überlegungen
10 MLOps in der Praxis: Empfehlungssysteme im Marketing
1. Empfehlungssysteme im Wandel der Zeit
  1. Die Rolle von Machine Learning
  2. Push- oder Pull-Empfehlungen?
2. Datenaufbereitung
3. Experimente konzipieren und verwalten
4. Training und Deployment von Modellen
  1. Skalierbarkeit und Anpassungsmöglichkeiten
  2. Monitoring- und Retraining-Strategie
  3. Auswertung der Anfragen in Echtzeit (Real-Time-Scoring)
  4. Möglichkeit, das Empfehlungssystem ein- oder auszuschalten
5. Aufbau der Pipeline und Deployment-Strategie
6. Monitoring und Feedback
  1. Modelle neu trainieren (Retraining)
  2. Modelle aktualisieren
  3. Über Nacht laufen und tagsüber ruhen lassen
  4. Möglichkeiten zur manuellen Anpassung von Modellen
  5. Möglichkeit der automatischen Verwaltung von Modellversionen
  6. Die Qualität des Modells überwachen
7. Abschließende Überlegungen
11 MLOps in der Praxis: die Verbrauchsprognose am Beispiel der Lastprognose
1. Stromversorgungssysteme
2. Datenerhebung
3. Vom Anwendungsfall abhängig: Machine Learning verwenden oder nicht?
4. Räumliche und zeitliche Differenzierung
5. Umsetzung
6. Modellentwicklung
7. Deployment
8. Monitoring
9. Abschließende Überlegungen
Fußnoten
Index

Zu diesem Buch – sowie zu vielen weiteren O’Reilly-Büchern – können Sie auch das entsprechende E-Book im PDF-Format herunterladen. Werden Sie dazu einfach Mitglied bei oreilly.plus⁺:

www.oreilly.plus

MLOps –
Kernkonzepte im Überblick

Machine-Learning-Prozesse im Unternehmen
nachhaltig automatisieren und skalieren

Mark Treveil und das Dataiku-Team

Deutsche Übersetzung von
Marcus Fraaß

Mark Treveil und das Dataiku-Team

Lektorat: Alexandra Follenius

Übersetzung: Marcus Fraaß

Korrektorat: Sibylle Feldmann, www.richtiger-text.de

Satz: III-satz, www.drei-satz.de

Herstellung: Stefanie Weidner

Umschlaggestaltung: Karen Montgomery, Michael Oréal, www.oreal.de

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

ISBN:

978-3-96009-172-1

PDF

978-3-96010-580-0

ePub

978-3-96010-581-7

mobi

978-3-96010-582-4

1. Auflage

Wieblinger Weg 17

69123 Heidelberg

Authorized German translation of the English edition of Introducing MLOps: How to Scale Machine Learning in the Enterprise, ISBN 9781492083290 © 2020 Dataiku. This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same.

Dieses Buch erscheint in Kooperation mit O’Reilly Media, Inc. unter dem Imprint »O’REILLY«. O’REILLY ist ein Markenzeichen und eine eingetragene Marke von O’Reilly Media, Inc. und wird mit Einwilligung des Eigentümers verwendet.

Hinweis:

Dieses Buch wurde auf PEFC-zertifiziertem Papier aus nachhaltiger Waldwirtschaft gedruckt. Der Umwelt zuliebe verzichten wir zusätzlich auf die Einschweißfolie.

Schreiben Sie uns:

Falls Sie Anregungen, Wünsche und Kommentare haben, lassen Sie es uns wissen: kommentar@oreilly.de.

Die vorliegende Publikation ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Verwendung der Texte und Abbildungen, auch auszugsweise, ist ohne die schriftliche Zustimmung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Vervielfältigung, Übersetzung oder die Verwendung in elektronischen Systemen.

Es wird darauf hingewiesen, dass die im Buch verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken- oder patentrechtlichem Schutz unterliegen.

Alle Angaben und Programme in diesem Buch wurden mit größter Sorgfalt kontrolliert. Weder Autor noch Verlag noch Übersetzer können jedoch für Schäden haftbar gemacht werden, die in Zusammenhang mit der Verwendung dieses Buches stehen.

5 4 3 2 1 0

Inhalt

Vorwort

Teil I Was ist MLOps, und warum wird es benötigt?

1 Warum jetzt, und was sind die Herausforderungen?

MLOps – Definition und Herausforderungen

MLOps zum Reduzieren von Risiken

Risikobeurteilung

Risikominderung

Responsible AI durch MLOps

MLOps zur Skalierung von Machine-Learning-Modellen

Abschließende Überlegungen

2 An MLOps-Prozessen beteiligte Personen

Fachexperten

Data Scientists

Data Engineers

Software Engineers

DevOps

Modellrisikomanager/Auditor

Machine Learning Architects

Abschließende Überlegungen

3 Die Kernkomponenten von MLOps

Eine Einführung in Machine Learning

Modellentwicklung

Festlegen von Geschäftszielen

Datenquellen und explorative Datenanalyse

Feature Engineering und Feature Selection

Training und Evaluierung

Reproduzierbarkeit

Responsible AI

Überführung in die Produktion und Deployment

Arten und Elemente des Modell-Deployments

Anforderungen beim Deployment von Modellen

Monitoring

Verantwortungsbereiche des DevOps-Teams

Verantwortungsbereiche des Data-Science-Teams

Verantwortungsbereiche der Managementebene

Iteration und Lebenszyklus

Iteration

Die Feedback-Schleife

Governance

Daten-Governance

Prozess-Governance

Abschließende Überlegungen

Teil II MLOps einsetzen

4 Modellentwicklung

Was genau sind Machine-Learning-Modelle?

Theoretischer Hintergrund

Einsatz in der Praxis

Erforderliche Komponenten

Unterschiedliche ML-Algorithmen – unterschiedliche MLOps-Herausforderungen

Explorative Datenanalyse

Feature Engineering und Feature Selection

Feature-Engineering-Techniken

Wie die Auswahl der Features die MLOps-Strategie beeinflusst

Experimente

Modelle evaluieren und vergleichen

Ein geeignetes Qualitätsmaß auswählen

Gegenprüfen des Modellverhaltens (Cross-Checking)

Auswirkungen von Responsible AI auf die Modellentwicklung

Versionsverwaltung und Reproduzierbarkeit

Abschließende Überlegungen

5 Vorbereitung für die Produktion

Laufzeitumgebungen

Modelle aus der Entwicklungs- in die Produktivumgebung überführen

Datenzugriff vor Validierung und Inbetriebnahme in der Produktion

Abschließende Überlegungen zu Laufzeitumgebungen

Risikobeurteilung von Modellen

Der Zweck der Modellvalidierung

Die Risikotreiber bei Machine-Learning-Modellen

Qualitätssicherung im Rahmen der Verwendung von Machine Learning

Wichtige Überlegungen zum Testen

Reproduzierbarkeit und Überprüfbarkeit

Potenzielle Sicherheitsrisiken im Zusammenhang mit Machine Learning

Adversarial Attacks

Weitere Sicherheitsrisiken

Das Modellrisiko eindämmen

Änderungen in der Umgebung

Wechselwirkungen zwischen Modellen

Fehlverhalten von Modellen

Abschließende Überlegungen

6 Deployment in die Produktivumgebung

CI/CD-Pipelines

ML-Artefakte bauen

Was beinhaltet ein ML-Artefakt?

Die Testpipeline

Deployment-Strategien

Varianten des Modell-Deployments

Überlegungen beim Überführen von Modellen in die Produktivumgebung

Wartung von Modellen im Produktivbetrieb

Containerisierung

Deployments skalieren

Anforderungen und Herausforderungen

Abschließende Überlegungen

7 Monitoring und Feedback-Schleife

Wie häufig sollten Modelle neu trainiert werden?

Leistungsabfall von Modellen überwachen

Bewertung auf Basis der Ground Truth

Abweichungen in den Eingabedaten erkennen (Input-Drift-Detection)

Drift-Erkennung in der Praxis

Mögliche Ursachen für systematische Abweichungen in den Daten

Methoden zur Erkennung systematischer Abweichungen in den Eingabedaten

Die Feedback-Schleife

Logging-System

Modelle evaluieren

Evaluierung während des Produktivbetriebs

Abschließende Überlegungen

8 Modell-Governance

Wer entscheidet, wie die Governance des Unternehmens aussieht?

Anpassung der Governance an das Risikoniveau

Aktuelle Regulierungen als Treiber der MLOps-Governance

Gesetzliche Richtlinien für die US-Pharmaindustrie: GxP

Regulierung des Modellrisikomanagements in der Finanzbranche

Datenschutzbestimmungen gemäß DSGVO und CCPA

Die nächste Welle an KI-spezifischen Regulierungen

Die Entstehung einer verantwortungsvollen KI (Responsible AI)

Schlüsselelemente von Responsible AI

1. Element: Daten

2. Element: Bias

3. Element: Inklusivität

4. Element: Modellmanagement im großen Maßstab

5. Element: Governance

Eine Vorlage für MLOps-Governance

1. Schritt: Verstehen und Kategorisieren der Analytics-Anwendungsfälle

2. Schritt: Eine ethische Grundhaltung einnehmen

3. Schritt: Verantwortlichkeiten festlegen

4. Schritt: Richtlinien für die Governance aufstellen

5. Schritt: Einbinden von Richtlinien in den MLOps-Prozess

6. Schritt: Werkzeuge für das zentrale Governance-Management auswählen

7. Schritt: Einbinden und Schulen

8. Schritt: Überwachen und Optimieren

Abschließende Überlegungen

Teil III MLOps-Anwendungsfälle aus der Praxis

9 MLOps in der Praxis: Kreditrisikomanagement bei der Vergabe von Verbraucherkrediten

Hintergründe des geschäftlichen Anwendungsfalls

Modellentwicklung

Überlegungen zu Bias in Modellen

Produktionsvorbereitung

Deployment in die Produktivumgebung

Abschließende Überlegungen

10 MLOps in der Praxis: Empfehlungssysteme im Marketing

Empfehlungssysteme im Wandel der Zeit

Die Rolle von Machine Learning

Push- oder Pull-Empfehlungen?

Datenaufbereitung

Experimente konzipieren und verwalten

Training und Deployment von Modellen

Skalierbarkeit und Anpassungsmöglichkeiten

Monitoring- und Retraining-Strategie

Auswertung der Anfragen in Echtzeit (Real-Time-Scoring)

Möglichkeit, das Empfehlungssystem ein- oder auszuschalten

Aufbau der Pipeline und Deployment-Strategie

Monitoring und Feedback

Modelle neu trainieren (Retraining)

Modelle aktualisieren

Über Nacht laufen und tagsüber ruhen lassen

Möglichkeiten zur manuellen Anpassung von Modellen

Möglichkeit der automatischen Verwaltung von Modellversionen

Die Qualität des Modells überwachen

Abschließende Überlegungen

11 MLOps in der Praxis: die Verbrauchsprognose am Beispiel der Lastprognose

Stromversorgungssysteme

Datenerhebung

Vom Anwendungsfall abhängig: Machine Learning verwenden oder nicht?

Räumliche und zeitliche Differenzierung

Umsetzung

Modellentwicklung

Deployment

Monitoring

Abschließende Überlegungen

Index

Vorwort

Wir haben einen Wendepunkt in der Geschichte des maschinellen Lernens erreicht, an dem die Technologie aus dem theoretischen und dem akademischen Umfeld in die »reale Welt« vorgedrungen ist – d.h. in Unternehmen, die alle möglichen Arten von Dienstleistungen und Produkten für Menschen auf der ganzen Welt anbieten. Dieser Wandel ist nicht nur äußerst spannend, sondern stellt auch eine Herausforderung dar, da er die Komplexität von Machine-Learning-Modellen mit der Komplexität moderner Unternehmen zusammenbringt.

Eine Schwierigkeit, wenn Unternehmen von der experimentellen Nutzung des Machine Learning zur Skalierung in Produktivumgebungen übergehen, stellt die Wartung dar. Wie können Unternehmen von der Verwaltung eines einzigen Modells zum Managen von Dutzenden, Hunderten oder sogar Tausenden übergehen? Hier kommt nicht nur MLOps ins Spiel, sondern auch die bereits erwähnten Komplexitäten, und zwar sowohl auf der technischen als auch auf der geschäftlichen Ebene. Dieses Buch führt Leserinnen und Leser in diese Herausforderungen ein und bietet gleichzeitig praktische Einblicke und Lösungen für die Entwicklung von Fähigkeiten im Bereich MLOps.

An wen sich dieses Buch richtet

Wir haben dieses Buch speziell für Managerinnen und Manager von Analytics- und IT-Operations-Teams geschrieben, also für die Personen, die direkt mit der Aufgabe betraut sind, Machine Learning (ML) in einer Produktivumgebung zu skalieren. Da MLOps ein neues Feld ist, haben wir dieses Buch als Leitfaden für das Erstellen einer erfolgreichen MLOps-Umgebung konzipiert, beginnend bei den organisatorischen bis hin zu den technischen Herausforderungen.

Aufbau des Buchs

Dieses Buch ist in drei Hauptteile gegliedert. Teil I, Was ist MLOps, und warum wird es benötigt?, stellt das Thema MLOps grundlegend vor und geht darauf ein, wie (und warum) es sich als Disziplin entwickelt hat, wer beteiligt sein sollte, um MLOps erfolgreich durchzuführen, und welche Bausteine erforderlich sind.

Teil II, MLOps einsetzen, orientiert sich im Wesentlichen an dem Lebenszyklus von Machine-Learning-Modellen und umfasst mehrere Kapitel, die sich mit der Entwicklung von Modellen, der Produktionsvorbereitung, dem Deployment in die Produktivumgebung, dem Monitoring und der Governance befassen. Diese Kapitel behandeln nicht nur allgemeine Aspekte, sondern auch solche, die sich speziell auf den Einsatz von MLOps in jeder Phase des Lebenszyklus beziehen, wodurch die in Kapitel 3, Die Kernkomponenten von MLOps, behandelten Themen noch genauer ausgeführt werden.

Teil III, MLOps-Anwendungsfälle aus der Praxis, enthält konkrete Beispiele, die Ihnen zeigen sollen, wie MLOps heute in Unternehmen aussieht, wie es konzeptioniert ist und mit welchen Implikationen zu rechnen ist. Obwohl die Firmennamen fiktiv gewählt wurden, basieren die Beispiele auf Erfahrungen, die reale Unternehmen im Zusammenhang mit MLOps und einem im großen Maßstab angelegten Modellmanagement gemacht haben.

Danksagungen

Wir möchten dem gesamten Dataiku-Team für seine Unterstützung bei der Entstehung dieses Buchs danken, angefangen von der Konzeption bis hin zur Fertigstellung. Es war eine echte Teamleistung und ist, wie die meisten Dinge, die wir bei Dataiku machen, das Ergebnis einer intensiven Zusammenarbeit zwischen unzähligen Menschen und Teams.

Danke an alle, die unsere Idee, dieses Buch mit O’Reilly herauszubringen, von Anfang an unterstützt haben. Danke an alle, die beim Schreiben und Herausgeben mitgeholfen haben. Ebenfalls danke an alle, die uns ehrliches Feedback gegeben haben (auch wenn es zur Folge hatte, noch mehr zu schreiben oder umzuschreiben). Danke an alle, die uns intern stets ermutigt haben, und natürlich an alle, die uns geholfen haben, das finale Produkt der weltweiten Öffentlichkeit vorstellen zu können.

TEIL I

Was ist MLOps, und warum wird es benötigt?

KAPITEL 1

Warum jetzt, und was sind die Herausforderungen?

Machine Learning Operations (MLOps) entwickelt sich zusehends zu einer unverzichtbaren Komponente, um Data-Science-Projekte im Unternehmen erfolgreich in den Einsatz zu bringen (siehe Abbildung 1-1). Dabei handelt es sich um Prozesse, die dem Unternehmen und den Verantwortlichen dabei helfen, im Zusammenhang mit Data Science, Machine Learning und KI-Projekten langfristigen Wert zu generieren und Risiken zu reduzieren. Dennoch stellt MLOps ein relativ neues Konzept dar. Warum hat es also scheinbar über Nacht Einzug in das Data-Science-Lexikon erhalten? In diesem einführenden Kapitel wird erläutert, was MLOps auf einer übergeordneten Ebene ist, welche Herausforderungen es mit sich bringt, warum es für eine erfolgreiche Data-Science-Strategie im Unternehmen unverzichtbar geworden ist und, was besonders wichtig ist, warum es gerade jetzt in den Vordergrund rückt.

MLOps im Vergleich zu ModelOps und AIOps

MLOps (oder ModelOps) ist eine relativ neue Fachdisziplin, die seit Ende des Jahres 2018 unter diesen Namen in Erscheinung trat. Die beiden Termini – MLOps und ModelOps – werden zum Zeitpunkt der Erstellung dieses Buchs weitgehend synonym verwendet. Einige argumentieren jedoch, dass ModelOps umfassender als MLOps ist, da es nicht nur um Machine-Learning-(ML)-Modelle geht, sondern um jede Art von Modellen (z.B. auch regelbasierte Modelle). Im Rahmen dieses Buchs werden wir uns speziell mit dem Lebenszyklus von ML-Modellen befassen und daher den Begriff MLOps verwenden.

Auch wenn es manchmal mit MLOps verwechselt wird, bezieht sich AIOps hingegen auf ein ganz anderes Thema und bezeichnet den Prozess der Lösung operativer Herausforderungen im Rahmen des Einsatzes von künstlicher Intelligenz (d.h. KI für DevOps). Ein Beispiel wäre eine Form der vorausschauenden Wartung im Zusammenhang mit Netzwerkausfällen, bei der DevOps-Teams auf mögliche Probleme aufmerksam gemacht werden, bevor sie auftreten. Obwohl AIOps für sich genommen wichtig und interessant ist, liegt es außerhalb des Rahmens dieses Buchs.

Abbildung 1-1: Darstellung des exponentiell verlaufenden Suchtrends des Begriffs »MLOps« (ohne gleichzeitige Berücksichtigung des Terminus »ModelOps«)

MLOps – Definition und Herausforderungen

Im Kern ist MLOps die Standardisierung und Straffung des Lebenszyklusmanagements von ML-Modellen (siehe Abbildung 1-2). Doch weshalb muss der ML-Lebenszyklus überhaupt gestrafft werden? Oberflächlich betrachtet, könnte man annehmen, dass die Arbeitsschritte, die vom Geschäftsproblem zu einem ML-Modell führen, sehr einfach sind.

Für die meisten traditionellen Unternehmen ist die Entwicklung mehrerer Machine-Learning-Modelle und deren Einsatz in einer Produktivumgebung relativ neu. Bis vor Kurzem war die Anzahl der Modelle vielleicht noch überschaubar, oder es bestand einfach weniger Interesse daran, diese Modelle und ihre Abhängigkeiten auf unternehmensweiter Ebene zu verstehen. Mit der fortschreitenden Automatisierung von Entscheidungsprozessen (d.h. mit einer zunehmenden Verbreitung von Entscheidungen, die ohne menschliches Zutun getroffen werden) rücken Modelle immer stärker in den Fokus, und parallel dazu wird auch das Management von Modellrisiken auf höchster Ebene immer wichtiger.

Insbesondere in Bezug auf die Anforderungen und die genutzten Tools erweist sich das Lebenszyklusmanagement von Machine-Learning-Modellen in einem Unternehmen tatsächlich als durchaus komplex (siehe Abbildung 1-3).

Abbildung 1-2: Eine vereinfachte Darstellung des Lebenszyklus von ML-Modellen, die die Notwendigkeit von MLOps nur unzureichend abbildet, speziell im Vergleich zu Abbildung 1-3

Es gibt drei Hauptgründe dafür, dass das Lebenszyklusmanagement skalierbarer ML-Modelle eine Herausforderung darstellt:

Es gibt zahlreiche Abhängigkeiten. Nicht nur die Daten ändern sich ständig, sondern auch die geschäftlichen Anforderungen. Neue Informationen müssen kontinuierlich an das Unternehmen zurückgegeben werden, um sicherzustellen, dass der Produktivbetrieb des Modells, auch in Bezug auf die Akkuranz der Produktionsdaten, mit den Erwartungen übereinstimmt und – was von entscheidender Bedeutung ist – dass das ursprüngliche Problem gelöst bzw. die ursprüngliche Zielsetzung erreicht wird.
Nicht alle sprechen die gleiche Sprache. Auch wenn am ML-Lebenszyklus Mitarbeiter aus Business-, Data-Science- und IT-Teams beteiligt sind, ist es nicht zwingend gegeben, dass diese Teams die gleichen Tools oder – in vielen Fällen – sogar die gleichen grundlegenden Fähigkeiten, die als Kommunikationsbasis dienen, teilen.
Data Scientists sind keine Softwareentwickler. Die meisten sind auf die Entwicklung und Evaluierung von Modellen spezialisiert, und ihr Know-how liegt nicht zwingend in der Entwicklung von Anwendungen. Obwohl sich dies im Laufe der Zeit ändern könnte, da sich einige Data Scientists auf die Bereitstellung bzw. den Betrieb von Modellen spezialisieren werden, müssen derzeit viele Data Scientists mit verschiedenen Rollen gleichzeitig jonglieren, was es schwierig macht, eine davon vollständig auszufüllen. Die Überforderung von Data Scientists wird insbesondere im Rahmen der Skalierung – wenn es immer mehr Modelle zu verwalten gibt – problematisch. Noch komplexer wird es, wenn man zusätzlich die Fluktuation der Mitarbeitenden in den Datenteams berücksichtigt: Schließlich gibt es nicht wenige Data Scientists, die sich plötzlich dazu gezwungen sehen, Modelle zu verwalten, die sie nicht selbst entwickelt haben.

Abbildung 1-3: Ein realistischeres Bild des Lebenszyklus eines ML-Modells in einem modernen Unternehmen, in den viele verschiedene Personen mit völlig unterschiedlichen Fähigkeiten involviert sind, die oft völlig unterschiedliche Tools verwenden

Wenn Ihnen die Definition (oder lediglich die Bezeichnung MLOps) bekannt vorkommt, liegt das vor allem daran, dass sie sich stark an das Konzept, das hinter Dev-Ops steht, anlehnt: DevOps dient dazu, die Prozesse im Rahmen von Softwareänderungen und -aktualisierungen zu straffen. In der Tat haben beide Konzepte ziemlich viel gemeinsam. Zum Beispiel geht es bei beiden darum,

eine robuste Automatisierung und vertrauensvolle Zusammenarbeit zwischen den Teams zu gewährleisten,
den Leitgedanken einer kooperativen Zusammenarbeit und einer verbesserten Kommunikation zwischen den Teams zu fördern,
den Lebenszyklus des Diensts ganzheitlich (Build, Test, Release) zu berücksichtigen und
den Schwerpunkt auf eine kontinuierliche Auslieferung (Continuous Delivery) und hohe Qualitätsanforderungen zu setzen.

Es gibt jedoch einen entscheidenden Unterschied zwischen MLOps und DevOps, der dafür sorgt, dass letzteres Konzept nicht sofort auf Data-Science-Teams übertragbar ist: In der Produktion unterscheidet sich das Deployment von Softwareprogrammen grundlegend vom Deployment von ML-Modellen. Während Softwareprogramme relativ statisch sind (»relativ«, da viele moderne Software-as-a-Service-(SaaS-)Unternehmen bereits über DevOps-Teams verfügen, die recht schnell iterieren und in der Produktion mehrmals am Tag deployen können), ändern sich Daten hingegen ständig, was bedeutet, dass ML-Modelle ständig neu (hinzu-)lernen und sich an neue Eingabedaten anpassen – oder eben nicht. Die dieser Umgebung zugrunde liegende Komplexität – einschließlich der Tatsache, dass ML-Modelle sowohl aus Programmcode als auch aus Daten bestehen – ist der Grund dafür, dass MLOps zu einer neuen und einzigartigen Disziplin heranwächst.

Und was hat es mit DataOps auf sich?

Zusätzlich zur komplexen Gegenüberstellung von MLOps und DevOps müssen wir noch den Begriff DataOps abgrenzen, der im Jahr 2014 von IBM eingeführt wurde. DataOps zielt darauf ab, geschäftsfähige Daten bereitzustellen, die schnell für die Nutzung verfügbar sind, wobei der Datenqualität und der Metadatenverwaltung ein besonderer Stellenwert beigemessen wird. Wenn es beispielsweise eine plötzliche Änderung in den Daten gibt, auf denen ein Modell beruht, würde ein Data-Ops-System das Businessteam alarmieren, damit es sich sorgfältig mit den neuesten Erkenntnissen befasst, und das Datenteam würde ebenfalls informiert werden, damit es die Änderung untersuchen oder ein Upgrade einer Bibliothek rückgängig machen und die entsprechende Partition neu erstellen kann.

Die Entwicklung von MLOps überschneidet sich daher auf einer gewissen Ebene mit DataOps, obwohl MLOps einen Schritt weitergeht und durch zusätzliche Kernfunktionen (die in Kapitel 3 ausführlicher erläutert werden) eine noch stärkere Robustheit bietet.

Wie bei DevOps und später auch bei DataOps konnten sich Teams bis vor Kurzem ohne vordefinierte und zentralisierte Prozesse behelfen, vor allem weil sie maschinelle Lernmodelle – auf Unternehmensebene – nicht in so großem Maßstab angelegt in die Produktion brachten. Jetzt wendet sich das Blatt, und die Teams suchen zunehmend nach Möglichkeiten, einen mehrstufigen, multidisziplinären und mehrphasigen Prozess mit einer heterogenen Umgebung und einem Rahmen für MLOps-Best-Practices zu formalisieren, was keine kleine Aufgabe darstellt. Teil II des Buchs, MLOps einsetzen, wird Ihnen hierzu einen Leitfaden bieten.

MLOps zum Reduzieren von Risiken

MLOps ist wichtig für jedes Team, das auch nur ein Modell im Produktivbetrieb hat, da je nach Modell eine kontinuierliche Leistungsüberwachung und -anpassung erforderlich ist. Indem es einen sicheren und zuverlässigen Betrieb ermöglicht, ist MLOps der Schlüssel zur Eindämmung der Risiken, die durch den Einsatz von ML-Modellen entstehen. Allerdings sind mit dem Einsatz von MLOps auch Kosten verbunden, für jeden Anwendungsfall sollte daher eine angemessene Kosten-Nutzen-Bewertung durchgeführt werden.

Risikobeurteilung

In Bezug auf ML-Modelle gibt es sehr unterschiedliche Risiken. Zum Beispiel sind die Risiken bei der Nutzung eines Empfehlungssystems, das einmal im Monat verwendet wird, um zu entscheiden, welches Marketingangebot an einen Kunden geschickt werden soll, viel geringer als bei einer Reiseplattform, deren Preissetzung und Umsatz von einem ML-Modell abhängen. Daher sollte sich die Analyse bei der Betrachtung von MLOps als Möglichkeit zur Risikominimierung auf folgende Risiken erstrecken:

Das Risiko, dass das Modell für eine bestimmte Zeitspanne nicht verfügbar ist.
Das Risiko, dass das Modell für eine bestimmte Beobachtung eine unzutreffende Vorhersage liefert.
Das Risiko, dass die Genauigkeit oder die Fairness des Modells mit der Zeit abnimmt.
Das Risiko, dass die zur Wartung des Modells erforderlichen Kompetenzen (d.h. die Fähigkeiten der jeweiligen Data Scientists) nicht mehr zur Verfügung stehen.

Bei Modellen, die weit verbreitet sind und außerhalb des eigenen Unternehmens eingesetzt werden, sind die Risiken in der Regel größer. Wie in Abbildung 1-4 gezeigt, basiert die Risikobeurteilung im Allgemeinen auf zwei Größen: der Eintrittswahrscheinlichkeit und dem Schadensausmaß des unerwünschten Ereignisses. Maßnahmen zur Risikominderung basieren in der Regel auf einer Kombination aus beidem, dem sogenannten Risikograd bzw. -ausmaß des Modells. Die Risikobeurteilung sollte zu Beginn eines jeden Projekts durchgeführt und in regelmäßigen Abständen neu bewertet werden, da Modelle auf eine ursprünglich nicht vorgesehene Weise verwendet werden können.

Abbildung 1-4: Eine Tabelle, die Entscheidungsträgern bei der quantitativen Risikobeurteilung hilft und auf Eintrittswahrscheinlichkeit und Schadensausmaß des Ereignisses basiert.

Risikominderung

MLOps trägt vor allem dann entscheidend zur Risikominderung bei, wenn ein zentrales Team (mit einer klaren Berichterstattung über seine Aktivitäten – was nicht bedeutet, dass es in einem Unternehmen nicht mehrere solcher Teams geben kann) mehr als eine Handvoll Modelle im operativen Einsatz hat. An diesem Punkt wird es schwierig, den Gesamtüberblick über die Zustände dieser Modelle ohne eine Form der Standardisierung zu behalten, die es ermöglicht, für jedes dieser Modelle die entsprechenden Maßnahmen zur Risikominderung ergreifen zu können (siehe den Abschnitt »Anpassung der Governance an das Risikoniveau« auf Seite 133).

Es ist aus vielen Gründen riskant, ML-Modelle in die Produktivumgebung zu überführen, ohne dass eine entsprechende MLOps-Infrastruktur vorhanden ist, zumal eine vollständige Bewertung der Leistung bzw. der Güte eines ML-Modells oft nur in der Produktivumgebung erfolgen kann. Warum? Weil Prognosemodelle nur so gut sind wie die Daten, auf denen sie trainiert wurden. Das bedeutet, dass die Trainingsdaten ein gutes Abbild der Daten sein müssen, die in der Produktivumgebung anfallen. Wenn sich die Rahmenbedingungen in der Produktion ändern, wird infolgedessen wahrscheinlich relativ schnell auch die Güte des Modells darunter leiden (siehe Kapitel 5 für Einzelheiten).

Ein weiterer sehr bedeutender Risikofaktor ist, dass die Leistung von ML-Modellen oft sehr empfindlich auf die Produktivumgebung reagiert, in der sie ausgeführt werden, einschließlich der verwendeten Softwareversionen und Betriebssysteme. Sie neigen nicht dazu, im Sinne klassischer Softwareanwendungen fehlerhaft zu sein, da die Entscheidungen, die die Anwendung trifft, meistens nicht von Hand programmiert, sondern maschinell generiert wurden. Stattdessen besteht das Problem darin, dass sie oft auf einer Vielzahl von Open-Source-Softwarekomponenten (z.B. Bibliotheken wie scikit-learn, Python oder Linux) beruhen. Deshalb es ist von entscheidender Bedeutung, dass die Versionen dieser Softwarekomponenten in der Produktion mit denen übereinstimmen, auf denen das Modell zuvor auf seine Funktionsfähigkeit überprüft wurde.

Letztendlich ist die Überführung von Modellen in die Produktion nicht der letzte Schritt im ML-Lebenszyklus – ganz im Gegenteil. Es ist oft nur der Beginn der Leistungsüberwachung und der Sicherstellung, dass sich die Modelle wie erwartet verhalten. Je mehr ML-Modelle in die Produktion überführt werden (und je mehr Personen darin eingebunden sind), desto wichtiger wird MLOps, um die potenziellen Risiken zu minimieren, die – wenn etwas schiefgeht – (je nach Modell) verheerend für das Unternehmen sein können. Die Überwachung ist auch wichtig, damit das Unternehmen genau weiß, wie vielfältig jedes Modell genutzt wird.

Responsible AI durch MLOps

Ein verantwortungsvoller Umgang mit Machine-Learning-Systemen (im Allgemeinen als Responsible AI bezeichnet) berücksichtigt zwei wesentliche Aspekte:

Zweckmäßigkeit (engl. Intentionality)

Es muss darauf geachtet werden, dass die Modelle so gestaltet sind und sich so verhalten, wie es ihrem Zweck entspricht. Dazu gehört auch, dass sichergestellt wird, dass die für KI-Projekte verwendeten Daten aus konformen und vorurteilsfreien bzw. unverzerrten (unbiased) Quellen stammen, und dass es einen kollaborativen Ansatz bei KI-Projekten gibt, der eine mehrfache Überprüfung möglicher Modellverzerrungen gewährleistet. Zur Zweckmäßigkeit gehört ebenfalls die Erklärbarkeit (engl. Explainability), d.h., die Ergebnisse von KI-Systemen sollten für Menschen erklärbar und nachvollziehbar sein (idealerweise nicht nur für die Personen, die das System entwickelt haben).

Verantwortlichkeit (engl. Accountability)

Der Aspekt der Verantwortlichkeit zielt auf eine zentrale Steuerung, Verwaltung und Prüfung (engl. Controlling, Managing, Auditing) aller unternehmensweiten Aktivitäten im Bereich künstlicher Intelligenz – keine Shadow IT (https://oreil.ly/2k0G2)! Bei der Verantwortlichkeit geht es darum, einen Gesamtüberblick darüber zu haben, welche Teams welche Daten wie und in welchen Modellen verwenden. Dazu gehören auch das Wissen, dass die Daten verlässlich sind und vorschriftsmäßig erhoben werden, sowie ein zentraler Überblick darüber, welche Modelle für welche Geschäftsprozesse verwendet werden. Dies ist eng mit der Rückverfolgbarkeit (engl. Traceability) verbunden: Wenn ein Fehler auftritt, lässt sich dann leicht feststellen, wo dies in der Pipeline geschehen ist?

Diese Prinzipien mögen offensichtlich erscheinen, aber es ist wichtig, zu realisieren, dass ML-Modellen die Transparenz von traditionellem imperativem Programmcode fehlt. Mit anderen Worten: Es ist viel schwieriger zu verstehen, welche Features (auch als Merkmale bezeichnet) zur Bestimmung einer Vorhersage verwendet werden, was es wiederum deutlich schwerer machen kann, nachzuweisen, dass die Modelle den zugrunde liegenden regulatorischen oder internen Governance-Anforderungen entsprechen.

Die Realität ist, dass die zunehmende Automatisierung von Entscheidungen durch die Verwendung von ML-Modellen die grundsätzliche Verantwortung von der unteren Ebene der Hierarchie nach oben verlagert. Das heißt, Entscheidungen, die früher vielleicht von einzelnen Mitarbeitern getroffen wurden, die innerhalb eines Rahmens von Richtlinien agierten (z.B. wie hoch der Preis eines bestimmten Produkts sein sollte oder ob einer Person ein Kredit gewährt werden sollte oder nicht), werden nun von einem Modell getroffen. Die verantwortliche Person für die automatisierten Entscheidungen des besagten Modells ist wahrscheinlich ein Datenteammanager oder sogar eine Führungskraft, und das rückt das Konzept der Responsible AI noch stärker in den Vordergrund.

Angesichts der zuvor besprochenen Risiken sowie dieser besonderen Herausforderungen und Prinzipien ist das Zusammenspiel zwischen MLOps und Responsible AI offensichtlich. Um KI verantwortungsvoll einzusetzen, müssen die jeweiligen Teams über gute MLOps-Prinzipien verfügen, was wiederum MLOps-Strategien voraussetzt. Angesichts der Tragweite dieses Themas werden wir im Laufe dieses Buchs mehrfach darauf zurückkommen und beleuchten, wie es jeweils zu jeder Phase des Lebenszyklus eines ML-Modells angegangen werden sollte.

MLOps zur Skalierung von Machine-Learning-Modellen

MLOps ist nicht nur wichtig, um die mit ML-Modellen verbundenen Risiken in der Produktion zu mindern, es ist auch eine wesentliche Komponente, um einen groß angelegten Einsatz von ML-Modellen zu ermöglichen (und um von den entsprechenden Skaleneffekten zu profitieren). Um von einem oder einer Handvoll Modellen in der Produktion auf Dutzende, Hunderte oder Tausende zu gelangen, die einen positiven Einfluss auf das Geschäft haben, ist eine große Disziplin im Hinblick auf MLOps erforderlich.

Gute MLOps-Praktiken helfen den Teams auf jeden Fall dabei:

die Versionierung im Auge zu behalten, insbesondere bei Experimenten in der Entwicklungsphase.
zu verstehen, ob neu trainierte Modelle besser sind als die vorherigen Versionen (und Modelle in die Produktion zu überführen, die besser abschneiden).
sicherzustellen (in vordefinierten Zeiträumen, d.h. täglich, monatlich usw.), dass die Leistung des Modells in der Produktion nicht abnimmt.

Abschließende Überlegungen

Die wichtigsten MLOps-Elemente werden ausführlich in Kapitel 3 besprochen, aber der entscheidende Punkt an dieser Stelle ist, dass diese Vorgehensweisen keineswegs optional sind. Sie sind unerlässlich, um Data Science und Machine Learning auf Unternehmensebene nicht nur effizient zu skalieren, sondern dies auch auf eine Weise zu tun, die das Unternehmen nicht gefährdet. Teams, die versuchen, Data Science ohne angemessene MLOps-Prozesse einzusetzen, werden Probleme mit der Modellqualität und der Modellbeständigkeit haben – oder, schlimmer noch, sie werden Modelle einführen, die einen realen, negativen Einfluss auf das Unternehmen haben (z.B. ein Modell, das voreingenommene Vorhersagen trifft, die ein schlechtes Licht auf das Unternehmen werfen).

Auch auf übergeordneter Unternehmensebene ist MLOps ein wichtiger Bestandteil einer transparenten ML-Strategie. Das höhere Management und die Unternehmensleitung sollten ebenso wie die Data Scientists in der Lage sein, zu verstehen, welche ML-Modelle in der Produktion eingesetzt werden und welche Auswirkungen sie auf das Unternehmen haben. Darüber hinaus sollten sie in der Lage sein, die gesamte Datenpipeline (d.h. die Schritte, die von der Erfassung der Rohdaten bis zur endgültigen Ausgabe durchlaufen werden) hinter diesen maschinellen Lernmodellen zu verstehen. Wie im weiteren Verlauf des Buchs beschrieben, kann MLOps dieses Maß an Transparenz und Verantwortlichkeit herbeiführen.

KAPITEL 2

An MLOps-Prozessen beteiligte Personen

Auch wenn Machine-Learning-(ML-)Modelle in erster Linie von Data Scientists erstellt werden, ist es ein weitverbreitetes Missverständnis, dass nur Data Scientists von robusten MLOps-Prozessen und -Systemen profitieren können. In Wirklichkeit ist MLOps ein wesentlicher Bestandteil der KI-Strategie eines Unternehmens und betrifft jeden, der am Lebenszyklus von ML-Modellen mitwirkt bzw. davon profitiert.

Dieses Kapitel behandelt die Rollen, die den beteiligten Personen im ML-Lebenszyklus jeweils zukommen. Außerdem bespricht es, mit wem sie im Rahmen einer hochwertigen MLOps-Strategie idealerweise verbunden sein und zusammenarbeiten sollten, um die bestmöglichen Ergebnisse aus den Bemühungen im Bereich des Machine Learning zu erzielen, und welche Anforderungen an MLOps sie unter Umständen haben.

Es ist wichtig, anzumerken, dass sich dieses Handlungsfeld permanent weiterentwickelt. Ständig kommen neue Berufsbezeichnungen auf, die hier vielleicht nicht aufgeführt sind, und es ergeben sich fortwährend neue Herausforderungen (oder Überschneidungen) bei den MLOps-Verantwortlichkeiten.

Bevor wir zu den Details vordringen, werfen wir einen Blick auf die folgende Tabelle, die uns einen ersten Überblick verschafft:

Rolle	Rolle im ML-Lebenszyklus	Anforderungen an MLOps
Fachexperten	Stellen Geschäftsfragen, Ziele oder KPIs bereit, an denen ML-Modelle ausgerichtet werden sollen. Bewerten und stellen fortlaufend sicher, dass die Leistung des Modells mit dem ursprünglichen Zweck übereinstimmt bzw. diesen erfüllt.	Einfache Möglichkeit, die Leistung des eingesetzten Modells in geschäftlicher Hinsicht zu beurteilen. Mechanismus bzw. Feedback-Schleife zur Kenntlichmachung von Modellergebnissen, die nicht mit den Geschäftsanforderungen übereinstimmen.
Data Scientists	Erstellen Modelle, die auf die von Fachexperten eingebrachten geschäftlichen Fragen oder Belange eingehen. Liefern operationalisierbare Modelle, damit diese in der Produktivumgebung und mit Produktionsdaten ordnungsgemäß verwendet werden können. Bewerten die Qualität der Modelle (sowohl des Ausgangsmodells als auch der Modelle, mit denen getestet wird) in Zusammenarbeit mit Fachexperten, um sicherzustellen, dass sie die ursprünglichen Geschäftsfragen oder -anforderungen beantworten bzw. erfüllen.	Automatisierte Modellpaketierung und -auslieferung für ein schnelles und einfaches (und dennoch sicheres) Deployment in der Produktion. Möglichkeit, Tests zu entwickeln, um die Qualität der eingesetzten Modelle zu bestimmen und kontinuierliche Verbesserungen vorzunehmen. Übersicht über die Leistung aller eingesetzten Modelle (einschließlich des Parallelbetriebs von Tests) von einer zentralen Stelle aus. Möglichkeit, die Datenpipelines der einzelnen Modelle zu untersuchen, um schnelle Bewertungen und Anpassungen vorzunehmen, unabhängig davon, wer das Modell ursprünglich erstellt hat.
Data Engineers	Optimieren den Zugang und die Nutzung von Daten, mit denen ML-Modelle betrieben werden.	Transparenz hinsichtlich der Leistung aller eingesetzten Modelle. Möglichkeit, alle Details der einzelnen Datenpipelines zu überblicken, um zugrunde liegende Probleme bei der Datenversorgung zu beheben.
Software Engineers	Integrieren ML-Modelle in die Anwendungen und Systeme des Unternehmens. Stellen sicher, dass ML-Modelle nahtlos mit anderen, nicht auf Machine Learning basierenden Anwendungen zusammenarbeiten.	Versionierung und automatische Tests. Möglichkeit, gleichzeitig an derselben Anwendung zu arbeiten.
DevOps	Bauen einsatzfähige Systeme auf und testen diese auf Sicherheit, Leistung und Verfügbarkeit. Verwalten Continuous-Integration/Continuous-Delivery-(CI/CD-)Pipelines.	Nahtlose Integration von MLOps in die übergeordnete DevOps-Strategie des Unternehmens. Lückenlose Deployment-Pipeline.
Modellrisikomanager/Auditoren	Minimieren das Gesamtrisiko für das Unternehmen infolge des Einsatzes von ML-Modellen in der Produktion. Stellen sicher, dass die internen und externen Anforderungen eingehalten werden, bevor ML-Modelle in die Produktion überführt werden.	Zuverlässige, möglichst automatisierte Reporting-Tools für alle Modelle (aktuell oder jemals in Produktion), einschließlich der Datenhistorie.
Machine Learning Architects	Gewährleisten eine skalierbare und flexible Umgebung für ML-Modellpipelines vom Design über die Entwicklung bis hin zur Überwachung. Führen gegebenenfalls neue Technologien ein, die die Leistung von ML-Modellen in der Produktion verbessern.	Allgemeiner Überblick über Modelle und ihre benötigten Ressourcen Möglichkeit, Datenpipelines zu durchleuchten, um die Infrastruktur zu bewerten und anzupassen.

Fachexperten

Als erstes Profil im Rahmen der Aktivitäten von MLOps sind die Fachexperten (engl. Subject Matter Experts, SMEs) zu berücksichtigen; schließlich beginnt und endet der ML-Lebenszyklus mit ihnen. Wenngleich die datenorientierten Rollen (Data Scientists, Engineers, Architects usw.) über Fachwissen in vielen Bereichen verfügen, fehlt ihnen in der Regel ein tieferes Verständnis für das Geschäftsmodell und die Probleme oder Fragen, die mit ML-Modellen gelöst werden sollen.

Fachexperten müssen bzw. sollten zumindest in der Regel in den MLOps-Prozess eingebunden werden – um ihre klar definierten Ziele, Geschäftsfragen und/oder wichtigen Leistungskennzahlen (KPIs), die sie erreichen oder adressieren möchten, ausreichend berücksichtigen zu können. In einigen Fällen können diese sehr konkret definiert sein (z.B. »Um unsere Zahlen für das Quartal zu erreichen, müssen wir die Kundenabwanderung um 10 % reduzieren« oder »Wir verlieren X € pro Quartal aufgrund ungeplanter Wartungsarbeiten; wie können wir Ausfallzeiten besser vorhersagen?«). In anderen Fällen sind die Ziele und Fragen vielleicht weniger klar definiert (z.B. »Unsere Servicemitarbeiter müssen unsere Kunden besser verstehen, um ihnen im nächsten Schritt ein höherwertiges Produkt (Upselling) anbieten zu können« oder »Wie können wir die Menschen dazu bringen, mehr Produkte bzw. Anwendungen zu kaufen?«).

In Unternehmen mit funktionierenden Prozessen ist es nicht immer zwingend notwendig oder gar ideal, den Lebenszyklus von ML-Modellen mit einer fest vordefinierten Geschäftsfrage zu beginnen. Die Arbeit mit einem weniger klar definierten Geschäftsziel kann eine gute Gelegenheit für Fachexperten sein, im Vorfeld direkt mit den Data Scientists zusammenzuarbeiten, um das Problem besser zu umreißen und mögliche Lösungen zu erarbeiten, bevor überhaupt mit der Datenexploration oder den Modellexperimenten begonnen wird.

Ohne diese anfängliche Einbindung von Fachexperten wird riskiert, dass andere Datenexperten (insbesondere Data Scientists) den Lebenszyklus von ML-Modellen so angehen, dass sie Probleme lösen bzw. Lösungen anbieten, die nicht dem gesamten Unternehmen dienen. Letztendlich ist dies nicht nur für die Fachexperten nachteilig, die mit Data Scientists und anderen Datenexperten zusammenarbeiten müssen, um Lösungen zu entwickeln, sondern auch für die Data Scientists selbst, die möglicherweise Schwierigkeiten haben, einen Mehrwert zu stiften.

Wenn Fachexperten nicht in den ML-Lebenszyklus involviert sind, können Datenteams infolgedessen ohne konkrete Geschäftsergebnisse dastehen und dadurch Schwierigkeiten haben, die nötige Aufmerksamkeit und zusätzliches Budget oder Unterstützung zu erlangen, um fortgeschrittenere Analyseinitiativen fortzusetzen. Letztendlich ist dies schlecht für die Datenteams, für die Fachexperten und für das Unternehmen als Ganzes.

Um die Einbeziehung von Fachexperten besser zu strukturieren, können Methoden zur Modellierung von Geschäftsentscheidungen genutzt werden, um die zu lösenden Geschäftsprobleme zu formalisieren und die Rolle von Machine Learning im Hinblick auf die Lösung zu klären.

Modellieren von Geschäftsentscheidungen

MLOps –Kernkonzepte im Überblick

Inhalt

Vorwort

An wen sich dieses Buch richtet

Aufbau des Buchs

Danksagungen

TEIL I

Was ist MLOps, und warum wird es benötigt?

KAPITEL 1

Warum jetzt, und was sind die Herausforderungen?

MLOps – Definition und Herausforderungen

MLOps zum Reduzieren von Risiken

Risikobeurteilung

Risikominderung

Responsible AI durch MLOps

MLOps zur Skalierung von Machine-Learning-Modellen

Abschließende Überlegungen

KAPITEL 2

An MLOps-Prozessen beteiligte Personen

Fachexperten

MLOps –
Kernkonzepte im Überblick