Suchen

Softwareentwicklung für KI und ML funktioniert anders

| Autor / Redakteur: lic.rer.publ. Ariane Rüdiger / Nico Litzel

Daten sind Quellcode! Der Umgang mit ihnen erfordert neue Arten zu denken – und das ist zentral für die Entwicklung von KI-Applikationen. Das ist zumindest die These von Alexander Waldmann, Operative & Technology Director von appliedAI.

Firmen zum Thema

Alexander Waldmann, appliedAI, erklärt die neuen Regeln, die bei der AI/ML-Entwicklung zu beachten sind.
Alexander Waldmann, appliedAI, erklärt die neuen Regeln, die bei der AI/ML-Entwicklung zu beachten sind.
(Bild: Rüdiger)

Was unterscheidet Künstliche-Intelligenz- und Machine-Learning-Projekte von herkömmlichen Softwareprojekten? Mit dieser Frage beschäftigte sich ein Vortrag von Alexander Waldmann, Operative & Technology Director von appliedAI im Rahmen eines Seminars von UnternehmerTUM, dem Innovations- und Gründerzentrum der TU München in Garching. appliedAI hilft Unternehmen aller Größen, sich für das KI-Zeitalter aufzustellen und unterstützt etablierte Unternehmen bei der Anwendung neuester KI-Methoden und -Technologien.

Die gravierenden Unterschiede zwischen klassischer Programmierung und KI scheinen teilweise dafür verantwortlich zu sein, dass es viele KI-Projekte und -Modelle nicht vom Piloten zur breiten Implementierung und in die Anwendung schaffen. Ein gelingender Einsatz von KI und ML erfordere, so jedenfalls Waldmann, dass man sich von vielen eingefleischten Paradigmen der Softwareentwicklung verabschiede.

Daten als Code

Dass „Programmierung“ von KI und ML anders funktioniert, liegt vor allem an der neun und zentralen Rolle der Daten. Sie stehen absolut im Mittelpunkt und sind kein passives „Asset“ mehr. „Daten sind Code“, sagt Waldmann. Daraus ergeben sich weitreichende Folgerungen für die Entwicklung von KI-/ML-Lösungen.

Die Regeln von „Wasserfall-Entwicklung“ und agiler Programmierung passen nur sehr eingeschränkt zu den neuen Datenwelten. Waldmann: „Beim Entwickeln von KI-Systemen kommt es auf die sehr genaue Dokumentation der Gedanken, der Experimente und der Entwicklungsschritte an, die jederzeit auch für Außenstehende transparent sein sollen.“

Denn in der Abfolge und Art der unterschiedlichen Bearbeitungsschritte steckt hier die eigentliche Wertschöpfung und damit das geistige Eigentum. Das ist bei agilen Vorgehensmodellen anders, wo die Dokumentation keine so wichtige Rolle spielt.

Programmierer sollen alte Regeln vergessen

„Bei AI und ML entstehen die Regeln automatisch durch die Daten, die Daten selbst „programmieren“ sozusagen die AI. Bisher waren Programmierer gewohnt, selbst ihre Regeln festzulegen. Das ist vorbei.“ Das gesamte mentale Modell müsse sich ändern, fordert Waldmann.

Beispielsweise fehlen in konventionellen oder auch agilen Programmierprojekten meist Rollen, die sich ausschließlich um die Daten kümmern. Derlei ist bei KI/ML-Projekten dringend erforderlich, soll etwas dabei herauskommen.

Die Kosten von Daten einkalkulieren

Außerdem generieren Daten Kosten. Das müsse man in Projekte von vorn herein einkalkulieren, mahnt Waldmann. Der notwendige Datenbestand müsse oft aufwendig gewonnen, vielleicht gekauft, häufig bereinigt oder umformatiert, anschließend in dauerhaft zu bewahrende und nicht mehr benötigte Bereiche aufgeteilt, sicher gespeichert und gesichert werden.

Das alles seien Kosten, die in herkömmlichen Programmierprojekten viel geringer seien, sage Waldmann. Bei KI/ML aber machen sie möglicherweise einen großen Brocken aus, und zwar dauerhaft, da Modelle gegebenenfalls immer wieder nachtrainiert werden müssen, wenn sich die äußeren Umstände ändern.

KI/ML-Programmierer als experimentelle Wissenschaftler

KI/ML-„Programmierer“ brauchten, so Waldmann, die Haltung von Wissenschaftlern, die Hypothesen aus ihren Beobachtungen, respektive Daten, entwickeln, sie testen und verifizieren oder auch ad absurdum führen. Erst ganz am Ende eines langen Prozesses kommt die Anwendung eines KI/ML-Algorithmus in größerem Umfang, um realweltliche Probleme zu bearbeiten.

Anders als beim herkömmlichen Programmieren gehe es auch nicht darum, ob eine Software funktioniere. „Die Frage ist, wie gut sie ist“, betont Waldmann. Gut bedeutet, dass sie für die Frage, auf die sie angewandt wird, mithilfe der vorhandenen Daten in jedem Sinne vernünftige und nützliche Lösungen generiert.

Mit dem Unbekannten rechnen

„Sie müssen bei AI/ML-Projekten damit rechnen, auf das Unbekannte zu stoßen“, fordert Waldmann. Das sind Probleme, Herausforderungen und Erkenntnisse, von deren Existenz man vor dem Projekt noch nicht einmal etwas ahnen konnte. Es sei normal, dass sich im Lauf von Projekten versteckte Risiken offenbarten.

Deshalb sei es auch sinnvoll, zunächst zu prüfen, ob die angepeilte Vorgehensweise bei der Bearbeitung der Daten überhaupt zu einem sinnvollen Lösungsraum führt und ob sich praktisch nutzbare Schwellen und Metriken generieren lassen. Erst danach sei es sinnvoll, für die generierten Modelle Optimierungsziele festlegen, diese dann aber auch nicht zu vergessen oder ignorieren. Denn hier entscheidet sich oft die Wirtschaftlichkeit einer Anwendung.

Zeitplan ade!

Es habe sich in den Bereichen KI und ML bewährt, sich einer praktisch anwendbaren Lösung mittels kleiner Experimente anzunähern. Da Experimente ein inhärentes Risiko haben zu scheitern, müsse man sich hier, so Waldmann, von strikten Zeitplänen für das Erreichen von Optimierungszielen verabschieden. In der Wissenschaft ist es ja auch nicht festlegbar, wann genau eine Entdeckung stattfindet.

„Wer in der AI den einfachsten und schnellsten Weg geht, landet oft bei Prototypen, die sich später nicht generalisieren lassen“, warnt Waldmann. Ähnlich wie bei Forschungsprojekten gelte es zu akzeptieren, dass es in KI/ML-Projekten verschiedene, parallel verlaufende Workstreams geben könne, die am selben Thema arbeiten. Dafür sei auch eine andere als die übliche Teamstruktur nötig. Statt starrer Prozessmodelle brauche es flexible Vorgangsweisen, die sich dem Fluss der Erkenntnis anpassen lassen.

Die Projektorganisation muss sich ändern

Die Arbeit mit komplexen Modellen beeinflusst auch andere Bereiche der Projektorganisation, denn sie „reißen die Grenzen zwischen verschiedenen Projektphasen ein“ (Waldmann). So können sich im ungünstigen Fall Korrekturkaskaden bilden, die ein Projekt lange aufhalten. Dagegen empfiehlt Waldmann strikte Abstraktionsgrenzen, wenn man zu einer nutzbaren Lösung kommen will.

Das Konfigurationsmanagement der Projekte braucht neue Elemente. Beispielsweise müssen die verschiedenen Modellversionen zusammen mit den dafür verwendeten Daten vorgehalten werden. Dafür gibt es keine abstrakten Regeln. „Hier ist alles individuell für jedes einzelne Modell“, sagt Waldmann.

Schließlich müsse sich auch die Struktur der Dokumentation ändern. Waldmann führte als Beispiel Googles Model Cards an, die für jedes genutzte Modell beispielsweise Ziele, Grenzen und den erwarteten Output darstellen, statt aufzulisten, was der Programmierer im Detail getan hat.

Infrastruktur und Prozess eng verzahnt

Eine typische Datenpipeline, hier des Supports von Pure Data, mit verschiedenen Schritten und Werkzeugen.
Eine typische Datenpipeline, hier des Supports von Pure Data, mit verschiedenen Schritten und Werkzeugen.
(Bild: Rüdiger)

Im Reich von KI und ML wird schließlich die Verbindung zwischen genutzter Infrastruktur und Modellierungs- respektive Trainingsprozess enger. Das ist der Grund, warum beispielsweise Nvidia Prozessoren baut, die speziell für KI/ML-Aufgaben konzipiert sind.

Damit steht das Unternehmen nicht allein. „Es gibt zig Firmen, die sich an neuen Prozessortechnologien für AI und ML versuchen“, sagt Adam Grzywaczewski, Senior Deep Learning Scientist bei Nvidia. Wenig verwunderlich, gibt es auch eine ganze Reihe vorintegrierte Lösungen für AI/ML-Aufgaben. Beispiele sind AIRI vom Speicherspezialisten PureStorage oder FlexPod AI von Netapp.

Als weiteres Element der KI/ML-Welt entstehen ständig neue Softwarewerkzeuge, damit aus Daten Erkenntnisse werden. Insofern ähneln KI und ML Produktionsprozessen, bei denen für unterschiedliche Schritte unterschiedliche Werkzeuge eingesetzt werden und das Ergebnis stark von der Qualität des Rohstoffs, also der Daten, abhängt.

Dieser Beitrag stammt von unserem Partnerportal Bigdata-Insider.de.

Artikelfiles und Artikellinks

(ID:46367983)

Über den Autor

lic.rer.publ. Ariane Rüdiger

lic.rer.publ. Ariane Rüdiger

Freie Journalistin, Redaktionsbüro Rüdiger