Machine Learning in der Smart Factory

Seite: 3/3

Anbieter zum Thema

Aus Sicht der Qualitätssicherung sind die Kennzahlen «Falsch-Negativ-Rate» und «Falsch-Positiv-Rate» besonders interessant. Die 500 Endprodukte, die als «falsch negativ» fälschlich aussortiert wurden, entsprechen den Qualitätsansprüchen und bilden – bezogen auf die insgesamt 6000 guten Endprodukte – einen vermeidbaren Ausschuss von ca. 8,3 % (Falsch-Negativ-Rate). Die 112 Endprodukte, die als «falsch positiv» für die Weiterverarbeitung zugelassen sind, entsprechen den Qualitätsansprüchen nicht und bilden – bezogen auf die insgesamt 5612 (Anzahl Vorhersage gut) zugelassenen Endprodukte – einen Produktfehler von ca. 2,8 % (Falsch-Positiv-Rate).

Bildergalerie
Bildergalerie mit 18 Bildern

Abschließend sind die Klassifikationsergebnisse mit einer Treffergenauigkeit von ca. 93,88 % und einem Klassifikationsfehler von 6,12 % für den produktiven Einsatz von Machine Learning in der virtuellen Smart Factory gut genug. Dennoch sollten weitere Daten herangezogen werden, um die Treffergenauigkeit zu erhöhen und den Klassifikationsfehler zu minimieren. Die Klassifikationsmodelle sollten in regelmäßigen Abständen manuell oder automatisiert angepasst und validiert werden (Modellmanagement). Ein Assistenzsystem für die automatische Klassifikation in der Qualitätssicherung könnte eine signifikante Effizienzsteigerung für die gesamte Produktionskette bedeuten.

Regression ermöglicht optimale Produktionsplanung und -steuerung

In der Zentrale der virtuellen Smart Factory (Bild 12) werden die Kundenaufträge bearbeitet und in der Fertigung die bestellten Endprodukte produziert. Anschließend werden die Endprodukte durch die Logistik in den Handel gebracht. Der Handel generiert wiederum neue Aufträge und beauftragt die Zentrale, so dass der Kreislauf letztendlich geschlossen ist. Die gesamte Wertschöpfungskette von der Beauftragung bis zum Endprodukt ist nicht kosteneffizient. Eine bessere Produktionsplanung und -steuerung können dem produzierenden Unternehmen helfen, auf allen Ebenen kosteneffizient zu arbeiten.

Auf Basis der historischen Unternehmensdaten werden mit Hilfe von Regressionsverfahren verschiedene Prognosemodelle entwickelt, die präzise und belastbar sind. Die neuen Prognosemodelle helfen dem produzierenden Unternehmen, unter Berücksichtigung mehrerer Einflussfaktoren (wie z.B. zukünftigen Absatzmengen, benötigten Rohstoffmengen und notwendigen Kapazitäten), eine optimale Produktionsplanung und -steuerung zu erstellen.

Die Regression gehört wie die Klassifikation zu der Gruppe des überwachten Lernens im Machine Learning. Anders als bei der Klassifikation ist die Regression eine Klasse von Verfahren, um kontinuierliche Werte zu bestimmen – z.B. Mengen und Preise (Bild 13). Weiterhin untersucht die Regression die funktionalen Zusammenhänge zwischen verschiedenen Merkmalen. Ein funktionaler Zusammenhang besteht dann, wenn eine oder mehrere unabhängige Variablen z.B. x eine abhängige Zielvariable yy erklären, so dass y = f(x) +.pngilon gilt. Beispielsweise könnte die abhängige Variable y für eine Absatzmenge stehen; ist die unabhängige Variable x das Datum, so könnte über y = f(x) +.pngilon die zukünftige Absatzmenge prognostiziert werden.

Die Regression kann für eine Vielzahl von Aufgabenstellungen eingesetzt werden, wie z.B. für die Identifikation von KPIs (Key Performance Indicators), die Bestimmung von optimalen Maschinenparametern oder die Prognose von Zielvorgaben in der Fertigung. Ebenfalls ist die Prognose von fehlenden oder zukünftigen Werten möglich, beispielsweise: welche Absatzmengen erwartet werden können, welche Rohstoffmengen benötigt werden und das Abschätzen von notwendigen Kapazitäten. Darüber hinaus können Zusammenhänge zwischen einem und mehreren Merkmalen erkannt werden – beispielsweise, welche Auswirkung die Eigenschaften Temperatur und Druck auf das Endprodukt in der Fertigung haben. Außerdem ist es möglich, Merkmale, die das Endprodukt beeinflussen, zu identifizieren, ohne dass diese jemals in Betracht gezogen worden wären, sowie die Art und Weise dieser Einflüsse.

Es gibt viele verschiedene Regressionsverfahren, wie z.B. die lineare Regression, logistische Regression, symbolische Regression und generalisierte lineare Modelle. Jedes dieser Verfahren hat seine Stärken und Schwächen und wird je nach Aufgabenstellung ausgewählt. In den folgenden Abschnitten werden die Grundlagen für eine einfache lineare Regression aus Sicht des maschinellen Lernens (Machine Learning) Schritt für Schritt erklärt.

Bestimmtheitsmaß R² sollte über 70 % liegen

Für eine bessere Produktionsplanung in der virtuellen Smart Factory wird für jedes einzelne Produkt ein Prognosemodell erstellt, damit zukünftige Absatzmengen besser prognostiziert werden können. In Bild 13 sind auf Basis der historischen Unternehmensdaten die Absatzmengen für verschiedene Produkte A, B, C, … kompakt aufgelistet. Die Datenbasis enthält für jedes Produkt die genaue Absatzmenge für den Zeitraum von Januar 2000 bis Dezember 2016. Diese Datenbasis stellt zugleich den Trainingsdatensatz für das maschinelle Lernen dar. Es wird ein lineares Modell trainiert, um einen Zusammenhang zwischen der unabhängigen Variablen Datum und der abhängigen Variablen A (die Absatzmenge von Produkt A) zu finden. Das Ergebnis ist eine Gerade, die in Bild 14 dargestellt ist.

Die Modellgüte für das vorliegende Regressionsmodell wird mit dem Bestimmtheitsmaß R2 (engl.: R-squared) bestimmt. Ein R² von 0 % bedeutet, dass die Absatzmenge von Produkt A nicht mit einem linearen Modell durch die unabhängige Variable Datum erklärt werden kann. Ein R² von 100 % hingegen bedeutet, dass die Absatzmenge von Produkt A mit einem linearen Modell durch die unabhängige Variable Datum perfekt erklärt wird. Für einen produktiven Einsatz von Machine Learning in der virtuellen Smart Factory (intelligenten Fabrik) sollte der R² -Wert größer als 70 % sein. Die Berechnung für das folgende R² -Bestimmtheitsmaß wird in Bild 15 visualisiert. Die prognostizierten Werte liegen auf der Geraden, und die Distanz zum tatsächlichen Wert ist gestrichelt dargestellt. Die Distanz zwischen dem tatsächlichen Wert und dem prognostizierten Wert wird für die Berechnung von R² quadriert.

Dieses Vorgehen wird für alle Datenpunkte in dem Trainingsdatensatz durchgeführt, und die Ergebnisse der Distanzen werden zu einer Gesamtsumme aufsummiert. Anschließend wird die Gesamtsumme durch die Anzahl der Datenpunkte dividiert. Das Ergebnis der Division wird von der Zahl 1 subtrahiert. Somit liegt das Ergebnis für das Bestimmtheitsmaß R² zwischen 0 und 1. Für eine prozentuale Darstellung kann das Ergebnis abschließend mit 100 multipliziert werden. Dieser Prozess wird automatisiert für alle Produkte durchgeführt, bis letztendlich für jedes Produkt ein Prognosemodell zur Verfügung steht. Das Bestimmtheitsmaß R² liegt für alle Prognosemodelle zwischen 78 % und 97 %, was völlig ausreichend für die virtuelle Smart Factory ist.

Komplexe Prognosen auf Basis der symbolischen Regression

Die linearen Regressionsmodelle sind bereits für viele Anwendungsfälle ausreichend, da viele reale Prozesse im relevanten Bereich lineare Näherungen haben, viele andere aber auch nicht. Hochpräzise Prognosemodelle können z.B. mit der symbolischen Regression entwickelt werden. Die symbolische Regression erstellt spezialisierte Modellformeln auf Basis einfacher mathematischer Bausteine automatisch. Dazu werden typischerweise Milliarden von Modellkandidaten auf ihre Genauigkeit und Komplexität geprüft und ausgewählt.

Das Ergebnis sind mathematische Funktionen, die von Experten verstanden und interpretiert werden können, daher werden sie als White-Box-Modelle bezeichnet. Mit diesen Eigenschaften ausgerüstet, ist die symbolische Regression unter anderem in der Lage, physikalische Gesetze automatisiert zu erkennen – der «virtuelle Wissenschaftler». In Bild 16 ist exemplarisch ein hochpräzises Prognosemodell auf Basis der symbolischen Regression abgebildet, das im Gegensatz zum linearen Regressionsmodell weitere Gegebenheiten wie z.B. saisonale Perioden berücksichtigt.

Die Produktionsplanung kann sich für die Prognose zukünftiger Absatzmengen auf mathematisch präzise und statistisch belastbare Modelle verlassen und nicht wie in der Vergangenheit auf Bauchentscheidungen. Dadurch ergeben sich weitere Synergieeffekte, die sich in der gesamten Produktionsplanung bemerkbar machen. Die Produktionsplanung kann den Bedarf an Rohstoffen und Kapazitäten zielgerichteter abschätzen und kostengünstiger einkaufen. Die Lagerbestände sind zugleich optimiert. Weiterhin sind eine bessere Fertigungsplanung sowie die intelligente und effiziente Maschinenauslastung im Voraus planbar. Engpässe werden frühzeitig erkannt und können durch gezielte Maßnahmen kompensiert werden. Verkürzte Lieferzeiten bei gleichzeitiger Reduzierung der Produktionskosten maximieren die Gewinne und die Kundenzufriedenheit steigt zugleich.

Bildergalerie
Bildergalerie mit 18 Bildern

Clusteranalyse deckt Ähnlichkeiten in Produktionsdaten auf

Für die Qualitätssicherung in der fiktiven Smart Factory wurde im Beispiel der Klassifikation ein Modell erstellt, mit dem Endprodukte automatisiert nach ihrer Produktqualität bewertet werden. Für den dort verwendeten Trainingsdatensatz waren die Produktqualitäten bekannt und wurden mit gut und schlecht gekennzeichnet. Auf dieser Grundlage konnte ein Modell trainiert werden, das die verschiedenen Merkmale für das jeweilige Endprodukt nach gut und schlecht klassifiziert.

Ist eine solche Klassifikation auch möglich, wenn die Produktqualitäten vorher nicht bekannt sind? – Ja, mit einem Cluster-Algorithmus! Das Clustering ist eine Gruppe von Verfahren, mit denen ähnliche Merkmale zu einer Gruppe zugeordnet werden. Gruppen werden auch als Cluster bezeichnet. Cluster-Algorithmen (z.B. k-Means-Algorithmus, EM-Algorithmus oder DBSCAN) analysieren die verschiedenen Merkmale, und ähnliche Merkmalskombinationen werden zu den jeweiligen Gruppen zugeordnet.

Für die Clusteranalyse werden die Trainingsdaten (Bild 17) aus dem Klassifikationsbeispiel ohne die Spalte Gut? verwendet, um ähnliche Merkmale Clustergruppen zuzuordnen. Wenn Algorithmen wie das Clustering mit Trainingsdaten lernen, in denen das Resultat wie z.B. Gut? nicht bekannt ist, so werden diese Algorithmen als «unüberwachtes Lernen» (engl.: unsupervised learning) bezeichnet. In Bild 17 ist das Ergebnis der Clusteranalyse illustriert. Die grünen Punkte gehören zur Gruppe gut und die roten zur Gruppe schlecht. Die grauen Punkte sind Ausreißer (engl.: outlier) und können zu keiner Gruppe zugeordnet werden. Nachfolgend sind die Ergebnisse der Clusteranalyse in Bild 18 aufgeführt.

Die Fachexperten können das neue Wissen interpretieren und validieren. Aus diesem Wissen können anschließend Mehrwerte generiert werden, indem z.B. die Zuordnung nach gut und schlecht für die automatische Klassifizierung verwendet wird. Die Fachexperten können das neue Wissen interpretieren und validieren. Aus diesem Wissen können anschließend Mehrwerte generiert werden, indem z.B. die Zuordnung nach gut und schlecht für die automatische Klassifizierung verwendet wird.

Dipl.-Inform. Baris Ayaz studierte Informatik an der Technischen Universität Dortmund und theoretische Medizin an der Ruhr-Universität Bochum. Nach dem Studium arbeitete er in der Finanzindustrie und war für die Entwicklung von automatisierten Handelssystemen und für die schnelle Verarbeitung von Finanzdaten verantwortlich. Er ist Mitbegründer und Geschäftsführer der sourcewerk GmbH, die sich mit der Datenanalyse rund um Industrie 4.0 befasst..

Buchtipp

Das Buch „Industrie 4.0: Potenziale erkennen und umsetzen“ bietet einen umfassenden und praxisorientierten Einblick in die Digitalisierung von Fertigung und Produktion. Zahlreiche Experten aus Industrie und Wissenschaft beleuchten in Einzelbeiträgen die Chancen und Risiken des digitalen Wandels und sprechen konkrete Handlungsempfehlungen aus.

Mehr erfahren bei Vogel Fachbuch

Dieser Beitrag stammt von unserem Partnerportal Industry-of-things.de.

(ID:45209444)