Software-Parallelisierung für Multicore-Prozessoren, Teil 3: Performanz-Abschätzung

06.04.2020 Von Oliver Oey *

Anbieter zum Thema

Der häufigste Grund für den Einsatz von Mehrkernprozessoren ist die Steigerung der Leistung bzw. der Performance eines Systems. Im dritten und letzten Teil dieser Multicore-Serie geht es deshalb um richtige Performanz-Abschätzung.

Multicore-Prozessoren kommen besonders dann in Embedded-Systemen zum Einsatz, wenn der Wunsch nach einer besseren Leistung bzw. Performanz einer Anwendung besteht. Mehr Kerne versprechen in der Tat zumindest in der Theorie eine Multiplikation der Geschwindigkeit. Aber die tatsächliche Performanz hängt in der Praxis von diversen Faktoren ab.(Bild: emmtrix) — Multicore-Prozessoren kommen besonders dann in Embedded-Systemen zum Einsatz, wenn der Wunsch nach einer besseren Leistung bzw. Performanz einer Anwendung besteht. Mehr Kerne versprechen in der Tat zumindest in der Theorie eine Multiplikation der Geschwindigkeit. Aber die tatsächliche Performanz hängt in der Praxis von diversen Faktoren ab.
(Bild: emmtrix)

Bei der Programmierung der auch im Bereich der eingebetteten Systeme immer weiter verbreiteten Mehrkernprozessoren, gibt es einige Herausforderungen, die bei rein sequentieller Programmierung nicht auftreten. Die Themen ‚Race Conditions‘ und ‚Deadlocks‘ wurden bereits in den beiden vorherigen Artikeln dieser Multicore-Serie dargestellt (zu finden auf elektronikpraxis.de sowie in den ELEKTRONIKPRAXIS-Ausgaben 4 und 6/2020). In diesem abschließenden Artikel geht es nun um die Abschätzung der Performanz.

Der häufigste Grund für den Einsatz von Mehrkernprozessoren ist die Steigerung der Performanz einer Anwendung. Durch verkürzte Berechnungszeiten sollen Ergebnisse schneller bereitgestellt oder ein höherer Datendurchsatz erreicht werden. Dabei gibt die Anzahl an Kernen zwar ein theoretisches Maximum der Beschleunigung an, in der Praxis aber hängt die Performanz von vielen Faktoren ab, die im Folgenden diskutiert werden sollen. Anschließend werden Möglichkeiten aufgezeigt, wie die parallele Performanz ermittelt werden kann.

Kostenloses Webinar zu Multicore-Programmierung

Die Komplexität der parallelen Programmierung von Multicore-Prozessoren ist nicht trivial. In einem „Best Practice Webinar zur Multicore-Programmierung“ zeigen die Experten von emmtrix die gängigsten Techniken und wie Sie Ihren Code parallelisieren, Fehler bei der parallelen Programmierung vermeiden sowie Codetransformationen richtig einsetzen, um die inhärente Parallelität Ihrer Aufgaben zu erkennen.

Termine sind am Donnerstag 30. April 2020 und am Dienstag 26. Mai 2020 jeweils um 10:00 um Uhr (MESZ). Die Dauer beträgt 75 Minuten, die Vortragssprache ist Englisch. Hier können Sie sich jetzt kostenlos registrieren: www.emmtrix.com/webinars.

Limitierungen bei der Parallelisierung

Nicht alle Teile einer Anwendung lassen sich parallelisieren. Viele Aufgaben müssen nacheinander abgearbeitet werden, wenn spätere Schritte auf Ergebnisse von vorherigen Schritten warten müssen. Dieser sequentielle Teil einer Anwendung beschränkt die mögliche Performanz-Steigerung durch weitere Kerne.

Nehmen wir als Beispiel eine Anwendung, bei der 20% der gesamten Berechnung sequentiell ausgeführt werden muss. Bei Einsatz von vier Kernen können die restlichen 80% im Idealfall vier Mal so schnell ausgeführt werden und die Ausführungsdauer auf (20% seq. + (80% /4)) = 40 % reduziert werden. Man spricht auch von einem Speedup von 2,5 (100% / 40%). Verallgemeinert ist dieses Verhalten als Amdahlsches Gesetz bekannt: S(n) = 1 / (B + 1/n(1 – B))

Dabei ist S der Speedup, n die Anzahl an parallelen Ausführungseinheiten und B der sequentielle Anteil der Anwendung. In unserem Beispiel tendiert der maximal mögliche Speedup gegen 5 (100% / 20%), perfekte Parallelisierung vorausgesetzt.

Zusätzlich entsteht durch die Aufteilung der Aufgaben auf verschiedene Recheneinheiten ein Overhead, wenn Daten zwischen den einzelnen Kernen synchronisiert oder kommuniziert werden müssen. Zeiten, in denen entweder ein Kern mit dem Kopieren von Daten beschäftigt ist oder auf neue Daten warten muss, existieren im sequentiellen Fall nicht und werden erst durch die Parallelisierung erzeugt.

Schließlich kann die Aufteilung auch das Speicherzugriffsmuster einer Anwendung verändern, was sowohl positive als auch negative Auswirkungen auf die Performanz haben kann.

Möglichkeiten zur Performanz-Abschätzung

Diese und andere Faktoren sorgen dafür, dass es schwierig ist, den zu erwartenden Zeitgewinn verlässlich abzuschätzen. Dennoch existieren verschiedene Methoden, um die Performanz der parallelen Anwendung zu ermitteln:

Profiling auf der Hardware: Hierunter versteht man das Messen von Zeiten bei der tatsächlichen Ausführung auf dem Zielsystem. Üblicherweise instrumentiert man dabei den Quellcode und markiert jeweils den Anfang und das Ende von Code-Abschnitten, für die die Zeit gemessen werden soll. Hierbei ist zu beachten, dass die Zeitmessung selbst einen Einfluss auf die Ausführungszeit hat und Messungen deshalb mehrfach an unterschiedlichen Stellen durchgeführt werden sollten, um genauere Werte zu ermitteln.

Da wirklich die Ausführung auf der Hardware gemessen wird, können alle Ausführungsdetails einschließlich Hardware-spezifischer Overheads betrachtet werden, und die erhaltenen Laufzeiten sind akkurat. Die Dauer einer Messung erfolgt in Echtzeit. Je nach Zielplattform können zudem (Debugging-) Schnittstellen und Hardware bereitgestellt sein, die eine Zeitmessung ohne Beeinflussung der tatsächlichen Ausführung ermöglichen. Die größten Nachteile dieser Methode sind zum einen, dass die Hardware verfügbar sein muss und zum anderen, dass jede Messung aufwendig an die jeweilige Zielplattform angepasst werden muss.

Simulation: Mit Hilfe einer Simulation des Zielsystems können die Zeiten der einzelnen Code-Abschnitte auch ohne Verfügbarkeit der Hardware ermittelt werden. Wichtig ist hier, dass eine Zyklen-akkurate Simulation von Prozessor, Speicher und Caches sehr zeitaufwendig ist und die Ausführung von Programmen Stunden oder Tage dauern kann. Dafür liefern sie aber auch die genauesten Werte. Werden Teile der Simulation durch einfachere Modelle ersetzt, kann die Ausführungszeit deutlich verbessert werden. Dies geschieht immer unter Verlust von Genauigkeit. Dies kann für die meisten Anwendungsfälle jedoch vernachlässigt werden.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

Statische Code-Analyse: Bei einer statischen Code-Analyse wird die Performanz einer Anwendung bestimmt, ohne sie überhaupt auszuführen. Dies ermöglicht Analysen wie die Bestimmung von schlechtmöglichsten (Worstcase) Zeiten oder sehr schnelle Abschätzungen, um die wichtigsten Teile einer Anwendung zu bestimmen.

Je nach Komplexität und Aufwand können dabei Compiler-Optimierungen und Cache-Effekte mitbetrachtet werden, üblicherweise wird aber mit abstrakteren Hardware-Modellen gearbeitet, um die Ausführungszeit in Grenzen zu halten. Zudem kommt hinzu, dass nicht jeder Code ohne weiteres rein statisch analysiert werden kann, sondern noch Informationen von der Ausführung benötigt werden, um genauere Aussagen treffen zu können.

Darstellung der Auslastung der einzelnen Kerne über die Zeit und von Abhängigkeiten, die für Verzögerungen bei anderen Kernen sorgen.(Bild: emmtrix) — Darstellung der Auslastung der einzelnen Kerne über die Zeit und von Abhängigkeiten, die für Verzögerungen bei anderen Kernen sorgen.
(Bild: emmtrix)

Zur Darstellung der parallelen Performanz werden häufig Grafiken verwendet, die ähnlich einer Gantt-Darstellung die Auslastung der einzelnen Kerne über die Zeit darstellt. In der hier gezeigten Grafik sind zusätzlich beispielhaft Abhängigkeiten dargestellt, die für Verzögerungen bei anderen Kernen sorgen.

Die automatisierte Parallelisierung

Die in dieser Artikelserie beschriebenen Herausforderungen wie Race Conditions, Deadlocks oder die Ermittlung des tatsächlichen Performanz-Gewinn haben gezeigt, dass die manuelle parallele Programmierung moderner Multicore-Prozessoren deutlich aufwendiger ist als die bisherige rein sequentielle Entwicklung. Mit steigender Komplexität der Hard- und Software ist dieser Aufwand schnell wirtschaftlich nicht mehr tragbar sowie technisch nicht mehr kontrollierbar.

Leider bleibt der Wunsch nach einer vollautomatischen Lösung aller parallelen Probleme nach wie vor unerfüllt. Dennoch gibt es Fortschritte im Bereich der Tool-Unterstützung. Automatisierte Tools wie Parallel Studio von emmtrix, können durch integrierte Performanz-Abschätzung, Synchronisation von Ressourcen, Codegenerierung und einen Correct-by-Design-Ansatz die technischen (und finanziellen) Hürden drastisch senken und ermöglichen damit die (Aus-) Nutzung moderner, performanter Hardwareplattformen.

Die AURIX Mikrocontroller TC3xx von Infineon sind typisches Multicore-Bausteine und Schlüsselkomponenten für das automatisierte und elektrifizierte Fahrzeug. (Bild: Infineon)

Deadlock bei konkurrierendem Zugriff (Bild: emmtrix)

Kostenloses Webinar zu Multicore-Prgorammierung

* Oliver Oey ist Senior Engineer und Mitbegründer der emmtrix Technologies GmbH in Karlsruhe.

(ID:46492572)