Michael Matzer arbeitet als Journalist, Übersetzer, Rezensent und Buchautor und lebt in der Nähe von Stuttgart. Seine Themen sind u.a. IT-Security, Big Data, Unternehmenssoftware, E-Commerce und HPC.
Der Random-Forest-Algorithmus ist ein sogenanntes beaufsichtigtes Klassifikationsverfahren, das aus mehreren unkorrelierten Entscheidungsbäumen besteht, die eine Klassifizierung oder Vorhersage liefern. Weil sich die Entscheidungsbäume parallel verarbeiten lassen, kann der Algorithmus – bei entsprechend paralleler Ausführung – sehr schnell ausgeführt werden. Die Skalierung ist also leicht zu berechnen. Random Forests können auch der Regressionsanalyse dienen.
Welches Modell ist für meine Daten am besten geeignet? Diese Frage stellt sich jeder Data Scientist. Mithilfe des seit 1974 in Japan veröffentlichten „Akaike Information Criterion“ (AIC) kann er die Antwort in kurzer Zeit finden.
Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis er in welchem Kundenkreis welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Heute gibt es eine große Zahl solcher Verfahren, denn sie werden für zahlreiche Zwecke benötigt, etwa in der Epidemiologie.
Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis in welchem Kundenkreis er welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Um 1760 erfunden, gibt es heute eine große Zahl solcher Verfahren. Dieser Beitrag beginnt mit dem einfachsten, der Einfachen Linearen Regression (ELR).
Der Markt für Graph-Datenbanken blüht und wächst, denn die Nachfrage hinsichtlich der Analyse vernetzter Daten steigt rasch. Doch der IT-Nutzer fragt sich, welche Graph-Datenbank die leistungsfähigste ist und sich mit ihren Funktionen für ihn am besten eignet.
Machine Learning (ML) ist ein bedeutendes Instrument im Kampf gegen die Corona-Pandemie. Wenn Bürger, Behörden und Unternehmen die Gelegenheit nutzen, um Daten zu sammeln, Wissen zu vereinen und Fachkenntnisse zusammenzubringen, können viele Leben gerettet werden. Wie vielfältig der Einsatz von ML in diesem Rahmen ist, zeigt diese Übersicht von Data Revenue.
Mit FreeRTOS bietet Amazon Web Services (AWS) ein seit 15 Jahren etabliertes, kostenloses Betriebssystem für Mikrocontroller an. Auf der AWS re:Invent in Las Vegas konnten 65.000 Besucher den Einsatz dieser Software auf Edge Devices und IoT-Sensoren begutachten. Seit kurzem ist der AWS IoT Device Tester v1.6.0 für Amazon FreeRTOS erhältlich.
Greedy-Algorithmen, oder gierige Algorithmen, bilden eine spezielle Klasse von Optimierungsalgorithmen, die in der Informatik auftreten. Sie zeichnen sich dadurch aus, dass sie schrittweise den Folgezustand auswählen, der zum Zeitpunkt der Wahl den größten Gewinn bzw. das beste Ergebnis verspricht – etwa die Berechnung von Wechselgeld oder des kürzesten Wegs. Greedy-Algorithmen sind oft schnell, lösen viele Probleme aber nicht optimal.
Für verschiedene Probleme lassen sich nur durch Annäherung bzw. Approximation optimale Lösungen finden. Durch einen geeigneten Approximationsalgorithmus versuchen Informatiker, sich dem optimalen Ergebnis anzunähern, so etwa in der Graphentheorie, die Beziehungen in Netzwerken darstellt.
Um Trends zu erkennen, wird oft die Clusteranalyse herangezogen. Für manche Zwecke ist es aber aufschlussreicher, Ausreißer zu untersuchen, denn sie bilden die Antithese zum „Normalen“, etwa im Betrugswesen. Der Local-Outlier-Factor-Algorithmus (LOF) ist in der Lage, den Abstand von Ausreißern zu ihren Nachbarn zu berechnen und deckt so Anomalien auf.
Die Ereigniszeitanalyse bzw. Survival Analysis umfasst eine Reihe von Werkzeugen der Statistik, mit denen die Zeit bis zum Eintritt eines bestimmten Ereignisses zwischen Gruppen verglichen wird. Auf diese Weise will man die Wirkung von prognostischen Faktoren, einer medizinischen Behandlung oder von schädlichen Einflüssen abschätzen.
Der k-Means-Algorithmus ist ein Rechenverfahren, das sich für die Gruppierung von Objekten, die sogenannte Clusteranalyse, einsetzen lässt. Dank der effizienten Berechnung der Clusterzentren und dem geringen Speicherbedarf eignet sich der Algorithmus sehr gut für die Analyse großer Datenmengen, wie sie im Big-Data-Umfeld üblich sind, so etwa in der Bildverarbeitung und in der Kundensegmentierung.
Eine Reihe von Algorithmen dient der Suche von Lösungen, ohne vorher die Antwort zu kennen, und von Entscheidungen, die nach „wahrscheinlich richtig oder falsch“ beurteilt werden. Das ist sinnvoll für das Risiko-Management, aber auch für die Nutzung von Supercomputern. Ein solcher Algorithmus ist der Monte-Carlo-Algorithmus und die darauf basierenden Simulationen
Geschäftsregeln halten zahlreiche Unternehmensprozesse am Laufen, deshalb können sie mitunter sehr umfangreich werden. Der Umfang macht ihre Ausführung zeitaufwendig, weshalb jede Methode, sie zu beschleunigen, willkommen ist. Der Rete-Algorithmus beschleunigte 1979 die damals bestehenden Systeme für die Verarbeitung von Business Rules um den Faktor 3.000. Er ist bis heute die Grundlage zahlreicher Expertensysteme, etwa in der Mustererkennung.
Mithilfe des Satzes von Bayes lassen sich Parameter schätzen und Hypothesen induktiv testen. In einem Spamfilter können so wahrscheinliche Spam-Mails ermittelt werden. Und aus den Symptomen, die bei einem bekannten Test auftreten, lassen sich wahrscheinliche Krankheitsursachen aufspüren. Der Satz von Bayes ist ein nahezu universell nutzbares Werkzeug der Statistik.
Hinter dem Titel „Systems and Software Engineering – Software Life Cycle Processes“ verbirgt sich der IEEE-Standard 12207. Das Dokument schafft ein gemeinsames Rahmenwerk für Software-Lebenszyklus-Prozesse mit genau definierten Begriffen.
Microsoft hat die IoT-Plattform Azure IoT Edge allgemein verfügbar gemacht. Die als Open Source Software auf GitHub bereitgestellte IoT-Plattform, die sich seit einem Jahr in Erprobung befand, ist zum General Availability (GA) Release um weitere Funktionen erweitert worden.
Ob beim Design von künstlichen Neuronalen Netzwerken fürs Deep Learning, in der Logistik oder beim Layout von Leiterplatten – überall stößt man auf das mathematisch lösbare Problem des Handlungsreisenden: Wie lässt sich eine Tour mit mehreren Stationen auf dem kürzesten Weg und mit dem geringsten Aufwand bewältigen?
Nach dem Launch der POWER9-CPU und des zugehörigen Serversystems erneuert IBM nun auch die kognitive Software. Der Watson Explorer, Customer Experience Analytics und PowerAI haben eine Leistungssteigerung und Erweiterung des Funktionsumfangs erfahren.
Die Zunahme an unstrukturierten Daten wie etwa Bildern, Blogs und Sprachbotschaften macht es ratsam, diese Massendaten automatisch erkennen zu lassen. Deep Learning, ein Unterbereich des Machine Learning, hilft bei der Erkennung dieser Daten und findet Muster in natürlicher Sprache, in Bildern und vielem mehr.
Mit FreeRTOS bietet Amazon Web Services (AWS) ein seit 15 Jahren etabliertes, kostenloses Betriebssystem für Mikrocontroller an. Auf der AWS re:Invent in Las Vegas konnten 65.000 Besucher den Einsatz dieser Software auf Edge Devices und IoT-Sensoren begutachten. Seit kurzem ist der AWS IoT Device Tester v1.6.0 für Amazon FreeRTOS erhältlich.
Microsoft hat die IoT-Plattform Azure IoT Edge allgemein verfügbar gemacht. Die als Open Source Software auf GitHub bereitgestellte IoT-Plattform, die sich seit einem Jahr in Erprobung befand, ist zum General Availability (GA) Release um weitere Funktionen erweitert worden.
Hinter dem Titel „Systems and Software Engineering – Software Life Cycle Processes“ verbirgt sich der IEEE-Standard 12207. Das Dokument schafft ein gemeinsames Rahmenwerk für Software-Lebenszyklus-Prozesse mit genau definierten Begriffen.
Welches Modell ist für meine Daten am besten geeignet? Diese Frage stellt sich jeder Data Scientist. Mithilfe des seit 1974 in Japan veröffentlichten „Akaike Information Criterion“ (AIC) kann er die Antwort in kurzer Zeit finden.
Die Zunahme an unstrukturierten Daten wie etwa Bildern, Blogs und Sprachbotschaften macht es ratsam, diese Massendaten automatisch erkennen zu lassen. Deep Learning, ein Unterbereich des Machine Learning, hilft bei der Erkennung dieser Daten und findet Muster in natürlicher Sprache, in Bildern und vielem mehr.
Der Markt für Graph-Datenbanken blüht und wächst, denn die Nachfrage hinsichtlich der Analyse vernetzter Daten steigt rasch. Doch der IT-Nutzer fragt sich, welche Graph-Datenbank die leistungsfähigste ist und sich mit ihren Funktionen für ihn am besten eignet.
Ob beim Design von künstlichen Neuronalen Netzwerken fürs Deep Learning, in der Logistik oder beim Layout von Leiterplatten – überall stößt man auf das mathematisch lösbare Problem des Handlungsreisenden: Wie lässt sich eine Tour mit mehreren Stationen auf dem kürzesten Weg und mit dem geringsten Aufwand bewältigen?
Geschäftsregeln halten zahlreiche Unternehmensprozesse am Laufen, deshalb können sie mitunter sehr umfangreich werden. Der Umfang macht ihre Ausführung zeitaufwendig, weshalb jede Methode, sie zu beschleunigen, willkommen ist. Der Rete-Algorithmus beschleunigte 1979 die damals bestehenden Systeme für die Verarbeitung von Business Rules um den Faktor 3.000. Er ist bis heute die Grundlage zahlreicher Expertensysteme, etwa in der Mustererkennung.
Für verschiedene Probleme lassen sich nur durch Annäherung bzw. Approximation optimale Lösungen finden. Durch einen geeigneten Approximationsalgorithmus versuchen Informatiker, sich dem optimalen Ergebnis anzunähern, so etwa in der Graphentheorie, die Beziehungen in Netzwerken darstellt.
Machine Learning (ML) ist ein bedeutendes Instrument im Kampf gegen die Corona-Pandemie. Wenn Bürger, Behörden und Unternehmen die Gelegenheit nutzen, um Daten zu sammeln, Wissen zu vereinen und Fachkenntnisse zusammenzubringen, können viele Leben gerettet werden. Wie vielfältig der Einsatz von ML in diesem Rahmen ist, zeigt diese Übersicht von Data Revenue.
Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis in welchem Kundenkreis er welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Um 1760 erfunden, gibt es heute eine große Zahl solcher Verfahren. Dieser Beitrag beginnt mit dem einfachsten, der Einfachen Linearen Regression (ELR).
Regressionsanalysen dienen dazu, Prognosen zu erstellen und Abhängigkeiten in Beziehungen aufzudecken. Will ein Smartphone-Hersteller herausfinden, mit welchem Preis er in welchem Kundenkreis welchen Umsatz erzielen kann, so kennt er nur eine Variable – den Preis – aber nicht die anderen Variablen. Heute gibt es eine große Zahl solcher Verfahren, denn sie werden für zahlreiche Zwecke benötigt, etwa in der Epidemiologie.
Der Random-Forest-Algorithmus ist ein sogenanntes beaufsichtigtes Klassifikationsverfahren, das aus mehreren unkorrelierten Entscheidungsbäumen besteht, die eine Klassifizierung oder Vorhersage liefern. Weil sich die Entscheidungsbäume parallel verarbeiten lassen, kann der Algorithmus – bei entsprechend paralleler Ausführung – sehr schnell ausgeführt werden. Die Skalierung ist also leicht zu berechnen. Random Forests können auch der Regressionsanalyse dienen.