Suchen

Das Akaike Information Criterion

| Autor / Redakteur: Michael Matzer / Nico Litzel

Welches Modell ist für meine Daten am besten geeignet? Diese Frage stellt sich jeder Data Scientist. Mithilfe des seit 1974 in Japan veröffentlichten „Akaike Information Criterion“ (AIC) kann er die Antwort in kurzer Zeit finden.

Firmen zum Thema

Welches Modell ist für meine Daten am besten geeignet? Das Akaike Information Criterion kann diese Frage beantworten.
Welches Modell ist für meine Daten am besten geeignet? Das Akaike Information Criterion kann diese Frage beantworten.
(Bild: © Song_about_summer - stock.adobe.com)

Das Akaike Information Criterion ist eine Schätzfunktion, wie so viele andere Algorithmen. Mit ihm kann man einschätzen, wie hoch der Vorhersagefehler bezüglich Daten außerhalb der Stichprobe ist. Daraus lässt sich die relative Qualität bzw. Genauigkeit von statistischen Modellen für eine vorliegende Datenmenge beurteilen. Der AIC spielt im Machine Learning beim Vorgang der Inferenz eine bedeutende Rolle. Je schneller und genauer die Inferenzvorgänge erfolgen, desto genauer wird voraussichtlich das Modell auf die vorliegenden Daten passen und desto zuverlässiger die Vorhersage oder Erkennungsrate.

Theoretische wahre Gerade und geschätzte Regressionsgerade. Das Residuum ist die Differenz zwischen dem Messwert und dem Schätzwert.
Theoretische wahre Gerade und geschätzte Regressionsgerade. Das Residuum ist die Differenz zwischen dem Messwert und dem Schätzwert.
(Bild: R2intro / R2intro / Debenben / CC BY-SA 4.0 / CC BY-SA 4.0)

Der AIC basiert auf der Informationstheorie. Wird ein statistisches Modell dazu verwendet, den Vorgang darzustellen, der die im Modell verwendeten Daten repräsentiert, wird diese Darstellung kaum jemals exakt sein. Bei der Verwendung des Modells für die Darstellung des Prozesses wird also Information verlorengehen. Die Menge der verlorengegangenen Information lässt sich mithilfe des AIC schätzen. Schnell wird klar: Je weniger ein Modell an Information verliert, desto höher ist die Qualität dieses Modells.

Wie lässt sich die verlorene Datenmenge feststellen? AIC betrachtet das Gleichgewicht zwischen zwei polaren Aspekten von Modellen: Auf der Seite die Einfachheit des Modells, auf der anderen die maximale Anpassungsgüte des Modells auf die vorliegende Datenmenge. Es besteht das Risiko, ein Modell zu genau an die Datenmenge anzupassen (Overfitting) und andererseits zu geringer Anpassungsgüte (Underfitting), die zu Ungenauigkeiten führen würde.

Man beachte, dass das AIC nichts über die absolute Qualität eines Modells aussagt, sondern über die Qualität in Relation zu anderen Modellen. Wenn also alle Kandidaten nur ungenügend passen, wird das AIC keine Warnung ausgeben. Um die absolute Modellqualität zu ermitteln, ist es daher empfehlenswerte Praxis, eine Validierung auszuführen. Dazu gehört die Bewertung der Restwerte eines Modells, die vielleicht zufällig aussehen, und die Vorhersagen des Modells zu testen. Mehr zu diesem Thema findet im Wikipedia-Artikel über Validierung von statistischen Modellen.

Bedeutung für die Statistik

Bemerkenswert ist die Bedeutung des Akaike-Informationskriteriums AIC für die heutige Statistik und wie sie entstand. Das AIC wurde nach dem japanischen Statistiker Hirotsugu Akaike (1927-2009) benannt, der es ursprünglich im Hinblick auf Lineare Regression formulierte. Er trug es bereits 1971 auf einem Symposium in Armenien vor, dessen Protokolle 1973 erschienen.

Als formalen Beitrag veröffentlichte es Akaike aber erst 1974. Weil der Artikel auf Japanisch verfasst war, nahm die Welt erst anno 2002 Notiz davon, als die englischsprachige Veröffentlichung in einem verbreiteten Fachbuch von Burnham & Anderson erfolgte, allerdings mit Ergänzungen von Takeuchi. Dieses Buch wurde seitdem laut Google Scholar mehr als 48.000 Mal zitiert. Seit 2014 wurde das AIC laut Google Scholar selbst über 150.000 Mal zitiert.

Definition

Das AIC wird laut Gablers Wirtschaftslexikon mit AIC = ln(RSS/n) + 2(K+1)/n berechnet, wobei RSS die Residuenquadratesumme (Residuen) des geschätzten Modells, n der Stichprobenumfang und K die Anzahl der erklärenden Variablen im Modell sind. ln symbolisiert den natürlichen Logarithmus. Der Vergleich zweier Modellspezifikationen anhand von AIC erfolgt analog zum eng verwandten Schwarz-Informationskriterium.

Hat man eine Anzahl von Modellkandidaten für eine Datenmenge, dann ist das bevorzugte Modell das mit dem niedrigsten AIC-Wert. AIC belohnt so einerseits die Passgenauigkeit eines Modells, bestraft aber eine übermäßig hohe Anzahl von Parametern. Diese Strafe entmutigt Überanpassung (s. o.), obwohl eine höhere Anzahl von Parametern zu höherer Passgenauigkeit führt (weil sie helfen, die Datenmenge genauer zu beschreiben).

Illustration der Kullback–Leibler-(KL)-Divergenz für zwei Normalverteilungen à la Gauss. Die für die KLD typische Asymmetrie ist deutlich zu sehen.
Illustration der Kullback–Leibler-(KL)-Divergenz für zwei Normalverteilungen à la Gauss. Die für die KLD typische Asymmetrie ist deutlich zu sehen.
(Bild: KL-Gauss-Example / KL-Gauss-Example / Mundhenk / CC BY-SA 3.0 / CC BY-SA 3.0)

Der oben erwähnte, unbekannte Prozess f, der Daten erzeugt, aber unterwegs wieder Information verliert, soll von den zwei Modellkandidaten g1 und g2 beschrieben werden. Würden wir f kennen, könnten wir die Information, die wir durch den Gebrauch von g1 verloren haben, mithilfe der Kullback-Leibler-Divergenz DKL berechnen. Analog dazu könnten wir den Datenverlust bei f im Modell g2 berechnen. Durch Vergleichen würden wir entscheiden können, welches der beiden Modelle weniger Datenverlust aufweist und das günstigere wählen.

Wir kennen nach wie vor f nicht. Doch mithilfe von AIC können wir relativ schätzen, wie viel Information in g1 bzw. g2 verlorengeht. Die Schätzung ist indes nur eine asymptotische Annäherung. Insbesondere dann, wenn die Menge an vorliegenden Datenpunkte klein ist, dann ist häufig eine Korrektur notwendig, beispielsweise mit AICc. Der Vergleich zum Bayes Information Criterion (BIC) liegt nahe, aber statt der Strafe 2k in AIC liegt beim BIC die Strafe bei ln(n)k.

Dieser Beitrag erschien zuerst auf unserem Partnerportal Bigdata-Insider.de.

(ID:46901730)

Über den Autor