Das Fenster beinhaltet zwei Grafiken. In der oberen Hälfte ist die Grafik der Cook-Distanzen zu sehen, darunter ist eine Grafik der Cook-Distanzen kombiniert mit den Leverage-Werten dargestellt.
Cook-Distanzen
Die Grafik der Cook-Distanzen dient der Identifizierung von ausreißerverdächtigen Beobachtungswerten. Die Cook-Distanz identifiziert solche Beobachtungswerte y, die einen starken Einfluss auf die Schätzwerte ŷ haben.
Intuitiv gedeutet: Man berechnet das Regressionsmodell mit allen Werten. Für den i-ten Beobachtungswert wird aus dem Modell ein Schätzwert ermittelt. Anschließend wird erneut das Regressionsmodell ermittelt; diesmal allerdings ohne den i-ten Beobachtungswert. Für das neue Modell wird wieder ein Schätzwert für den i-ten Beobachtungswert ermittelt. Weichen nun die beiden Schätzwerte stark voneinander ab, so hat das eine große Cook-Distanz zur Folge. Eine große Cook-Distanz ist ein Indiz für einen ausreißerverdächtigen Wert.
Formel für die Cook-Distanz Ci2
ŷi = Schätzwert für den i-ten Beobachtungswert
ŷi(i) = Schätzwert für den i-ten Beobachtungswert für das reduzierte Modell, bei dem der i-te Beobachtungswert bei der Modellbildung nicht berücksichtigt wurde.
p = Anzahl der geschätzten Koeffizienten, inklusive der Konstanten
s² = Restvarianz
Oberer Grenzwert für die Cook-Distanz Dob
= Median der F-Verteilung für f1 = p und f2 =
n-p Freiheitsgrade
n = Stichprobenumfang
p = Anzahl geschätzter Koeffizienten, inklusive der Konstanten
Überschreitet eine Cook-Distanz den oberen Grenzwert, so ist der zugehörige Beobachtungwert ausreißerverdächtig.
Kombinierte Cook-Distanz-Leverager-Grafik
In dieser Grafik können Sie schnell erkennen, ob einzelne Werte sowohl große Hebelwirkungen haben als auch große Cook-Distanzen aufweisen. Solche Werte haben quasi zwei Indizien für die Einstufung als ausreißerverdächtiger Beobachtungswert.