Praktische Statistik für Data Scientists. Peter Bruce

Чтение книги онлайн.

Читать онлайн книгу Praktische Statistik für Data Scientists - Peter Bruce страница 14

Автор:
Серия:
Издательство:
Praktische Statistik für Data Scientists - Peter Bruce

Скачать книгу

ermitteln, müssen Sie die Daten zunächst sortieren. Dann gehen Sie, beginnend beim kleinsten Wert, 80% der Strecke zum größten Wert weiter. Der Median ist übrigens ein und dasselbe wie das 50%-Perzentil. Ein Perzentil ist im Wesentlichen dasselbe wie ein Quantil, wobei Quantile durch Bruchzahlen angegeben werden (das 0,8-Quantil ist also dasselbe wie das 80%-Perzentil).

      Ein gebräuchliches Streuungsmaß ist die Differenz zwischen dem 25%-Perzentil und dem 75%-Perzentil, der sogenannte Interquartilsabstand (engl. Interquartile Range, IQR). Hier ist ein einfaches Zahlenbeispiel: {3,1,5,3,6,7,2,9}. Wir sortieren diese Zahlenfolge, um {1,2,3,3,5,6,7,9} zu erhalten. Das 25%-Perzentil liegt bei 2,5 und das 75%-Perzentil bei 6,5, sodass der Interquartilsabstand 6,5 – 2,5 = 4 beträgt. Die Softwareprogramme können leicht unterschiedliche Ansätze haben, die dann unterschiedliche Ergebnisse hervorbringen (siehe folgenden Hinweis); in der Regel fallen diese Unterschiede jedoch gering aus.

      Bei sehr großen Datensätzen kann die Berechnung der genauen Perzentile rechnerisch sehr aufwendig sein, da dazu alle Datenwerte sortiert werden müssen. Maschinelle Lern- und Statistikprogramme verwenden spezielle Algorithmen, wie [Zhang-Wang-2007], um einen Näherungswert für ein Perzentil zu erhalten, der sehr schnell berechnet werden kann und eine gewisse Genauigkeit gewährleistet.

image Perzentile: Genaue Definition Wenn wir eine gerade Anzahl an Werten haben (n ist gerade), dann ist das Perzentil im Sinne der vorhergehenden Definition mehrdeutig. Tatsächlich könnten wir jeden Wert zwischen der Ordnungsstatistik x(j) und x(j + 1) nehmen, wobei j Folgendes erfüllt: image
In formaler Hinsicht ist das Perzentil ein gewichteter Durchschnitt: Perzentil(P) = (1 – w)x(j) + wx(j+1)
für ein gegebenes Gewicht w zwischen 0 und 1. In den verschiedenen verfügbaren Statistikprogrammen gibt es leicht unterschiedliche Ansätze für die Auswahl von w. Tatsächlich bietet die R-Funktion quantile neun verschiedene Alternativen zur Berechnung des Quantils. Von kleinen Datensätzen abgesehen, brauchen Sie sich in der Regel keine Gedanken darüber zu machen, wie ein Perzentil genau berechnet wird. In Python unterstützt das numpy.quantile fünf Ansätze, wobei die lineare Interpolation voreingestellt ist.

       Beispiel: Streuungsmaße für die Einwohnerzahlen der Bundesstaaten in den USA

      Tabelle 1-3 (Tabelle 1-2 wird der Einfachheit halber erneut dargestellt) zeigt die ersten paar Zeilen im Datensatz, in dem die Einwohnerzahlen und Mordraten für jeden US-Bundesstaat enthalten sind.

image

      Unter Verwendung der in R integrierten Funktionen für die Standardabweichung, den Interquartilsabstand (IQR) und die mittlere absolute Abweichung vom Median können wir Streuungsmaße für die Einwohnerstatistiken der Bundesstaaten berechnen:

      > sd(state[['Population']])

      [1] 6848235

      > IQR(state[['Population']])

      [1] 4847308

      > mad(state[['Population']])

      [1] 3849870

      Für ein Data-Frame-Objekt stehen uns in der pandas-Bibliothek verschiedene Methoden zur Berechnung der Standardabweichung und der Quantile zur Verfügung. Nach Ermittlung der Quantilswerte können wir den IQR berechnen. Für die robuste mittlere absolute Abweichung vom Median verwenden wir die Funktion robust. scale.mad aus dem statsmodels-Paket:

      state['Population'].std()

      state['Population'].quantile(0.75) - state['Population'].quantile(0.25)

      robust.scale.mad(state['Population'])

      Die Standardabweichung ist fast doppelt so groß wie die MAD (in R wird die Skalierung der mittleren absoluten Abweichung vom Median standardmäßig so angepasst, dass der Mittelwert die gleiche Skalierung besitzt). Dies ist nicht weiter verwunderlich, da die Standardabweichung gegenüber Ausreißern sensibel ist.

       Kernideen

       Die Varianz und die Standardabweichung sind die am weitesten verbreiteten und routinemäßig berichteten Streuungsmaße.

       Beide sind empfindlich gegenüber Ausreißern.

       Zu den robusteren Maßen gehören die mittlere absolute Abweichung, die mittlere absolute Abweichung vom Median und Perzentile (Quantile).

       Weiterführende Literatur

       David Lanes Online-Statistik-Ratgeber hat einen Abschnitt über Perzentile (https://oreil.ly/o2fBI).

       Kevin Davenport hat einen nützlichen Beitrag auf R-Bloggers (https://oreil.ly/E7zcG) über Abweichungen vom Median und ihre robusten Eigenschaften verfasst.

       Exploration der Datenverteilung

      Alle von uns behandelten Maße fassen die Daten in einer einzigen Zahl zusammen, um die Lage oder die Streuung der Daten zu beschreiben. Es ist auch wertvoll, zu untersuchen, wie die komplette Verteilung der Daten aussieht.

       Schlüsselbegriffe zur Exploration von Verteilungen

       Box-Plot

      Ein von Tukey eingeführtes Diagramm zur schnellen Visualisierung der Datenverteilung.

       Synonyme

      Box-Whisker-Plot, Kastengrafik

       Häufigkeitstabelle

      Eine Übersicht über die Anzahl der numerischen Werte, die in eine Menge von Intervallen (Klassen, engl. Bins) fallen.

       Histogramm

      Ein Diagramm der Häufigkeitstabelle

Скачать книгу