Praktische Statistik für Data Scientists. Peter Bruce
Чтение книги онлайн.
Читать онлайн книгу Praktische Statistik für Data Scientists - Peter Bruce страница 12
Berechnen Sie den Mittelwert, den getrimmten Mittelwert und den Median für die Einwohnerzahlen in R:1
> state <- read.csv('state.csv')
> mean(state[['Population']])
[1] 6162876
> mean(state[['Population']], trim=0.1)
[1] 4783697
> median(state[['Population']])
[1] 4436370
In Python können wir zur Berechnung des Mittelwerts und des Medians die pandas-Methoden des Data Frame verwenden. Den getrimmten Mittelwert erhalten wir durch die Funktion trim_mean aus dem Modul scipy.stats:
state = pd.read_csv('state.csv')
state['Population'].mean()
trim_mean(state['Population'], 0.1)
state['Population'].median()
Der Mittelwert ist größer als der getrimmte Mittelwert, der wiederum größer als der Median ist.
Dies liegt daran, dass der getrimmte Mittelwert die fünf größten und fünf kleinsten Bundesstaaten ausschließt (trim=0.1 entfernt 10% an beiden Enden der Verteilung). Wenn wir die durchschnittliche Mordrate für das Land berechnen wollen, müssen wir dazu den gewichteten Mittelwert oder den Median heranziehen, um die unterschiedlich hohe Anzahl an Einwohnern in den Bundesstaaten zu berücksichtigen. Da R in seiner Standardbibliothek keine Funktion für den gewichteten Median umfasst, müssen wir zu diesem Zweck zunächst das Paket matrixStats installieren:
> weighted.mean(state[['Murder.Rate']], w=state[['Population']])
[1] 4.445834
> library('matrixStats')
> weightedMedian(state[['Murder.Rate']], w=state[['Population']])
[1] 4.4
Bei Python ist die Funktion zur Berechnung des gewichteten Mittelwerts im NumPy-Paket enthalten. Für den gewichteten Median können wir speziell das Paket wquantiles (https://oreil.ly/4SIPQ) verwenden:
np.average(state['Murder.Rate'], weights=state['Population'])
wquantiles.median(state['Murder.Rate'], weights=state['Population'])
Im vorliegenden Fall sind der gewichtete Mittelwert und der gewichtete Median in etwa gleich groß.
Kernideen
Das wesentliche Lagemaß ist der Mittelwert, der jedoch empfindlich auf Extremwerte (Ausreißer) reagiert.
Andere Maße (Median, getrimmter Mittelwert) sind weniger empfindlich gegenüber Ausreißern und ungewöhnlich verteilten Daten und daher robuster.
Weiterführende Literatur
In dem Wikipedia-Artikel zur zentralen Tendenz (https://oreil.ly/qUW2i) werden verschiedene Lagemaße ausführlich erläutert.
John Tukeys Standardwerk aus dem Jahr 1977, Exploratory Data Analysis (Pearson), erweist sich nach wie vor als eine beliebte Lektüre.
Streuungsmaße
Die Lage ist nur eine Dimension bei der Zusammenfassung eines Merkmals. Eine zweite Dimension, die Streuung (engl. Variability) – auch Variabilität oder Dispersion genannt –, misst, ob die Datenwerte eng zusammenliegen oder weit gestreut sind. Die Streuung ist das Herzstück der Statistik: Sie wird gemessen, reduziert, es kann unterschieden werden zwischen zufälliger und tatsächlicher Streuung, die verschiedenen Quellen der wahren Streuung können identifiziert und Entscheidungen in Gegenwart der Streuung können getroffen werden.
Schlüsselbegriffe zu Streuungsmaßen
Abweichung
Die Differenz zwischen den beobachteten Werten und dem Lagemaß (engl. Deviation).
Synonyme
Fehler, Residuen
Varianz
Die Summe der quadrierten Abweichungen vom Mittelwert dividiert durch n –1, wobei n die Anzahl der Beobachtungen ist.
Synonym
mittlerer quadratischer Fehler
Standardabweichung
Die Quadratwurzel der Varianz.
Mittlere absolute Abweichung
Der Mittelwert der Absolutwerte der Abweichungen vom Mittelwert.
Synonyme
l1-Norm, Manhattan-Norm
Mittlere absolute Abweichung vom Median
Der Median der Absolutwerte der Abweichungen vom Median.
Spannweite
Die Differenz zwischen dem größten und dem kleinsten Wert in einem Datensatz (engl. Range).
Ordnungsstatistik
Eine auf den Datenwerten basierende Metrik, sortiert vom kleinsten zum größten.
Synonym
Rang
Perzentil
Der Wert, bei dem P % der Werte diesen Wert oder weniger und (100-P) % diesen Wert oder mehr annehmen.
Synonym
Quantil