Praktische Statistik für Data Scientists. Peter Bruce

Чтение книги онлайн.

Читать онлайн книгу Praktische Statistik für Data Scientists - Peter Bruce страница 12

Автор:
Серия:
Издательство:
Praktische Statistik für Data Scientists - Peter Bruce

Скачать книгу

Tabelle 1-2: Die ersten Zeilen des data.frame, der Auskunft über die Einwohnerzahlen und Mordraten der einzelnen Bundesstaaten gibt

image

      Berechnen Sie den Mittelwert, den getrimmten Mittelwert und den Median für die Einwohnerzahlen in R:1

      > state <- read.csv('state.csv')

      > mean(state[['Population']])

      [1] 6162876

      > mean(state[['Population']], trim=0.1)

      [1] 4783697

      > median(state[['Population']])

      [1] 4436370

      In Python können wir zur Berechnung des Mittelwerts und des Medians die pandas-Methoden des Data Frame verwenden. Den getrimmten Mittelwert erhalten wir durch die Funktion trim_mean aus dem Modul scipy.stats:

      state = pd.read_csv('state.csv')

      state['Population'].mean()

      trim_mean(state['Population'], 0.1)

      state['Population'].median()

      Der Mittelwert ist größer als der getrimmte Mittelwert, der wiederum größer als der Median ist.

      Dies liegt daran, dass der getrimmte Mittelwert die fünf größten und fünf kleinsten Bundesstaaten ausschließt (trim=0.1 entfernt 10% an beiden Enden der Verteilung). Wenn wir die durchschnittliche Mordrate für das Land berechnen wollen, müssen wir dazu den gewichteten Mittelwert oder den Median heranziehen, um die unterschiedlich hohe Anzahl an Einwohnern in den Bundesstaaten zu berücksichtigen. Da R in seiner Standardbibliothek keine Funktion für den gewichteten Median umfasst, müssen wir zu diesem Zweck zunächst das Paket matrixStats installieren:

      > weighted.mean(state[['Murder.Rate']], w=state[['Population']])

      [1] 4.445834

      > library('matrixStats')

      > weightedMedian(state[['Murder.Rate']], w=state[['Population']])

      [1] 4.4

      Bei Python ist die Funktion zur Berechnung des gewichteten Mittelwerts im NumPy-Paket enthalten. Für den gewichteten Median können wir speziell das Paket wquantiles (https://oreil.ly/4SIPQ) verwenden:

      np.average(state['Murder.Rate'], weights=state['Population'])

      wquantiles.median(state['Murder.Rate'], weights=state['Population'])

      Im vorliegenden Fall sind der gewichtete Mittelwert und der gewichtete Median in etwa gleich groß.

       Kernideen

       Das wesentliche Lagemaß ist der Mittelwert, der jedoch empfindlich auf Extremwerte (Ausreißer) reagiert.

       Andere Maße (Median, getrimmter Mittelwert) sind weniger empfindlich gegenüber Ausreißern und ungewöhnlich verteilten Daten und daher robuster.

       Weiterführende Literatur

       In dem Wikipedia-Artikel zur zentralen Tendenz (https://oreil.ly/qUW2i) werden verschiedene Lagemaße ausführlich erläutert.

       John Tukeys Standardwerk aus dem Jahr 1977, Exploratory Data Analysis (Pearson), erweist sich nach wie vor als eine beliebte Lektüre.

       Streuungsmaße

      Die Lage ist nur eine Dimension bei der Zusammenfassung eines Merkmals. Eine zweite Dimension, die Streuung (engl. Variability) – auch Variabilität oder Dispersion genannt –, misst, ob die Datenwerte eng zusammenliegen oder weit gestreut sind. Die Streuung ist das Herzstück der Statistik: Sie wird gemessen, reduziert, es kann unterschieden werden zwischen zufälliger und tatsächlicher Streuung, die verschiedenen Quellen der wahren Streuung können identifiziert und Entscheidungen in Gegenwart der Streuung können getroffen werden.

       Schlüsselbegriffe zu Streuungsmaßen

       Abweichung

      Die Differenz zwischen den beobachteten Werten und dem Lagemaß (engl. Deviation).

       Synonyme

      Fehler, Residuen

       Varianz

      Die Summe der quadrierten Abweichungen vom Mittelwert dividiert durch n –1, wobei n die Anzahl der Beobachtungen ist.

       Synonym

      mittlerer quadratischer Fehler

       Standardabweichung

      Die Quadratwurzel der Varianz.

       Mittlere absolute Abweichung

      Der Mittelwert der Absolutwerte der Abweichungen vom Mittelwert.

       Synonyme

      l1-Norm, Manhattan-Norm

       Mittlere absolute Abweichung vom Median

      Der Median der Absolutwerte der Abweichungen vom Median.

       Spannweite

      Die Differenz zwischen dem größten und dem kleinsten Wert in einem Datensatz (engl. Range).

       Ordnungsstatistik

      Eine auf den Datenwerten basierende Metrik, sortiert vom kleinsten zum größten.

       Synonym

      Rang

       Perzentil

      Der Wert, bei dem P % der Werte diesen Wert oder weniger und (100-P) % diesen Wert oder mehr annehmen.

       Synonym

      Quantil

Скачать книгу