Praktische Statistik für Data Scientists. Peter Bruce
Чтение книги онлайн.
Читать онлайн книгу Praktische Statistik für Data Scientists - Peter Bruce страница 18
Modus
Der Modus ist der Wert – bzw. die Werte für den Fall, dass verschiedene Werte gleich häufig auftreten –, der am häufigsten in den Daten auftritt. Zum Beispiel ist der Modus des Verspätungsgrunds am Flughafen Dallas/Fort Worth der »verzögerte Anschlussflug«. Ein weiteres Beispiel: In den meisten Teilen der Vereinigten Staaten wäre der Modus der religiösen Gesinnung »christlich«. Der Modus ist eine einfache, zusammenfassende Statistik für kategoriale Daten. Bei numerischen Daten wird er im Allgemeinen nicht verwendet.
Erwartungswert
Ein besonderer Typ kategorialer Daten sind Daten, bei denen die Kategorien diskrete Werte auf derselben Skala repräsentieren oder diesen zugeordnet werden können. Ein Vermarkter für eine neue Cloud-Technologie bietet zum Beispiel zwei Servicevarianten an, eine zum Preis von 300 $ pro Monat und eine weitere zum Preis von 50 $ pro Monat. Der Vermarkter bietet kostenlose Webinare an, um Leads zu generieren, und das Unternehmen geht davon aus, dass sich 5% der Teilnehmer für den Service für 300 $, 15% für den Service für 50 $ und 80% für keinen Service anmelden werden. Diese Daten lassen sich zu Zwecken der Wirtschaftlichkeitsberechnung in einem einzigen »Erwartungswert« zusammenfassen, der eine Art gewichteter Mittelwert ist, bei dem die Gewichte Wahrscheinlichkeiten entsprechen.
Der Erwartungswert wird wie folgt berechnet:
1 Multiplizieren Sie jedes der einzelnen Ergebnisse mit seiner Eintrittswahrscheinlichkeit.
2 Summieren Sie die ermittelten Werte.
Im Beispiel des Cloud-Service beträgt der Erwartungswert eines Webinar-Teilnehmers somit 22,50 $ pro Monat, der sich wie folgt ergibt:
EW=(0, 05)(300) + (0, 15)(50) + (0, 80)(0)=22, 5
Der Erwartungswert ist in Wirklichkeit eine Art gewichteter Mittelwert: Er spiegelt künftige Erwartungen wider, wobei die Berechnung auf Wahrscheinlichkeitsgewichten basiert, die oft auf einem subjektiven Urteil beruhen. Der Erwartungswert stellt ein grundlegendes Konzept in der Unternehmensbewertung und Kapitalbedarfsrechnung dar, wo es z.B. darum geht, den Erwartungswert der Gewinne aus einer Neuanschaffung für einen Zeithorizont von fünf Jahren oder die erwarteten Kosteneinsparungen durch eine neue Patientenverwaltungssoftware in einer Klinik zu ermitteln.
Wahrscheinlichkeiten
Wir sind zuvor auf die Wahrscheinlichkeit des Auftretens eines Ereignisses eingegangen (die sogenannte Eintrittswahrscheinlichkeit). Die meisten Menschen haben ein intuitives Verständnis von Wahrscheinlichkeit und begegnen dem Konzept häufig bei Wettervorhersagen (Regenwahrscheinlichkeit) oder Sportanalysen (Gewinnwahrscheinlichkeit). Sport- und Spielergebnisse werden häufiger als Quoten ausgedrückt, die sich leicht in Wahrscheinlichkeiten umformulieren lassen. (Wenn die Wahrscheinlichkeit, dass eine Mannschaft gewinnt, 2 zu 1 ist, ist ihre Gewinnwahrscheinlichkeit 2/(2+1) = 2/3.) Überraschenderweise kann das Konzept der Wahrscheinlichkeit jedoch bei seiner Begriffsbestimmung Anlass zu tiefgreifenden philosophischen Diskussionen geben.
Glücklicherweise brauchen wir hier keine formale mathematische oder philosophische Definition. Aus unserer Perspektive ist die Wahrscheinlichkeit, dass ein Ereignis eintritt, einfach die relative Häufigkeit, mit der es auftreten würde – jedenfalls dann, wenn die Situation immer und immer wieder, und zwar unzählige Male, wiederholt werden könnte. Meistens handelt es sich dabei um ein imaginäres Konstrukt, aber es bietet uns die Möglichkeit, ein angemessenes praktisches Verständnis für Wahrscheinlichkeiten zu entwickeln.
Kernideen
Kategoriale Daten werden typischerweise in Form relativer Anteilswerte zusammengefasst und können in einem Balkendiagramm visualisiert werden.
Die Kategorien können verschiedene Dinge darstellen (Äpfel und Orangen, männlich und weiblich), die Stufen bzw. Niveaus einer Faktorvariablen (niedrig, mittel und hoch) oder numerische Daten, die in Intervalle bzw. Klassen eingeteilt wurden.
Der Erwartungswert entspricht der Summe der Produkte der einzelnen Werte mit ihrer Eintrittswahrscheinlichkeit (eine mit den Eintrittswahrscheinlichkeiten der Werte gewichtete Summe) und wird oft verwendet, um die Niveaus von Faktorvariablen zusammenzufassen.
Weiterführende Literatur
Ein Statistikkurs ist nicht wirklich vollständig, wenn er nicht auch eine Lektion über irreführende Diagramme (https://oreil.ly/rDMuT) enthält, die sich oftmals auf Balken- und Kreisdiagramme bezieht.
Korrelation
Bei der explorativen Datenanalyse wird in vielen Projekten (sei es in der Data Science oder in der Forschung) zunächst die Korrelation zwischen den Prädiktoren selbst sowie zwischen den Prädiktoren und einer Zielvariablen untersucht. Man spricht davon, dass die Variablen X und Y (jeweils als Messdaten erfasst) positiv korreliert sind, wenn hohe Werte von X mit hohen Werten von Y und niedrige Werte von X mit niedrigen Werten von Y einhergehen. Wenn hohe Werte von X mit niedrigen Werten von Y zusammenfallen und umgekehrt, sind die Variablen negativ korreliert.
Schlüsselbegriffe zur Korrelation
Korrelationskoeffizient
Eine Metrik, die angibt, wie eng numerische Variablen miteinander in Beziehung stehen (reicht von –1 bis +1).
Korrelationsmatrix
Eine Tabelle, in der die Variablen sowohl in den Zeilen als auch in den Spalten abgebildet sind und die Zellwerte die Korrelationen zwischen den Variablen darstellen.
Streudiagramm
Eine Visualisierung, bei der die x-Achse den Wert einer Variablen und die y-Achse den Wert einer anderen angibt (engl. Scatterplot).
Betrachten Sie diese beiden Variablen, die insofern perfekt miteinander korreliert sind, dass beide – von niedrigen Werten ausgehend – kontinuierlich ansteigen:
v1: {1, 2, 3}
v2: {4, 5, 6}
Das Skalarprodukt beider Vektoren, auch inneres Produkt oder Punktprodukt genannt (engl. Dot Product bzw. Vector Sum of Products), ergibt 1 · 4 + 2 · 5 + 3 · 6 = 32. Versuchen Sie nun, einen von beiden Vektoren neu anzuordnen und das Skalarprodukt erneut zu berechnen – das Skalarprodukt wird niemals höher als 32 sein. Das Skalarprodukt könnte also als ein Maß verwendet werden, d.h., die ermittelte Summe von 32 könnte mit vielen zufälligen anderen Kombinationen verglichen werden (tatsächlich bezieht sich diese Idee auf einen Schätzer, der auf einer Resampling-Verteilung basiert; siehe »