Deskriptive Statistik verstehen. Christian FG Schendera
Чтение книги онлайн.
Читать онлайн книгу Deskriptive Statistik verstehen - Christian FG Schendera страница 11
Abb. 3: Eine Systematisierung von Skalen- bzw. Messniveaus
In der Abbildung steigt das Skalenniveau von links („nominal“) nach rechts („verhältnis“) an. „verhältnis“ ist darin das höchste Skalenniveau, „nominal“ das niedrigste Skalenniveau. Jedes höhere Skalenniveau enthält auch die Merkmale der jeweils niedrigeren Niveaus. Je höher also das Skalenniveau, umso mehr Information bzw. komplexere Aussagen lassen sich mit einem geeigneten Maß bzw. Verfahren (z.B. der deskriptiven Statistik) „herausholen“. Welche, werden die Abschnitte 2.3.1 bis 2.3.6 erläutern.
Bei der Passung der Skalenniveaus der Daten und der Maße bzw. Verfahren sind u.a. drei Risiken zu vermeiden: der Informationsverlust, der errechnete Unfug und versteckte Klassierungen.
■ Informationsverlust: Für „niedrige“ Skalen konzipierte Maße (z.B. Modus) oder Verfahren (z.B. Häufigkeitsanalyse) können zwar auch auf höher skalierte Daten (z.B. Intervallniveau) angewendet werden, eben weil diese auch die Eigenschaften der niedrigeren Variablenniveaus (z.B. Nominalniveau) mit enthalten. Man muss sich aber klar sein, dass dies mit einem Informationsverlust verbunden ist: Der Informationsverlust besteht darin, dass „niedrigere“ Maße oder Verfahren außer Häufigkeit und Modus keine Aussagen über (je nachdem) größer / kleiner, Differenzen oder auch Verhältnisse erlauben, obwohl dies mit den vorliegenden Daten (z.B. auf Intervallniveau) möglich wäre, jedenfalls mit Maßen und Verfahren ab dem Intervallniveau.
■ „Errechneter Unfug“: Umgekehrt darf ich z.B. aus Daten auf Nominalniveau keinen Mittelwert bilden, weil dazu u.a. mindestens das Intervallniveau erforderlich ist. Abschnitt 2.3.1 wird anhand von Rückennummern veranschaulichen, warum das Berechnen eines Mittelwerts aus Trikotnummern zwar mathematisch möglich, aber konzeptionell sinnfrei ist.
■ Gemeinerweise können ausgerechnet in Intervalldaten klassierte Extremwerte enthalten sein, z.B. anstelle der Werte 95, 96, 97 und 98 einfach die Information „>94“. Hier sollten die Aufmerksamkeitsglocken Alarm schlagen: Diese Kategorisierung hebt die Gleichheit der Abstände auf; es handelt sich also nicht mehr um ein Intervall-, sondern um ein Ordinalniveau. Ist dieser Hinweis sogar noch als Text hinterlegt, handelt es sich womöglich sogar nur noch um ein Nominalniveau.
Liegt also eine Skala vor, kann sie verschiedenen Niveaus (Skalentypen) zugeordnet werden. Das Bestimmen des Typs einer Skala, und die Zuordnung der Art und Menge der zulässigen Transformationen wird als „Eindeutigkeitsproblem“ bezeichnet. Als die am wenigsten eindeutige Skala gilt die Nominalskala (nur die eindeutige Zuordnung von Zahlen bzw. Namen zu Entitäten ist zulässig). Weitere Skalen sind die Ordinalskala (zstzl. größer-kleiner-Relation), Intervallskala (zstzl. Äquidistanz der Ränge) und die Verhältnisskala (zstzl. mit Nullpunkt).
Es gibt prinzipiell unendlich viele zulässige Transformationen und daher Möglichkeiten, weitere Skalenniveaus zu definieren. Je spezieller die zulässigen Transformationen sind, desto kleiner ist die Klasse gleichwertiger Skalen und desto größer ist die Eindeutigkeit einer Skala. Man sollte das Skalenniveau der vorliegenden Daten rechtzeitig vor einer deskriptiven Statistik abklären. In dieser Einführung werden einzelne grundlegende Konzepte (z.B. Messung und Skalierung, vgl. z.B. Nachtigall & Wirtz, 2008; Velleman & Wilkinson, 1993; Gigerenzer, 1981; Orth, 1974) nur gestreift, daraus soll jedoch keinesfalls nicht der Schluss abgeleitet werden, dass diese weniger relevant seien.
2.3.1 Nominalskala
Die Nominalskala gilt als die am wenigsten eindeutige Skala. Ihr Vorteil ist jedoch: Alle Daten besitzen auf jeden Fall das Nominalniveau, seien sie auch vom Format String/Text, Datum/Uhrzeit, oder auch beliebige Zahlen.
■ Definition: Messungen auf einer Nominalskala liegen dann vor, wenn die Ausprägungen von Merkmalen (1) gleichwertig, (2) Unterschiede oder Gemeinsamkeiten in den Ausprägungen der Merkmale feststellbar sind und wenn sich diese Ausprägungen zugleich (3) nicht in eine natürliche Rangfolge bringen lassen. Ein Merkmal kann anhand des Urteils „gleich“ oder „ungleich“ diskreten, exklusiv-disjunkten Ausprägungen (syn.: Klassen, Kategorien) zugeteilt werden. Ein Wert kann in eine und nur in eine Kategorie fallen.
■ Mögliche Aussagen: Gleichheit / Verschiedenheit: Zwei (oder mehr) einzelne (oder auch Gruppen von) Merkmalsträger(n) haben entweder das gleiche oder ein verschiedenes Merkmal.
■ Beispiele: Merkmal: Fußballverein, Werte: BVB, FCB, HSV, S04, usw.; Merkmal: Rückennummer im Fußball, Werte: 1, 7, 13 usw.; Merkmal: Trikotfarbe, Werte: Schwarzrot, schwarzgelb, blauweiß usw.
■ Transformation: eindeutige 1:1-Zuordnung („eineindeutig“), Umbenennung
■ Mögliche Maße: Modus: Der Modus (Lagemaß) gibt die Häufigkeiten in der jew. Klasse, und auch ihre Lage an. Bei vielen gleich oder ähnlich besetzten Klassen ist der Modus oft wenig hilfreich. Mengen, Anzahl, Häufigkeiten, Prozente (absolut, relativ). Für Nominaldaten gibt es kein Streumaß.
■ Zulässige Rechenoperation: Zählung (N/n, h/H, f/F; Anzahl, Häufigkeit (absolut/relativ) bzw. Prozentanteile.
Welche Spalten aus der Bundesligatabelle enthalten Daten auf Nominalniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind (sich aber nicht in eine Rangreihe bringen lassen). Einfach ist dies bei der Spalte „Verein“. Die Spalte „Verein“ besitzt das Nominalniveau. Es ist die Aussage möglich: Alle 16 Vereine haben unterschiedliche Namen. Wie sieht es mit der Spalte „Platz“ aus? Hier lässt sich die Aussage treffen: Alle 16 Vereine befinden sich auf unterschiedlichen Plätzen. Die Spalte „Platz“ besitzt (mindestens!) das Nominalniveau (dass Daten das Nominalniveau besitzen, schließt nicht aus, dass sie noch andere Skalenniveaus vorweisen können). Die Spalte „Spiele“ ist ebenfalls auf dem Nominalniveau (mindestens!); es ist die Aussage möglich: Alle 16 Vereine besitzen dieselbe Anzahl an Spielen. Die Spalte „Tore“ ist ebenfalls auf dem Nominalniveau, weil sie die Aussage erlaubt, die Torverhältnisse aller 16 Vereine sind verschieden. Wie steht es z.B. mit den Spalten „S“, „U“, und „N“? Jede der drei Spalten lässt die Aussage zu, dass die sechzehn Vereine teils dieselbe, teils eine unterschiedliche Anzahl an Siegen, Unentschieden oder Niederlagen aufweisen. Die Spalten „S“, „U“ und „N“ sind jeweils (mindestens!) auf dem Nominalniveau. Um es kurz zu machen: Jede Datenspalte besitzt auf jeden Fall das Nominalniveau. Spannend wird es an der Stelle: Welches andere Messniveau besitzt eine Datenspalte noch?
► Exkurs Mathematik mit Rückennummern: Sinn und Unsinn
Bei nominalskalierten Daten werden für die Kategorien eines Merkmals oft Namen, Abkürzungen oder Zahlen vergeben. Ein oben genanntes Beispiel war z.B. das der Fußballvereine. Fußballvereine können z.B. ganz ausgeschrieben angegeben werden, z.B. als „Hamburger SV“, als „HSV“ (Textkode) oder auch als Zahlenkode, z.B. 12 (hier willkürlich gewählt). Ein analoges Beispiel wären die üblicherweise maximal zweistelligen Rückennummern von u.a. auch Fußballspielern. Die Rückennummern sind auf den Trikots