Deskriptive Statistik verstehen. Christian FG Schendera
Чтение книги онлайн.
Читать онлайн книгу Deskriptive Statistik verstehen - Christian FG Schendera страница 12
Rückennummern von außergewöhnlichen Spielern werden z.T. gesperrt und nicht mehr vergeben. Der argentinische Verband stellte z.B. bei der FIFA erfolgreich den Antrag, die Nummer 10 zur Erinnerung an ihren Star Diego Maradona nicht mehr vergeben zu dürfen.
Rückennummern sind typische Nominaldaten: Verschiedene Nummern bedeuten verschiedene Spieler. Damit Spieler auseinandergehalten werden können, werden in einer Mannschaft weder zweimal dieselben Rückennummern vergeben, noch darf ein Spieler mit mehreren Rückennummern auflaufen. Die Rückennummern bei Bayern München in der Saison 2011/2012 waren z.B. folgendermaßen vergeben.
Tabelle: Rückennummern beim Bayern München
■ Tor: 1 Manuel Neuer, 22 Tom Starke, 24 Maximilian Riedmüller, 32 Lukas Raeder
■ Abwehr: 4 Dante, 5 Daniel van Buyten, 13 Rafinha, 17 Jérôme Boateng, 21 Philipp Lahm, 26 Diego Contento, 28 Holger Badstuber.
■ Mittelfeld: 7 Franck Ribéry, 8 Javier Martinez, 10 Arjen Robben, 11 Xherdan Shaqiri, 23 Mitchell Weiser, 27 David Alaba, 30 Luiz Gustavo, 31 Bastian Schweinsteiger, 36 Emre Can, 39 Toni Kroos, 44 Anatoli Timoschtschuk
■ Angriff: 9 Mario Mandzukic, 14 Claudio Pizarro, 20 Patrick Weihrauch, 25 Thomas Müller, 33 Mario Gomez
Keine Rückennummer ist zweimal vergeben und kein Spieler besitzt mehrere Rückennummern. Nominalskalierte Daten werden auch als qualitative Daten bezeichnet, weil sich die Werte nur in einer Qualität (z.B. „rot“) unterscheiden können. Keine Ausprägung nominal gestufter Daten kann als größer, höher oder kleiner als eine andere bezeichnet werden. Nominale Kodes, wie z.B. Rückennummern, drücken damit nur den Unterschied in einer Qualität (dem Spielernamen) aus, aber keine quantitativen Unterschiede zwischen ihnen.
Die einzelnen Qualitäten (Abstufungen) in nominalskalierten Daten sind gleich relevant. Die Abstufungen nominal skalierter Daten brauchen damit auch nicht „lückenlos“ sein. In den Rückennummern der Saison 2011/2012 „fehlen“ u.a. die Nummern 2, 6 oder 12. Das darf so sein. Die einzige Anforderung an nominalskalierte Daten ist, dass sie als verschieden oder gleich zu identifizieren erlauben; sie brauchen nicht die Anforderung „lückenlos“ erfüllen. Die einzige zulässige mathematische Operation ist das Zählen, wie häufig die jeweilige Qualität in den Daten vorkommt. Bei Rückennummern wäre das Ergebnis für jeden Bayern-Spieler dasselbe, nämlich f = 1. Ginge man nach den Vornamen, wäre das Ergebnis für „Mario“ f =2. Der Modus liegt bei „Mario“ (Mandzukic bzw. Gomez), alle anderen Vornamen haben den Wert f = 1. Einen Mittelwert aus Trikotnummern (z.B. des 1. FC Bayern München) zu berechnen, wäre zwar mathematisch möglich, jedoch ziemlich sinnfrei, weil es dem Berechnen eines Durchschnittswerts aus Spielernamen entspräche.
Exkurs ◄
2.3.2 Ordinalskala
Wie lässt sich am besten in einen Abschnitt zum Ordinalniveau einführen? Man macht es spannend! Wie lautete die zentrale Aussage zum Nominalniveau? Jede Datenspalte besitzt auf jeden Fall das Nominalniveau. Spannend ist also an dieser Stelle: Welches andere Messniveau besitzt eine Datenspalte noch? Der nächstmögliche „Kandidat“ wäre das Ordinalniveau. Ist das wirklich so einfach…?
■ Definition: Messungen auf einer Ordinalskala liegen dann vor, wenn neben Gleichheit / Verschiedenheit (Eigenschaft der Nominalskala) zusätzlich größer / kleiner-Relationen feststellbar sind. Sobald Werte in einer Rangfolge angeordnet werden können, z.B. nach Erfolgen, Geschwindigkeit, Mengen, Größe, Stärke usw., handelt es sich um ordinalskalierte Daten. Die Abstände zwischen den einzelnen Rängen müssen nicht notwendigerweise gleich sein (Äquidistanz). Der absolute Abstand zwischen den Rängen ist für die Definition nicht wichtig, oft aber für die Analyse und Interpretation.
■ Mögliche Aussagen: Größer-/kleiner-Relation: Zwei (oder mehr) einzelne (Gruppen von) Merkmalsträger(n) haben ein größeres, kleineres oder auch ein gleich großes Merkmal.
■ Beispiele: Merkmal: Bundesligen, Werte: 1. Liga, 2. Liga, 3. Liga usw.; Merkmal: Bundesliga, Werte: 1. Rang, 2. Rang, 3. Rang usw.; Merkmal: Sportliche (Miss-)Erfolge, Werte: Champions League (CL) Teilnahme, CL Qualifikation, UEFA Cup, „Mittelfeld“, Relegation, Abstieg.
■ Transformation: streng monoton steigend.
■ Mögliche Maße: Lagemaße: Minimum, Maximum, Median (bei einer ungeraden Zahl an Abstufungen beobachtet), Quantile, Modus. Streumaße: Spannweite ohne R, Interquartils ab stand, Quantildifferenzen.
■ Zulässige Rechenoperation: f (Anzahl, frequency) bzw. Prozentanteile. Es wird besonders auf die ausführlichen Hinweise unter „Mathematische Transformationen“ und „Kodierungen“ verwiesen.
■ Besonderes: Ranking Scales: Ranking von Ligen, Teams, Spielern (MVP); Rating Scales: Rating von Finanzprodukten („AAA“, „AA+“, „AA“ usw. (z.B. S&P), Bonität von Schuldnern, Schulnoten („sehr gut“, „gut“ etc.), Zustimmung („sehr“, „überwiegend“ usw.).
Welche Spalten aus der Bundesligatabelle enthalten Daten auf Ordinalniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind und sich in eine Rangreihe bringen lassen. Einfach ist es bei der Spalte „Platz“. Anhand der möglichen Aussage lässt sich der Schluss ziehen: Jeder der Plätze nimmt im Vergleich zu allen anderen einen besseren und/oder auch einen schlechteren Rang in der Tabelle ein. Der 1. Platz ist z.B. besser als der 2. Platz und 3. Platz usw., der 2. Platz ist z.B. besser als der 3. und 4. Platz usw. (jedoch schlechter als der 1. Platz) usw. Die Spalte „Platz“ besitzt auch ein Ordinalniveau. Wie sieht es mit der Spalte „Verein“ aus? Die Qualität der Vereinsnamen ist unterschiedlich („1. FC Köln“ ist nun einmal ein anderer Vereinsname als z.B. „Borussia Mönchengladbach“), sie lässt sich aber nicht in eine Rangfolge bringen (die unterschiedlichen Ränge der Vereine werden durch die Spalte „Platz“ ausgedrückt). Die Spalte „Verein“ besitzt also nur das Nominalniveau, aber nicht das Ordinalniveau. Ob die Spalte „Platz“ auch das Intervallniveau besitzt, wird im nächsten Abschnitt diskutiert. Die Spalten „Spiele“, „S“, „U“, „N“, „Diff“