Deskriptive Statistik verstehen. Christian FG Schendera
Чтение книги онлайн.
Читать онлайн книгу Deskriptive Statistik verstehen - Christian FG Schendera страница 10
Werte
Werte unterscheiden sich von Zahlen dadurch, dass bei ihnen ein Referenzsystem hinzukommt, in anderen Worten: ein Messvorgang und eine Maßeinheit. Zahlen können für sich alleine stehen, z.B. bei rein mathematischen Operationen. Bei reinen Additionen, wie z.B. 1 + 1 = 2, kann ohne Weiteres auf eine Maßeinheit verzichtet werden. Werte sind dagegen das Ergebnis einer in Zahlen („quantitativ“) gemessenen bzw. zugeschriebenen Eigenschaft einer definierten Entität. Nicht Zahlen, sondern erst Werte erlauben Zustände, Unterschiede oder auch Veränderungen innerhalb eines Referenzsystems zu beschreiben. Erst die Beziehung Referenzsystem-Messung-Messwert ermöglicht es, Zahlen nicht nur auszuwerten, sondern als (Mess-)Werte auch zu verstehen. Eine der ersten Fragen, die sich ein Data Analyst bei der Beschreibung von Daten stellen sollte, ist: In welcher Einheit sind diese Zahlen und wie sind sie zu interpretieren? Die Einheiten und Hinweise zur korrekten Interpretation sollten in Metadaten, Projektdokumentation oder zumindest in Spaltenüberschriften von Datentabellen hinterlegt sein. Man stelle sich z.B. die Bundesligatabelle ohne Überschriften vor. Data Analysten, die keine Erfahrung mit Fußballkenn werten haben, werden vermutlich erst einmal fluchen: Sie verlieren Zeit, da sie sich auf die Suche nach einer Dokumentation, anstelle der eigentliche Analyse der Daten machen müssen. Etwas extremer wäre es übrigens bei Tabellen der englischen Premier League, hier sind diese Daten (z.B. Tore, Punkte usw.) zusätzlich nach Heim- und Auswärtsspiel unterteilt. Eine Tabelle sollte eigentlich selbsterklärend sein, ist es aber leider nicht immer.
Beispiele, bei denen eine deskriptive Statistik von Daten ohne Einheiten (also reine Zahlen) geradezu hochgradig riskant sein kann, sind z.B. Währungen, KPIs, medizinische Dosierungen, oder auch psychometrische Skalenwerte (z.B. IQ). Bei dosiskritischen Medikamenten ist z.B. die genaue Einheit einer Zahl unbedingt zu beachten. Dieselbe Zahl kann bei unterschiedlichen Einheiten völlig verschiedene Dosen bedeuten, z.B. 15 mg (=1,5ml) im Vergleich zu 15 ml (150 mg) (vgl. Schendera, 2007, 212). Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Werte beschrieben und interpretiert werden.
Beispiel
Werte in verschiedenen Referenzsystemen:
Beispiel | Referenzsystem | Maßeinheit und Beispiele für Werte |
Physik | Gewicht | kg, gr |
Länge | km, m, mm | |
Zeit | yyyy, mm, dd; h, m, s; Kalendertage. | |
Finance | Währungen:Euro, Dollar | €, $ |
Ratings: | ||
Moody’s, Fitch, S&P | Caa1, CCC+, CCC (long-term, „substantial risks“). | |
Psychometrie | Stanford-Binet: IQ Intelligenz-Struktur-Test: für 15–60-Jährige: I-S-T 2000R, für 15–25-Jährige: I-S-T 2000 Schweizer Version: IST 2000R CH | Testwerte pro Modul bzw. Skala. Beispiel: 60 ist das Maximum der Skala „Numerische Intelligenz“. |
Medizin | Body-Mass-Index | BMI |
Blutdruck (systolisch, diastolisch) | mm Hg | |
Dosierungen, z.B. Insulin | IE bzw. i.e. (Internationale Einheit). |
Anders ausgedrückt: Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Zahlen anhand von Ziffern beschrieben und als Werte interpretiert werden. Was als selbstverständlich erscheint, ist es nicht: Die NASA verlor z.B. sogar einen Satelliten, weil die einen Ingenieure mit metrischen Einheiten arbeitete, die anderen jedoch mit englischen Einheiten. Dazu später mehr.
Gerade bei der Analyse von Daten internationaler Unternehmen ist auch auf das korrekte Format von Kalenderdaten zu achten. Es gibt derzeit mindestens drei, die europäische (TT.MM.JJJJ), die internationale (JJJJ.MM.TT) und die amerikanische Datumskonvention (MM.TT.JJJJ). Berechnungen (z.B. Differenzen) auf der Basis nicht korrekt interpretierter Kalenderdaten führen zwangsläufig zu fehlerhaften Ergebnissen. Diese Konvention ist dabei nicht der einzige Fallstrick; dazu kommen die Stellen der Jahresangabe, der Interpunktion, eine uneinheitliche zeitliche Granularität und natürlich auch allgemeine Datenfehler (z.B. Schendera, 2007, 62–66).
2.3 Messniveau einer Variablen: oder: Was hat Messen mit meinen Daten zu tun?
„Wir müssen jetzt mit dem Boden auf den Füßen bleiben.“
Jürgen Röber
Der Inhalt von Datentabellen besteht nicht nur aus Zahlen, Ziffern und Werten, die Daten besitzen auch ein Messniveau. Was bedeutet das für mich? Daten sind immer das Resultat von Messungen. Messungen können auf unterschiedlichen Niveaus vorgenommen werden. Das Messniveau ist wichtig. Das Messniveau sagt mir,
■ wie viel und welche Information (z.B. anhand welcher Maße) ich aus den Daten herausholen kann,
■ welche Aussagen ich mittels der deskriptiven Statistik treffen kann (und welche nicht),
■ welche Grafiken und Tabellen zur Visualisierung infrage kommen (und welche weniger geeignet sind) und zu guter Letzt,
■ welches inferenzstatistische Verfahren für meine gewählte Hypothese zulässig ist.
Nochmals: Das Messniveau ist wichtig! Wozu?
Kenne ich das Messniveau der auszuwertenden Daten, weiß ich, mit welchen passenden Maßen und Verfahren ich sie auswerten kann. Kenne ich das zugrunde liegende Messniveau der Maße und Verfahren, weiß ich, welche Daten ich damit auswerten kann. Die Kenntnis des Messniveaus ist wichtig für die Passung zwischen Daten und Maß bzw. Verfahren.
Für eine souveräne deskriptive Statistik schadet es also ganz und gar nicht, wenn das Messniveau der Daten selbst und die Grundlagen des Messens (zumindest in Grundzügen) bekannt sind. Was nun „Messen“ ist, versucht die Messtheorie als eine Art „Brücke“ zwischen der „wirklichen“ Welt und der Welt der „Zahlen“ zu definieren.
■ Messen ist demnach das Zuweisen von Zahlen zu Gegenständen, die eine bestimmte, empirisch beobachtbare Eigenschaft aufweisen. Eine gemessene Temperatur erhält z.B. eine bestimmte Gradzahl, eine bestimmte Laufstrecke erhält eine bestimmte Längenzahl.
■ Jedem Element aus dem empirischen Relativ wird dabei genau ein Element aus der Menge aller Zahlen (numerisches Relativ) zugeordnet. Die Laufstrecke A bekommt nur die Zahl A zugewiesen, aber nicht B oder C.
■ Zahlen (im sog. numerischen Relativ) müssen dabei dieselben Eigenschaften ausdrücken wie die beobachtbaren Gegenstände (im sog. empirischen Relativ). Wenn also die Laufstrecke A kleiner als Laufstrecke B ist, dann hat auch die zugewiesene Zahl für A kleiner als die für B zu sein.
Das Ziel ist, dass ein numerisches Relativ ein empirisches Relativ strukturgetreu abbildet. Sobald ein empirisches System auf ein numerisches System in der Weise eindeutig abgebildet wird, dass die empirischen Relationen innerhalb des empirischen Systems in den numerischen Relationen des numerischen Systems erhalten bleiben, liegt eine sog. Skala vor. Messen ist also die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-)Objekts und die regelgeleitete Zuordnung von Zahlen zu Messobjekten. Liegt eine Skala vor, kann sie verschiedenen Messniveaus (Skalentypen) zugeordnet werden. Ein Messniveau kann