Deskriptive Statistik verstehen. Christian FG Schendera

Чтение книги онлайн.

Читать онлайн книгу Deskriptive Statistik verstehen - Christian FG Schendera страница 16

Серия:
Издательство:
Deskriptive Statistik verstehen - Christian FG Schendera

Скачать книгу

und Ordinalvariablen gezählt. Diskrete Skalen werden oft als Klassifikationsvariablen verwendet. Diskrete Skalen werden auch als topologische Skalen bezeichnet.

      Intervall-, Verhältnis- und Absolutvariablen werden üblicherweise zu den stetigen Skalen gezählt (können jedoch auch als stetig skaliert definiert werden). Stetige Skalen werden bevorzugt als abhängige Variablen in Kausalmodellierungen verwendet. In der Praxis können stetige Variablen auch wie diskrete Variablen behandelt werden, z.B. eine Altersangabe in Jahren als Klassifikationsvariable (bei einer überschaubaren Anzahl an Werteausprägungen). Stetige Skalen werden auch als kontinuierliche bzw. Kardinalsskalen bezeichnet.

       Diskrete Variablen

      Diskrete Variablen sind Variablen, die nur eine überschaubare, begrenzte Anzahl von Werten aufweisen. Diskrete Variablen können nur bestimmte Werte annehmen, aber nicht jeden beliebigen. Es handelt sich damit um abzählbar viele Werte.

      ► Beispiele

      Fußballmannschaft: Anzahl von Spielern pro Team: Die Anzahl der Spieler ist auf 11 begrenzt und kann als diskret gelten.

      Ticketkauf: Am Ticketschalter enthält man immer nur diskrete Stückzahlen, z.B. 3 oder 4 Tickets, aber z.B. niemals 3,43 Tickets.

      Anzahl der Tore in einem Spiel: Die Anzahl der Tore in einem Fußballspiel (zumindest der Gegenwart) gilt generell als überschaubar und damit als diskret.

       Stetige Variablen

      Stetige Variablen sind Variablen, die im Prinzip eine unübersehbare, unbegrenzte Anzahl von Werten aufweisen können, auch in einem begrenzten Wertebereich.

      ► Beispiele

      Spieldauer: Die Dauer eines Spieles ist üblicherweise auf 90 Minuten plus Nachspielzeit begrenzt. Die Werte bis zum Abpfiff sind aber nicht notwendigerweise überschaubar, da die Ausprägungen theoretisch unendlich genau sein können. Professionelle „Live-Ticker“ können bis auf Sekundenbruchteile genau sein, sofern es denn erforderlich ist. Die Dauer eines Spieles ist eine stetige Variable.

      Public-Viewing-Besucher: Die Anzahl von Besuchern beim Public Viewing oder von Fanmeilen kann, bei ansprechenden Turnieren und einer günstigen Außenwitterung, oft nicht mehr genau gezählt werden, sondern ist nur noch als eine unübersehbare Anzahl darstellbar. Die Anzahl von Besuchern beim Public Viewing wird daher als stetige Variable betrachtet.

      Anzahl der Zuschauer in einem Fußballspiel: Obwohl die Anzahl der maximal möglichen Zuschauer in einem Stadion auf einen bestimmten Wert begrenzt ist, können die möglichen Zuschauerzahlen unter diesem Wert theoretisch unendlich fein gemessen werden. Die Anzahl der Zuschauer in einem Fußballspiel ist eine stetige Variable.

       Das Verhältnis der Skalenniveaus untereinander

      Die Skalenniveaus sind hierarchisch geordnet. Jedes höhere Skalenniveau erfüllt auch die Anforderungen aller niedrigeren Niveaus. Die Nominalskala enthält nur die eindeutige Zuordnung nach „gleich“ / „ungleich“. Die Ordinalskala enthält zstzl. die größer-kleiner-Relation. Die Intervallskala enthält zstzl. die Äquidistanz der Ränge. Die Verhältnisskala enthält zstzl. einen Nullpunkt. Die Absolutskala enthält zstzl. eine natürliche Maßeinheit.

      Je höher also das Skalenniveau, umso mehr Information lässt sich mit einem geeigneten statistischen Verfahren aus den Daten ableiten. Für „niedrige“ Skalen konzipierte Verfahren können auch auf höher skalierte Variablen angewendet werden (weil diese auch die Eigenschaft der niedrigeren Skalenniveaus mit enthalten). Allerdings ist dies mit einem Informationsverlust verbunden. Für Ordinaldaten konzipierte Verfahren können z.B. auch auf intervallskalierte Variablen angewendet werden, weil diese ebenfalls die größer/kleiner-Eigenschaft (neben der Nominalinformation) enthalten. Der Informationsverlust besteht darin, dass ein Ordinalverfahren für intervallskalierte Variablen nur die größer/kleiner-Relation (neben der Nominalinformation) erfasst, aber nicht mehr das Ausmaß der Unterschiede.

       Voreinstellungen der verschiedenen Analysesoftware

      Stringvariablen (syn.: alphanumerisch, „Character“ oder Text) werden üblicherweise als Nominalniveau interpretiert. Interessant wird es bei neu angelegten numerischen Variablen. Bestimmte Datenmerkmale führen dazu, dass die jeweilige Analysesoftware automatisch ein Skalenmessniveau zuweist. SPSS weist z.B. automatisch das Intervallskalenniveau zu, wenn z.B. die betreffende Variable mindestens 24 (Voreinstellung) gültige, eindeutige Werte aufweist (bei weniger als 24 gültigen Werten weist SPSS nicht das Ordinal-, sondern das Nominalniveau zu). Enthält die betreffende Variable das Format „Dollar“, „Spezielle Währung“ oder auch „Datum“ oder „Uhrzeit“ (jedoch nicht bei MONTH und WKDAY), so weist SPSS ebenfalls automatisch das Intervallskalenniveau zu.

      Auch bei anderer Gelegenheit, z.B. der Migration von Daten aus einer Datenhaltung in eine andere, stellen Anwender nach dem Einlesen von Fremddaten fest, dass die numerischen Daten bereits vor bzw. während dem Einlesen fälschlicherweise als Strings definiert worden waren. Um ausgewertet werden zu können, müssen diese Daten zuvor das richtig Messniveau oder zumindest den korrekten Datentyp erhalten. Ein Umdefinieren des Typs von hunderten oder tausenden von Datenspalten „per Hand“ kommt für gewiefte Anwender selbstverständlich nicht infrage und kann mit Makroprogrammierungen ausgesprochen elegant gelöst werden (für SAS: vgl. Schendera, 2012, 2011; für SPSS: vgl. Schendera, 2007, 2005).

      Die Bedeutsamkeit des Messniveaus hat Konsequenzen für die praktische Arbeit mit Daten:

      ■ Sind die Daten bereits erhoben, so gilt: Je höher das Skalenniveau, desto mehr Informationen lassen sich mit dem jeweils geeigneten Verfahren aus den Daten gewinnen. Stehen Anwender vor der Wahl zwischen Daten, die dasselbe Konstrukt auf einem hohen und einem niedrigen Skalenniveau beschreiben, dann sollten die Daten mit dem höheren Messniveau in der Analyse vorgezogen werden.

      

Beispiel

      Der Ausgang eines Fußballspiels kann als Sieg, Unentschieden oder Niederlage beschrieben werden, also z.B. auf Ordinalniveau. Der Ausgang eines Fußballspiels kann aber auch in Tordifferenzen gemessen werden, z.B. +2, 0, -1. Es liegt auf der Hand, dass die Mannschaft, die mehr Tore geschossen hat, auch den Sieg davongetragen hat. Allerdings sind Tordifferenzen auf Intervallniveau und erlauben damit mehr (ggf. auch inhaltlich andere) Information auszudrücken.

      ■ Sind die Daten noch nicht erhoben, gelten folgende Daumenregeln für das Erheben von Daten. Generell gilt: Idealerweise sollten die Daten auf einem möglichst hohen Skalenniveau erhoben werden. Anstelle von Sieg, Unentschieden oder Niederlage könnte z.B. der Ausgang eines Fußballspiels in Tordifferenzen gemessen werden.

[1]Falls Kausalrelationen modelliert werden sollen, so sollten v.a. die abhängigen Variablen auf einem möglichst hohen Skalenniveau gemessen werden.
[2]Falls Kausalrelationen modelliert werden sollen und die abhängigen Variablen sind kategorial skaliert, so sollte sichergestellt sein, dass v.a. die relevanten Ausprägungen gemessen werden.
[3]Ein hohes Skalenniveau kann mittels Operationen des Daten-Managements (vgl. Schendera, 2005, 2004) technisch unkompliziert auf ein niedrigeres Skalenniveau vereinfacht werden (da es dieses ja enthält), allerdings immer begleitet von den Risiken des Informationsverlusts bzw. der Informationsverzerrung (vgl. Schendera, 2010, 14–15); umgekehrt bedarf es sehr überzeugender Argumente, ein niedrigeres Skalenniveau auf ein höheres Niveau anzuheben.

Скачать книгу