Praktische Statistik für Data Scientists. Peter Bruce

Чтение книги онлайн.

Читать онлайн книгу Praktische Statistik für Data Scientists - Peter Bruce страница 6

Автор:
Серия:
Издательство:
Praktische Statistik für Data Scientists - Peter Bruce

Скачать книгу

       Hauptkomponentenanalyse

       Ein einfaches Beispiel

       Die Hauptkomponenten berechnen

       Die Hauptkomponenten interpretieren

       Korrespondenzanalyse

       Weiterführende Literatur

       K-Means-Clustering

       Ein einfaches Beispiel

       Der K-Means-Algorithmus

       Die Cluster interpretieren

       Die Anzahl von Clustern bestimmen

       Hierarchische Clusteranalyse

       Ein einfaches Beispiel

       Das Dendrogramm

       Der agglomerative Algorithmus

       Ähnlichkeitsmaße

       Modellbasierte Clusteranalyse

       Multivariate Normalverteilung

       Zusammengesetzte Normalverteilungen (gaußsche Mischverteilungen)

       Die Anzahl der Cluster bestimmen

       Weiterführende Literatur

       Skalierung und kategoriale Variablen

       Variablen skalieren

       Dominierende Variablen

       Kategoriale Daten und die Gower-Distanz

       Probleme bei der Clusteranalyse mit verschiedenen Datentypen

       Zusammenfassung

       Quellenangaben

       Index

       Vorwort

      Dieses Buch richtet sich an Data Scientists, die mit den Programmiersprachen R und/oder Python vertraut sind und sich bereits früher (wenn auch nur punktuell oder zeitweise) mit Statistik beschäftigt haben. Zwei der Autoren entstammen der Welt der Statistik, ehe sie sich in den weiten Raum der Data Science begeben haben, und schätzen den Beitrag, den die Statistik zur Datenwissenschaft zu leisten vermag, sehr. Gleichzeitig sind wir uns der Grenzen des traditionellen Statistikunterrichts durchaus bewusst: Statistik als Disziplin ist anderthalb Jahrhunderte alt, und die meisten Statistiklehrbücher und -kurse sind nicht gerade von Dynamik geprägt, sondern erinnern eher an die Trägheit eines Ozeanriesen. Alle Methoden in diesem Buch haben einen gewissen historischen oder methodologischen Bezug zur Disziplin der Statistik. Methoden, die sich hauptsächlich aus der Informatik entwickelt haben, wie z.B. neuronale Netze, werden nicht behandelt.

      Diesem Buch liegen zwei Ziele zugrunde:

       Schlüsselbegriffe aus der Statistik, die für die Data Science relevant sind, in zugänglicher, übersichtlich gegliederter und leicht referenzierbarer Form darzulegen.

       Eine Erläuterung dazu zu geben, welche Konzepte aus datenwissenschaftlicher Sicht wichtig und nützlich sind, welche weniger wichtig sind und warum.

       In diesem Buch verwendete Konventionen

      Die folgenden typografischen Konventionen werden in diesem Buch verwendet:

       Kursiv

      Kennzeichnet neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateiendungen.

      Konstante Zeichenbreite

      Wird für Programmlistings und für Programmelemente in Textabschnitten wie Namen von Variablen und Funktionen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter verwendet.

       Konstante Zeichenbreite, fett

      Kennzeichnet Befehle oder anderen Text, den der Nutzer wörtlich eingeben sollte.

       Schlüsselbegriffe

      Die Data Science baut auf mehreren Disziplinen auf, darunter Statistik, Informatik, Informationstechnologie und domänenspezifische Bereiche. Infolgedessen können mehrere unterschiedliche Begriffe verwendet werden, um auf ein bestimmtes Konzept zu verweisen. Schlüsselbegriffe und ihre Synonyme werden im gesamten Buch in einem Kasten wie diesem hervorgehoben.

image Dieses Symbol steht für einen Tipp oder eine Empfehlung.

Скачать книгу