Название: Praktische Statistik für Data Scientists
Автор: Peter Bruce
Издательство: Bookwire
Жанр: Математика
isbn: 9783960104681
isbn:
Die Renditen stehen in einer positiven Beziehung: Obwohl sie sich um den Wert null gruppieren, steigen oder sinken die Aktien an den meisten Tagen gleichzeitig (oberer rechter und unterer linker Quadrant). Es gibt weniger Tage, an denen eine Aktie deutlich sinkt, während die andere steigt oder umgekehrt (unterer rechter und oberer linker Quadrant).
Obwohl in dem Diagramm in Abbildung 1-7 nur 754 Datenpunkte angezeigt werden, wird es offenbar schwierig, Details in der Mitte des Diagramms zu erkennen. Wir werden später noch sehen, wie wir die Transparenz der Punkte verändern oder Hexagonal-Binning- sowie Dichtediagramme verwenden können, um weitere Strukturen in den Daten aufzudecken.
Abbildung 1-7: Streudiagramm zur Darstellung der Korrelation der Tagesrenditen von ATT und Verizon
Kernideen
Der Korrelationskoeffizient misst, wie stark zwei gepaarte Variablen (z. B. Größe und Gewicht von Individuen) miteinander in Zusammenhang stehen.
Wenn hohe Werte der einen Variablen mit hohen Werten der anderen einhergehen, stehen sie in einem positiven Zusammenhang.
Wenn hohe Werte der einen Variablen mit niedrigen Werten der anderen einhergehen, stehen sie in einem negativen Zusammenhang.
Der Korrelationskoeffizient ist ein standardisiertes Maß, das immer zwischen –1 (perfekte negative Korrelation) und +1 (perfekte positive Korrelation) liegt.
Ein Korrelationskoeffizient von null bedeutet, dass die Variablen unkorreliert sind. Seien Sie sich dennoch bewusst, dass auch zufällig generierte Daten positive oder negative Werte für den Korrelationskoeffizienten aufweisen können.
Weiterführende Literatur
Eine ausgezeichnete Behandlung des Themas bietet das Buch Statistics von David Freedman, Robert Pisani und Roger Purves (4. Auflage, W. W. Norton, 2007).
Zwei oder mehr Variablen untersuchen
Vertraute Maße wie der Mittelwert und die Varianz beziehen sich immer nur eine einzelne Variable (univariate Analyse). Die Korrelationsanalyse (siehe »Korrelation« auf Seite 32) ist eine wichtige Methode, um zwei Variablen miteinander zu vergleichen (bivariate Analyse). In diesem Abschnitt befassen wir uns weiterhin mit Maßen und Diagrammen, und zwar insbesondere mit solchen, die auf die Exploration von mehr als zwei Variablen abzielen (multivariate Analyse).
Schlüsselbegriffe zur Exploration von zwei oder mehr Variablen
Kontingenztafeln
Eine Kreuztabelle mit den Häufigkeiten von zwei oder mehr kategorialen Variablen (engl. Contingency Table).
Hexagonal-Binning-Diagramm
Ein Diagramm für zwei numerische Variablen, wobei die Beobachtungen in Sechsecken zusammengefasst sind.
Konturdiagramm
Ein Diagramm, bei dem die Wahrscheinlichkeitsdichtefunktion zweier numerischer Variablen wie eine topografische Karte abgebildet wird (engl. Contour Plot).
Violin-Plot
Ähnlich wie ein Box-Plot, zeigt allerdings darüber hinaus noch die geschätzte Dichtefunktion.
Wie bei der univariaten Analyse möchten wir auch bei der bivariaten Analyse einerseits zusammenfassende statistische Kenngrößen ermitteln und andererseits anschauliche Visualisierungen erstellen. Die geeignete Art der bi- bzw. multivariaten Analyse hängt vom Datentyp ab – je nachdem, ob die Daten als numerische oder kategoriale Variablen vorliegen.
Hexagonal-Binning- und Konturdiagramme (Diagramme für mehrere numerische Variablen)
Streudiagramme sind durchaus geeignet, solange die Anzahl an Datenpunkten relativ gering ist. Das Diagramm mit den Aktienrenditen in Abbildung 1-7 bildet nur etwa 750 Datenpunkte ab. Bei Datensätzen, die Hunderttausende oder Millionen von Datenpunkten haben, erweist sich ein Streudiagramm als zu stark verdichtend, weshalb wir ein anderes Verfahren benötigen, um den Zusammenhang adäquat visualisieren zu können. Betrachten wir zur Veranschaulichung den Datensatz kc_tax, der die Steuerbemessungswerte von Wohnimmobilien in King County, Washington, wiedergibt. Um uns auf den wesentlichen Teil der Daten zu konzentrieren, entfernen wir mit der Funktion subset zunächst Beobachtungen für sehr teure und sehr kleine sowie auch große Wohnungen:
kc_tax0 <- subset(kc_tax, TaxAssessedValue < 750000 &
SqFtTotLiving > 100 &
SqFtTotLiving < 3500)
nrow(kc_tax0)
432693
In pandas filtern wir den Datensatz wie folgt:
kc_tax0 = kc_tax.loc[(kc_tax.TaxAssessedValue < 750000) &
(kc_tax.SqFtTotLiving > 100) &
(kc_tax.SqFtTotLiving < 3500), :]
kc_tax0.shape
(432693, 3)
Abbildung 1-8 zeigt ein Hexagonal-Binning-Diagramm, das die Beziehung zwischen der fertiggestellten Wohnfläche und dem steuerlich geschätzten Wert von Immobilien in King County abbildet. Anstatt einfach die einzelnen Datenpunkte abzubilden, die sich als dunkle, zusammenhängende Wolke darstellen würden, sind sie in sechseckige Felder gruppiert, die so eingefärbt werden, dass die Anzahl der Beobachtungen in diesem Feld widergespiegelt wird. In diesem Diagramm ist der positive Zusammenhang zwischen der Anzahl der fertiggestellten Wohnfläche und dem steuerlich geschätzten Wert deutlich zu erkennen. Ein interessantes Detail ist, dass wir zusätzliche Verdunklungen über dem (dunkelsten) unteren Hauptbereich erkennen können, die auf Häuser schließen lassen, die zwar jenen im Hauptbereich flächenmäßig gleichen, aber einen höheren steuerlich ermittelten Wert aufweisen.
Abbildung 1-8 wurde mit dem beeindruckenden R-Paket ggplot2 erzeugt, das von Hadley Wickham entwickelt СКАЧАТЬ