Название: Praktische Statistik für Data Scientists
Автор: Peter Bruce
Издательство: Bookwire
Жанр: Математика
isbn: 9783960104681
isbn:
kc_tax_zip
def hexbin(x, y, color, **kwargs):
cmap = sns.light_palette(color, as_cmap=True)
plt.hexbin(x, y, gridsize=25, cmap=cmap, **kwargs)
g = sns.FacetGrid(kc_tax_zip, col='ZipCode', col_wrap=2)
g.map(hexbin, 'SqFtTotLiving', 'TaxAssessedValue',
extent=[0, 3500, 0, 700000])
g.set_axis_labels('Fertiggestellte Wohnfläche (in Quadratfuß)',
'Steuerlich geschätzter Wert')
g.set_titles('Postleitzahl {col_name:.0f}')
1 Verwenden Sie die Argumente col und row, um die Drittvariable anzugeben. Für eine einzelne Drittvariable können Sie das Argument col zusammen mit col_wrap nutzen, um das Facettendiagramm in mehrere Quadranten aufzuteilen.
2 Mit der Methode map wird die Funktion hexbin auf die hinsichtlich der verschiedenen Postleitzahlen untergliederten Teilmengen des ursprünglichen Datensatzes angewandt. Durch die Angabe von extent definieren Sie, wie weit sich die x- und y-Achsen erstrecken sollen.
Das Konzept der Konditionierung von Variablen in grafischen Darstellungen wurde mit Trellis-Grafiken, die von Rick Becker, Bill Cleveland und anderen bei Bell Labs entwickelt wurden, eingeführt [Trellis-Graphics]. Diese Idee hat sich auf verschiedene moderne Visualisierungsprogramme übertragen, wie z.B. dem lattice- [lattice] und dem ggplot2-Paket in R und den seaborn- [seaborn] und Bokeh-Modulen [bokeh] in Python. Drittvariablen stellen ebenfalls einen integralen Bestandteil von Business-Intelligence-Plattformen wie Tableau und Spotfire dar. Mit dem Aufkommen enormer Rechenleistung haben moderne Visualisierungsplattformen die bescheidenen Anfänge der explorativen Datenanalyse weit hinter sich gelassen. Die Schlüsselkonzepte und Werkzeuge, die vor einem halben Jahrhundert entwickelt wurden (z.B. einfache Box-Plots), bilden jedoch immer noch eine Grundlage solcher Systeme.
Kernideen
Hexagonal-Binning- und Konturdiagramme sind nützliche Werkzeuge, die eine gleichzeitige visuelle Exploration zweier numerischer Variablen ermöglichen, ohne von riesigen Datenmengen überwältigt zu werden.
Kontingenztabellen sind das gängigste Werkzeug, um die Häufigkeiten von zwei kategorialen Variablen zu betrachten.
Box-Plots und Violin-Plots ermöglichen Ihnen, den Zusammenhang zwischen einer numerischen Variablen und einer kategorialen Variablen darzustellen.
Weiterführende Literatur
Das Buch Modern Data Science with R von Benjamin Baumer, Daniel Kaplan und Nicholas Horton (Chapman & Hall/CRC Press, 2017) bietet eine ausgezeichnete Präsentation von »einer Grammatik für Grafiken« (das »gg« in ggplot).
Ein weiteres, vom Entwickler des ggplot2-Pakets geschriebenes Buch mit dem Titel ggplot2: Elegant Graphics for Data Analysis von Hadley Wickham (Springer, 2009) ist ebenfalls eine ausgezeichnete Ressource.
Josef Fruehwald hat eine webbasierte Anleitung für das ggplot2-Paket (https://oreil.ly/zB2Dz) bereitgestellt.
Zusammenfassung
Die von John Tukey begründete explorative Datenanalyse (EDA) schuf den Grundstein für unser heutiges Verständnis der Data Science. Der Kerngedanke der EDA ist, dass der erste und wichtigste Schritt in jedem Projekt, bei dem mit Daten gearbeitet wird, darin liegt, sich die Daten anzusehen. Durch die Zusammenfassung und Visualisierung der Daten können Sie wertvolle Erkenntnisse für das Projekt gewinnen.
In diesem Kapitel wurden mehrere Konzepte vorgestellt, die von einfachen statistischen Maßzahlen, z.B. Lage- und Streuungsmaßen, bis hin zu aussagekräftigen visuellen Darstellungen reichen, die die Beziehungen zwischen mehreren Variablen, wie in Abbildung 1-12, untersuchen. Die vielfältigen Werkzeuge und Verfahren, die von der Open-Source-Gemeinschaft entwickelt wurden (und werden), haben in Verbindung mit der Ausdruckskraft der Programmiersprachen R und Python eine Fülle von Möglichkeiten zur Exploration und zur Analyse von Daten geschaffen. Die explorative Datenanalyse sollte ein Grundpfeiler jedes datenwissenschaftlichen Projekts sein.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.