Fb2Gratis.com

Praktische Statistik für Data Scientists. Peter Bruce
Чтение книги онлайн.

Читать онлайн книгу Praktische Statistik für Data Scientists - Peter Bruce страница 12

Информация о книге:

Название: Praktische Statistik für Data Scientists

Автор: Peter Bruce

Издательство: Bookwire

Жанр: Математика

Серия:

isbn: 9783960104681

isbn:

СКАЧАТЬ Tabelle 1-2: Die ersten Zeilen des data.frame, der Auskunft über die Einwohnerzahlen und Mordraten der einzelnen Bundesstaaten gibt

Berechnen Sie den Mittelwert, den getrimmten Mittelwert und den Median für die Einwohnerzahlen in R:¹

> state <- read.csv('state.csv')

> mean(state[['Population']])

[1] 6162876

> mean(state[['Population']], trim=0.1)

[1] 4783697

> median(state[['Population']])

[1] 4436370

In Python können wir zur Berechnung des Mittelwerts und des Medians die pandas-Methoden des Data Frame verwenden. Den getrimmten Mittelwert erhalten wir durch die Funktion trim_mean aus dem Modul scipy.stats:

state = pd.read_csv('state.csv')

state['Population'].mean()

trim_mean(state['Population'], 0.1)

state['Population'].median()

Der Mittelwert ist größer als der getrimmte Mittelwert, der wiederum größer als der Median ist.

Dies liegt daran, dass der getrimmte Mittelwert die fünf größten und fünf kleinsten Bundesstaaten ausschließt (trim=0.1 entfernt 10% an beiden Enden der Verteilung). Wenn wir die durchschnittliche Mordrate für das Land berechnen wollen, müssen wir dazu den gewichteten Mittelwert oder den Median heranziehen, um die unterschiedlich hohe Anzahl an Einwohnern in den Bundesstaaten zu berücksichtigen. Da R in seiner Standardbibliothek keine Funktion für den gewichteten Median umfasst, müssen wir zu diesem Zweck zunächst das Paket matrixStats installieren:

> weighted.mean(state[['Murder.Rate']], w=state[['Population']])

[1] 4.445834

> library('matrixStats')

> weightedMedian(state[['Murder.Rate']], w=state[['Population']])

[1] 4.4

Bei Python ist die Funktion zur Berechnung des gewichteten Mittelwerts im NumPy-Paket enthalten. Für den gewichteten Median können wir speziell das Paket wquantiles (https://oreil.ly/4SIPQ) verwenden:

np.average(state['Murder.Rate'], weights=state['Population'])

wquantiles.median(state['Murder.Rate'], weights=state['Population'])

Im vorliegenden Fall sind der gewichtete Mittelwert und der gewichtete Median in etwa gleich groß.

Kernideen

Das wesentliche Lagemaß ist der Mittelwert, der jedoch empfindlich auf Extremwerte (Ausreißer) reagiert.

Andere Maße (Median, getrimmter Mittelwert) sind weniger empfindlich gegenüber Ausreißern und ungewöhnlich verteilten Daten und daher robuster.

Weiterführende Literatur

In dem Wikipedia-Artikel zur zentralen Tendenz (https://oreil.ly/qUW2i) werden verschiedene Lagemaße ausführlich erläutert.

John Tukeys Standardwerk aus dem Jahr 1977, Exploratory Data Analysis (Pearson), erweist sich nach wie vor als eine beliebte Lektüre.

Streuungsmaße

Die Lage ist nur eine Dimension bei der Zusammenfassung eines Merkmals. Eine zweite Dimension, die Streuung (engl. Variability) – auch Variabilität oder Dispersion genannt –, misst, ob die Datenwerte eng zusammenliegen oder weit gestreut sind. Die Streuung ist das Herzstück der Statistik: Sie wird gemessen, reduziert, es kann unterschieden werden zwischen zufälliger und tatsächlicher Streuung, die verschiedenen Quellen der wahren Streuung können identifiziert und Entscheidungen in Gegenwart der Streuung können getroffen werden.

Schlüsselbegriffe zu Streuungsmaßen

Abweichung

Die Differenz zwischen den beobachteten Werten und dem Lagemaß (engl. Deviation).

Synonyme

Fehler, Residuen

Varianz

Die Summe der quadrierten Abweichungen vom Mittelwert dividiert durch n –1, wobei n die Anzahl der Beobachtungen ist.

Synonym

mittlerer quadratischer Fehler

Standardabweichung

Die Quadratwurzel der Varianz.

Mittlere absolute Abweichung

Der Mittelwert der Absolutwerte der Abweichungen vom Mittelwert.

Synonyme

l1-Norm, Manhattan-Norm

Mittlere absolute Abweichung vom Median

Der Median der Absolutwerte der Abweichungen vom Median.

Spannweite

Die Differenz zwischen dem größten und dem kleinsten Wert in einem Datensatz (engl. Range).

Ordnungsstatistik

Eine auf den Datenwerten basierende Metrik, sortiert vom kleinsten zum größten.

Synonym

Rang

Perzentil

Der Wert, bei dem P % der Werte diesen Wert oder weniger und (100-P) % diesen Wert oder mehr annehmen.

Synonym

Quantil

СКАЧАТЬ

Praktische Statistik für Data Scientists. Peter Bruce Чтение книги онлайн.

Читать онлайн книгу Praktische Statistik für Data Scientists - Peter Bruce страница 12

Kernideen

Weiterführende Literatur

Streuungsmaße

Schlüsselbegriffe zu Streuungsmaßen

Praktische Statistik für Data Scientists. Peter Bruce
Чтение книги онлайн.