Автор: Коллектив авторов
Издательство: Агентство научных изданий
Жанр: Учебная литература
isbn: 978-5-248-00680-9
isbn:
Описанная логика работы с данными как результатами реализации случайных величин особенно естественна в случае количественных показателей, которые могут непосредственно отождествляться со случайными величинами. Так, случайной величиной можно назвать ВВП / человек в отдельном государстве, уровень безработицы, число респондентов в выборке, заявивших о поддержке некоторой реформы и др.
Основными числовыми характеристиками случайных величин, позволяющими описать данные в выборке, являются меры центральной (средней) тенденции и меры разброса относительно среднего. Они характеризуют распределение, которым описываются признаки, и могут способствовать выбору методов их анализа.
К мерам центральной тенденции относятся среднее арифметическое, медиана и мода. Среднее арифметическое является точечной оценкой математического ожидания E (x) (среднего значения в генеральной совокупности), медиана – значение показателя, меньше которого располагаются 50% наблюдений35, мода – наиболее распространенное значение, способ оценить среднее для категориальных переменных.
Дисперсия Var (x) – мера разброса относительно среднего. Она рассчитывается как усредненная сумма квадратов отклонений от среднего. Квадратный корень из дисперсии называется стандартным отклонением и тоже является мерой разброса, но имеет преимущество перед дисперсией поскольку измеряется в тех же самых единицах, что и сам признак, а дисперсия – в единицах в квадрате.
Определение типа шкалы и получение числовых, а также графических характеристик изучаемых признаков составляют подготовительный этап анализа данных. Исходя из полученной информации, требуется определить корректный метод для содержательной задачи, составляющей интерес исследователя: выявления взаимосвязи признаков, установления причинно-следственной связи, прогнозирования, классификации, снижения размерности и пр.
Задачу выявления связи между двумя номинальными признаками решает анализ таблиц сопряженности признаков, являющихся результатом их перекрестной классификации. Самая простая таблица сопряженности – это таблица 2x2, в которой строкам соответствуют два значения признака А, а столбцам – два СКАЧАТЬ
35
К примеру, при изучении душевого дохода адекватнее использовать медиану, потому что большая часть населения получает доходы ниже среднего, однако есть немногочисленные группы населения, получающие очень высокие доходы, что завышает значение среднего арифметического.