Автор: Коллектив авторов
Издательство: Агентство научных изданий
Жанр: Учебная литература
isbn: 978-5-248-00680-9
isbn:
Другим важным инструментом многомерного статистического анализа является кластерный анализ. Его основное назначение состоит в разбиении множества исследуемых признаков на однородные в определенном смысле группы, когда объекты внутри одного кластера более похожи друг на друга, чем на объекты из других кластеров [Айвазян, Мхитарян, 2001, с. 484].
Методы кластерного анализа актуальны, когда возникает задача классификации в признаковом пространстве большой размерности, что естественно, ведь если признаков, которыми описываются объекты, всего два, то получить группировку можно с помощью визуализации данных на диаграмме рассеяния.
Являясь описательным методом статистики, кластерный анализ позволяет проанализировать внутренние связи между единицами в группах, он может быть особенно полезен при исследовании малоизученных явлений. С его помощью можно описать большой объем информации, выявить сходную динамику или структуру распределения показателей.
Существенным достоинством метода является отсутствие каких-либо допущений о характере распределения данных и априорной информации о числе групп. Все, что необходимо для реализации кластерного анализа – задать меру схожести объектов и правило объединения в кластеры. Несмотря на то, что многие методы кластерного анализа довольно просты, их активное использование стало возможным только с появлением необходимых вычислительных мощностей, потому что эффективное решение задачи поиска кластеров требует большого числа арифметических действий [Айвазян, Мхитарян, 2001, с. 484].
Различаются иерархические и итеративные методы кластеризации. Агломеративные иерархические методы предполагают последовательное объединение объектов в группы и групп между собой до тех пор, пока все объекты не окажутся в одном кластере. Дивизивные, наоборот, построены на последовательном разбиении одного кластера со всеми объектами на более малочисленные группы.
К итеративным методам кластерного анализа относится метод k-средних. В отличие от иерархических методов, он требует предварительного определения количества кластеров, которые будут сформированы. Смысл процедуры состоит в итерационном уточнении «центров тяжести» искомых классов и классификации наблюдений в соответствии с расстоянием до ближайшего «эталонного» центра. Но итеративные методы значительно более трудоемки с точки зрения вычислений и менее популярны.
Мерой схожести (однородности) СКАЧАТЬ