Интеллектуальный анализ данных. Учебник. Вадим Николаевич Шмаль
Чтение книги онлайн.

Читать онлайн книгу Интеллектуальный анализ данных. Учебник - Вадим Николаевич Шмаль страница 7

СКАЧАТЬ миллиарды записей. Алгоритм работает хорошо, при условии, что все отношения в данных достаточно отличаются друг от друга и что данные относительно малы как в столбцах, так и в строках. Это делает классификацию данных полезной в системах с относительно небольшим объемом памяти и небольшим объемом вычислений, и поэтому классификация больших наборов данных остается серьезной нерешенной проблемой.

      Простейшим алгоритмом классификации для классификации данных является метод полной корреляции, также известный как метод корреляции. При полной корреляции у вас есть два набора данных, и вы сравниваете данные одного набора с данными другого набора. Это легко сделать для отдельных фрагментов данных. Следующим шагом является вычисление корреляции между двумя наборами данных. Эта корреляция двух наборов данных говорит вам, какой процент данных составляет каждый набор. Таким образом, используя эту корреляцию, вы можете классифицировать данные либо как один набор, либо как другой, указывая на части набора данных, которые происходят из того или иного набора.

      Этот простой метод часто хорошо работает для данных, хранящихся в простых базах данных с небольшим объемом данных и низкой скоростью доступа к данным. Например, система базы данных может использовать древовидную структуру для хранения данных, при этом столбцы записи представляют поля в структуре. Эта структура не позволяла ранжировать данные, потому что данные находились бы в двух отдельных строках древовидной структуры. Это делает невозможным осмысление данных, если данные помещаются только в одну древовидную структуру. Если в базе данных есть два дерева данных, вам нужно будет сравнить каждое из двух деревьев. Если бы было большое количество деревьев, сравнение могло бы быть вычислительно затратным.

      Следовательно, полная корреляция является плохим методом классификации. Корреляция данных не различает соответствующие части данных, и данные относительно малы как в столбцах, так и в строках. Эти проблемы делают полную корреляцию непригодной для простых систем классификации данных и систем хранения данных. Однако, если данные относительно велики, может применяться полная корреляция. Этот пример полезен для систем хранения данных с относительно высокой вычислительной нагрузкой.

      Сочетание метода классификации данных с системой хранения данных повышает как производительность, так и удобство использования. В частности, размер результирующего алгоритма классификации в значительной степени не зависит от размера хранилища данных. Алгоритм подробной классификации вообще не требует много памяти для хранения данных. Часто он достаточно мал, чтобы хранить его в буфере, и многие организации хранят свои системы классификации таким образом. Также характеристики производительности системы хранения данных не зависят от классификатора. Система хранения данных может обрабатывать данные с высокой степенью изменчивости.

СКАЧАТЬ