Наука о данных. Брендан Тирни
Чтение книги онлайн.

Читать онлайн книгу Наука о данных - Брендан Тирни страница 5

Название: Наука о данных

Автор: Брендан Тирни

Издательство: Альпина Диджитал

Жанр: Базы данных

Серия:

isbn: 978-5-9614-3378-4

isbn:

СКАЧАТЬ графики и заложил основы современной визуализации данных и поискового анализа данных (EDA). Плейфер изобрел линейный график и комбинированную диаграмму для временных рядов данных, гистограмму, чтобы проиллюстрировать сравнение значений, принадлежащих разным категориям, и круговую диаграмму для наглядного изображения долей. Преимущество визуализации числовых данных заключается в том, что она позволяет использовать наши мощные зрительные возможности для обобщения, сравнения и интерпретации данных. Следует признать, что визуализировать большие (с множеством опорных точек) или сложные (с множеством атрибутов) наборы данных довольно трудно, но визуализация по-прежнему остается важной составляющей науки о данных. В частности, она помогает ученым рассматривать и понимать данные, с которыми они работают. Визуализация также может быть полезна для презентации результатов проекта. Со времен Плейфера разнообразие видов графического отображения данных неуклонно росло, и сегодня продолжаются разработки новых подходов в области визуализации больших многомерных наборов данных. В частности, не так давно был разработан алгоритм стохастического вложения соседей с t-распределением (t-SNE), который применяется при сокращении многомерных данных до двух или трех измерений, тем самым облегчая их визуализацию.

      Развитие теории вероятностей и статистики продолжилось в XX в. Карл Пирсон разработал современные методы проверки гипотез, а Рональд Фишер – статистические методы для многомерного анализа и предложил идею оценки максимального правдоподобия статистических заключений как метод, позволяющий делать выводы на основе относительной вероятности событий. Работа Алана Тьюринга во время Второй мировой войны привела к изобретению компьютера, который оказал исключительно сильное влияние на статистику, позволив совершать существенно более сложные вычисления. В течение 1940-х гг. и в последующие десятилетия были разработаны важные вычислительные модели, которые до сих пор широко применяются в науке о данных. В 1943 г. Уоррен Мак-Каллок и Уолтер Питтс предложили первую математическую модель нейронной сети. В 1948-м Клод Шеннон опубликовал статью под названием «Математическая теория связи» и тем самым основал теорию информации. В 1951 г. Эвелин Фикс и Джозеф Ходжес предложили модель дискриминантного анализа (который сейчас более известен как теория распознавания образов), ставшую основой современных алгоритмов ближайших соседей. Послевоенное развитие сферы достигло кульминации в 1956 г. с появлением отрасли искусственного интеллекта на семинаре в Дартмутском колледже. Даже на этой ранней стадии ее развития термин «машинное обучение» уже начал использоваться для описания программ, которые давали компьютеру возможность учиться на основе данных. В середине 1960-х гг. были сделаны три важных вклада в машинное обучение. В 1965 г. Нильс Нильсон опубликовал книгу «Обучающиеся машины»[1], в которой показано, как можно использовать СКАЧАТЬ



<p>1</p>

Нильсон, Н. Дж. Обучающиеся машины. – М.: Мир, 1967.