Основы статистической обработки педагогической информации. Денис Владимирович Соломатин
Чтение книги онлайн.

Читать онлайн книгу Основы статистической обработки педагогической информации - Денис Владимирович Соломатин страница 21

СКАЧАТЬ Когда вызывается функция из пакета dplyr на сгруппированных данных, автоматически подключается group_by() для распараллеливания вычислений в целях повышения производительности и дробления информации. Например, если применить точно такой же вызов как в предыдущем примере, но для сгруппированных по дате записях, то на выходе получится средняя задержка по дням:

      сгруппированные_по_дням <– group_by(flights, year, month, day)

      summarise(сгруппированные_по_дням,

      средняя_задержка_рейсов_по_датам = mean(dep_delay, na.rm = TRUE))

      Вызов функций group_by() совместно с summary() чаще всего используется при работе в пакете dplyr для получения статистических отчетов по группам. Но прежде, чем погрузиться в детали, дополнительно изложим одну техническую идею, касающуюся обработки информации путём её направления по специальным каналам. Представьте, что хотим исследовать закономерность между расстоянием и средней задержкой рейса для каждого пункта назначения. Опираясь на имеющиеся знания о возможностях dplyr, для этого достаточно использовать такой код:

      группы_рейсов_по_месту_назначения <– group_by(flights, dest)

      задержки <– summarise(группы_рейсов_по_месту_назначения,

      опозданий = n(), средняя_длина_маршрута = mean(distance, na.rm = TRUE),

      средняя_задержка = mean(arr_delay, na.rm = TRUE))

      Оставим в выборке рейсы имеющие более сотни регулярных опозданий и, например, не на московских направлениях:

      задержки <– filter(задержки, опозданий > 100, dest != "MSK")

      Визуализируем оставшиеся записи:

      ggplot(data = задержки, mapping =

      aes(x = средняя_длина_маршрута, y = средняя_задержка)) +

      geom_point(aes(size = опозданий), alpha = 1/5) +

      geom_smooth(se = FALSE)

      Похоже, что задержки растут с увеличением расстояния до ~750 миль, а затем сокращаются. Неужели, когда рейсы становятся длиннее, появляется возможность компенсировать опоздание находясь в полёте?

      Предварительно было пройдено три вспомогательных этапа подготовки данных:

      1. Сгруппированы рейсы по направлениям.

      2. В каждой из групп усреднены расстояния, длительность задержки и вычислено количество опоздавших рейсов.

      3. Отфильтрованы шумы и аэропорт, который не подчиняется законам логики.

      Этот код немного перегружен, так как каждому промежуточному блоку данных присвоено имя. Вспомогательные таблицы сохранялись, даже когда их содержимое не востребовано на заключительном этапе, и замедляли анализ. Но есть отличный способ справиться с обозначенной проблемой посредством настройки каналов передачи данных служебным оператором %>%:

      задержки <– flights %>%

      group_by(dest) %>%

      summarise(

      опозданий = n(),

      средняя_длина_маршрута = mean(distance, na.rm = TRUE),

      средняя_задержка = mean(arr_delay, na.rm = TRUE) ) %>%

      filter(опозданий > 100, dest != " MSK ")

      Такой синтаксис фокусирует внимание исследователя на выполняемых преобразованиях, а не на том, что получается на каждом из вспомогательных этапов, и делает код более читаемым. СКАЧАТЬ