Все лгут. Поисковики, Big Data и Интернет знают о вас всё. Cет Cтивенс-Давидовиц
Чтение книги онлайн.

Читать онлайн книгу Все лгут. Поисковики, Big Data и Интернет знают о вас всё - Cет Cтивенс-Давидовиц страница 24

СКАЧАТЬ наконец, Седер показал мне файл, в котором содержались все данные о коне № 85, – файл, ставший наиболее успешным прогнозом в его карьере. Он разглашал свой секрет? Возможно. Но Джефф сказал, что его это не волнует. Важнее сохранения секрета для него было доказать свою правоту, показать всему миру, что эти 20 лет копания во внутренностях, выгребания навоза и таскания с собой аппарата УЗИ принесли наконец результат.

      Вот некоторые сведения о лошади № 85.

      № 85 (позже Американский Фараон), однолетка

      Здесь четко и ясно видно, почему Седер и его команда так одержимо рекомендовали № 85. Процентиль его левого желудочка составлял 99,61!

      Не только левый желудочек, но и все остальные важные органы, включая сердце и селезенку, были исключительно крупными. Вообще говоря, Седер обнаружил: когда дело касается скачек, чем больше левый желудочек, тем лучше. Но его размер может быть и признаком болезни – если другие органы невелики. У Американского Фараона все наиболее важные органы были больше среднего размера, а левый желудочек был просто огромен. Данные кричали о том, что № 85 уникален, таких лошадей была одна на 100 тысяч или даже на миллион.

      Какую информацию ученые могут извлечь из проекта Седера?

      Первое и, пожалуй, самое главное. Если вы собираетесь попробовать использовать новые данные для революционного улучшения ситуации, лучше сперва задаться вопросом: где не срабатывают старые методы? Одержимость агентов-лошадников родословными оставила Седеру достаточно места для маневра. То же самое можно сказать и о победе Google над поисковыми системами, одержимыми подсчетом слов.

      Одним из недостатков в попытке Google предсказать приближение эпидемии гриппа{56}, используя данные поисковых запросов, было то, что вы можете сделать это очень хорошо и сами – просто используя данные прошлой недели и добавив сезонные корректировки. До сих пор ведутся споры о том, насколько сведения, полученные на основании поисковых запросов, лучше простой, но мощной модели. На мой взгляд, поиск в Google практичнее для измерения состояний, для которых существующие данные не столь показательны. Поэтому Google STD в долгосрочной перспективе может оказаться более полезным, чем Google Flu.

      Второй урок заключается в том, что при попытке сделать прогноз не нужно всерьез задаваться вопросом, почему ваша модель работает. Седер не может полностью объяснить, почему левый желудочек имеет столь важное значение при прогнозировании успеха лошади. Он также не в состоянии точно сказать, почему на успех влияет именно величина селезенки. Возможно, когда-нибудь лошадиные кардиологи и гематологи и дадут ответ на эти вопросы. Но сейчас это не важно. Седер занимается прогнозированием успеха, а не его объяснением. То есть вы просто должны знать, что это работает, и не пытаться понять почему.

      Например, Walmart использует данные о продажах во всех своих магазинах, чтобы знать, какие продукты следует пока отложить. СКАЧАТЬ



<p>56</p>

См. Sherry Ross, «Малышка на 16 миллионов», New York Daily News, 12 марта 2006 года, и Jay Privman, «The Green Monkey, Who Sold for $16M, Retired» («Зеленая мартышка, которая была продана за 16 млн долларов, отправилась на отдых»), ESPN.com, 12 февраля 2008 года, http://www.espn.com/sports/horse/news/story?id=3242341. Видео аукциона «Лошадь за 16 млн долларов», видео на Ютуб, опубликовано 1 ноября 2008 года, https://www.youtube.com/watch?v=EyggMC85Zsg.