Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Эрец Эйден
Чтение книги онлайн.

Читать онлайн книгу Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эрец Эйден страница 4

СКАЧАТЬ имя человека, которому его отправляли. Фотографии в Facebook напомнят нам о подробностях вечера, проведенного накануне в баре, даже если мы ничего не помним из-за похмелья и жуткой головной боли. Если мы пишем книгу, Google сканирует ее; если мы делаем фотографию, она хранится на Flickr; а если мы снимаем видео, YouTube позволяет желающим его посмотреть.

      Проживая современную жизнь, все активнее проводя время в Интернете, мы оставляем все более заметный след из цифровых «хлебных крошек» – личные исторические данные потрясающей глубины и значительного масштаба.

      Большие данные

      О каком масштабе идет речь?

      В компьютерных науках принято считать единицей измерения информации бит (сокращение от binary digit – двоичное число). Бит можно представить себе в виде ответа на вопрос «да или нет», где 1 – это «да», а 0 – это «нет». Группа из восьми битов называется «байт» [12].

      В настоящее время цифровой след обычного человека – то есть годовой объем данных, создаваемых в мире на душу населения, – составляет немногим менее одного терабайта. Это можно сравнить примерно с 8 триллионами ответов на вопрос «да или нет». В совокупности человечество создает каждый год 5 зеттабайт данных: 40 000 000 000 000 000 000 000 (сорок секстиллионов) бит[13].

      Такие огромные цифры сложно себе представить, поэтому давайте их как-то конкретизировать. Если бы вы записали вручную всю информацию, содержащуюся в одном мегабайте, то ваша строка из 1 и 0 превысила бы по высоте гору Эверест[14]. Последовательность 1 и 0, составляющая 1 гигабайт, записанная вручную, соответствует длине земного экватора. А длина записанной последовательности цифр, составляющих один терабайт, равна расстоянию от Земли до Сатурна, пройденному туда и обратно 25 раз. Длина последовательности в один петабайт, записанной вручную, равна расстоянию туда и обратно до космического аппарата «Вояджер-1» (самого удаленного от Земли аппарата, созданного человечеством). Длина последовательности в один экзабайт равна расстоянию до альфы Центавра. Длина последовательности в 5 зеттабайт, создаваемых людьми каждый год, равна расстоянию до галактического центра Млечного Пути. Если бы вместо отправки электронных писем и трансляции видео эти пять зеттабайт использовались для той же цели, что и у древних пастухов – то есть для подсчета овец, – то их стадо полностью заполнило бы всю Вселенную, не оставив свободного пространства[15].

      Вот почему люди дали всей этой информации название «большие данные». И большие данные сегодняшнего дня – это лишь верхушка айсберга. Полный цифровой след, оставляемый хомо сапиенс, удваивается каждые два года[16], по мере совершенствования технологий хранения данных, повышения скорости обмена информацией и постепенного перемещения нашей жизни в Интернет. Большие данные становятся все больше, больше и больше.

      Цифровая линза

      Пожалуй, СКАЧАТЬ



<p>12</p>

Классическую игру в «двадцать вопросов» можно также назвать «два с половиной байта», поскольку именно такой объем информации вы должны собрать, прежде чем высказать свою догадку.

<p>13</p>

Подсчеты содержатся в отчете IDC Digital Universe report. См. Gantz John, Reinsel David. The Digital Universe in 2020 // EMC Corporation (декабрь 2012 г.). Доступно в сети Интернет: http://idcdocserv.com/1414. См. также: Data, Data Everywhere // Economist (25 февраля 2010 г.). Доступно в сети Интернет: http://goo.gl/VsXh5P. Bohn Roger E., Short James E. How Much Information? 2009 // Global Information Industry Center (январь 2010 г.). Доступно в сети Интернет: http://goo.gl/pt0R; Lyman Peter, Varian Hal R. How Much Information 2003? // University of California at Berkeley. Доступно в сети Интернет: http://goo.gl/vpo9N.

<p>14</p>

Мы исходим из предположения, что для записи типичного бита требуется примерно шесть миллиметров. В определенной степени это зависит от соотношения единиц и нулей, поскольку «1» очень узкая. Типичный размер букв в рукописном тексте рассматривается в работе Kamath Vikram et al. Development of an automated handwriting analysis system // ARPN Journal of Engineering and Applied Sciences 6, no. 9 (сентябрь 2011 г.). Доступно в сети Интернет: http://goo.gl/4mlkTm.

<p>15</p>

Таким образом, проблему подсчета овец можно будет считать полностью решенной, если только Вселенная не расширится очень сильно.

<p>16</p>

Согласно расчетам IDC (International Data Corporation), цифровой след человечества вырастет со 130 экзабайт в 2005 году до 40 000 экзабайт (40 зеттабайт) в 2020 г. Иными словами, удвоение объема информации будет происходить каждый год и 10 месяцев. См. выше.