Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Эрец Эйден
Чтение книги онлайн.

Читать онлайн книгу Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эрец Эйден страница 12

СКАЧАТЬ слов Ципфу пришлось бы пойти проверенным путем – вручную записывать каждый случай появления того или иного слова в тексте. Разумеется, это была бы невероятно скучная работа.

      Думается, что он испытал восторг, узнав о работе Майлса Л. Хенли[49]. Хенли, большой поклонник «Улисса», опубликовал результат кропотливой и героической работы, которой дал довольно скучное название Word Index to James Joyce’s Ulysses («Индекс слов в книге Джеймса Джойса „Улисс“»). Эта книга (представлявшая собой то, что ученые называют «конкорданс») предлагала исследователям «Улисса» и прочим энтузиастам список всех слов книги. Мало какая другая книга вызвала бы у Ципфа больший интерес. Теперь для того, чтобы разобраться со своей первоначальной задачей, ему нужно было взять индекс Хенли и посчитать, какова длина каждой из статей[50]. Работа стала на порядок проще.

      Обратите внимание, что Ципф намного опередил свое время в понимании того, что только начинают понимать ученые наших дней, – как логически анализировать информацию. Ципф умело переформулировал важные для себя вопросы в свете доступных ему данных. Вместо того чтобы заняться неразрешимой проблемой подсчета всех слов, он сфокусировался на вполне решаемой проблеме подсчета слов в книге «Улисс». И если бы он был жив в наши дни, то оказался бы у дверей Google в тот же самый момент, когда компания объявила о своем проекте по оцифровке книг.

      Вооружившись индексом Хенли, Ципф проранжировал слова в «Улиссе» по частоте употребления[51]. Первое место занял определенный артикль the, использованный 14 877 раз – то есть он представлял собой каждое восемнадцатое слово. Десятым по частоте оказалось слово I («я») с 2653 случаями употреблений. Слово say, встречавшееся в книге 265 раз, оказалось на сотой позиции. Слово step с 26 случаями употреблений заняло в рейтинге Ципфа тысячное место. А чтобы оказаться на десятитысячной позиции, слову indisputable («бесспорный») было достаточно появиться в тексте всего два раза.

      Изучая получившийся список, Ципф заметил кое-что любопытное – а именно обратную связь между позицией слова и частотой его использования. Если номер позиции слова был в 10 раз выше – пятисотое место вместо пятидесятого, – то оно встречалось в 10 раз реже. Таким образом his («его»), оказавшееся на восьмом месте с 3326 упоминаниями, встречается в 10 раз чаще, чем слово eyes («глаза») (восьмидесятая позиция, 330 случаев употреблений). Иными словами, можно было сказать, что редких слов гораздо больше, чем можно было ожидать. В «Улиссе» лишь 100 слов используется более 2653 раз. Однако в книге есть сто слов, использующихся более 265 раз, тысяча слов, использующихся более 26 раз, и так далее.

      Кроме того, как вскоре обнаружил Ципф, это было характерно не только для слов в «Улиссе» Джойса. Такая же закономерность проявлялась в словах из газет, текстов, написанных на китайском языке и латыни, и практически во всех остальных информационных источниках, к которым он обращался. Это открытие, называемое в наши дни законом Ципфа, оказалось универсальным организующим принципом для всех известных языков[52].

СКАЧАТЬ



<p>49</p>

См. Miles Hanley. Word Index to James Joyce’s Ulysses. Madison: University of Wisconsin Press, 1937.

<p>50</p>

Первая встреча Ципфа с законом, носящим его имя, произошла еще до того, как он занялся анализом частоты слов в «Улиссе». В 1911 году бизнесмен по имени Р. С. Элдридж опубликовал список частотных слов, взятых с восьми полос газеты. Элдридж заметил, что «даже умеренное количество слов при мудром выборе позволит любым двум людям понять друг друга… и серьезно обсуждать множество проблем». Его цель состояла в использовании лексической статистики для формулирования «основ универсального словаря». Список лег в основу расчетов Ципфа для книги 1935 года «Психобиология языка» – первой из публикаций Ципфа о закономерности, ныне известной как «закон Ципфа». См. Zipf George Kingsley. The Psycho-Biology of Language. Boston: Houghton Mifflin, 1935, доступно в сети Интернет: http://goo.gl/KYvOcK; Zipf George Kingsley. Human Behavior and the Principle of Least Effort. Reading, MA: Addison-Wesley, 1949; Eldridge R. C. Six Thousand Common English Words. Buffalo, NY: Clement Press, 1911.

<p>51</p>

Ципф во многом полагался на приложение к индексу Хенли, созданное Мартином Йоосом, где приводилось большинство необходимых статистических данных.

<p>52</p>

Было бы большим упущением, если бы мы не отметили, что закон Ципфа не имеет прямого отношения к Ципфу и не является законом в строгом смысле слова, причем по нескольким причинам. Прежде всего он верен лишь отчасти; при ближайшем рассмотрении в большинстве языков имеются систематические отклонения от чисто ципфовской закономерности. Во-вторых, несмотря на множество (конфликтующих между собой) теоретических построений, не до конца понятно, применим ли закон Ципфа для всех языков или только к отдельным языкам. Закон Ципфа, вероятнее всего, представляет собой в высшей степени универсальную – и достаточно загадочную – эмпирическую закономерность. Кроме всего прочего, Ципф его не открывал. Насколько нам известно, первым человеком, сформулировавшим его основополагающий математический принцип, был французский стенограф по имени Жан-Батист Эсту, опубликовавший результаты своих исследований по данному вопросу в 1912 году в своей популярной книге по скорописи (дисциплине, в которой ципфовские закономерности нашли немедленное практическое применение). Классическое представление закона Ципфа как графика распределения частотности на шкале с двумя осями было впервые изложено Эдвардом Кондоном в научной работе, опубликованной в 1928 году в журнале Science. Кондон впоследствии стал знаменитым физиком и президентом двух организаций – Американского физического общества и Американской ассоциации содействия развитию науки. Первая публикация Ципфа на тему закона Ципфа появилась в 1935 году. Судя по всему, он, независимо от других исследователей, пришел к тем же выводам и подтвердил их более основательными данными (как бы это ни было любопытно, анализ использования Ципфом чужих исследований не входит в наши планы в данной книге). Ципф продолжал работать над этим вопросом в течение долгого времени, много сделав как для создания теоретической базы, так и для масштабного рассмотрения аналогичных явлений в общественных науках. Также Ципф объединил разрозненные идеи и популяризовал их. В обзоре на его книгу Human Behavior and Principle of Least Effort («Человеческое поведение и принцип минимизации усилий»), написанном в 1949 году, она названа «одной из самых амбициозных книг из когда-либо написанных… свежей и непохожей на прочие. Как ни одна другая из написанных за последние полвека, она преодолевает границы между различными областями исследований». См. Stewart John Q. Обзор книги Zipf George Kingsley. Human Behavior and the Principle of Least Effort // Science 110, no. 2868 (16 декабря 1949 г.). P. 669. Для краткости мы не описываем подробно данную книгу. И все же, учитывая историю его развития, как дать закону Ципфа более точное название? Разумно предположить, что закон Ципфа должен на самом деле называться закономерностью Эсту – Кондона – Ципфа. Но даже такое название будет не вполне справедливым. Работа Ципфа стала возможной благодаря индексации и подсчетам, сделанным Хенли, Йоосом и Элдриджем. Работа Кондона также была основана на частотном анализе, проведенном другими исследователями: в данном случае Леонардом Айресом и Годфри Дьюи (сыном Мелвила Дьюи, изобретателя одноименной десятичной системы). Поэтому закон Ципфа стоило бы называть закономерностью Эсту – Кондона – Ципфа – Элдриджа – Айреса – Дьюи – Хенли – Йооса. Возможно, именно по этой причине мы придерживаемся более простого варианта – «закон Ципфа». В любом случае мы давно привыкли к тому, что всякое открытие, основанное на кропотливом анализе по-настоящему впечатляющего массива данных, не называется в честь человека, собравшего этот массив. Поэтому нам стоит заняться вручением утешительных призов. Как вариант, подошло бы название «принципа Хенли». См. Estoup Jean-Baptiste. Gammes Sténographiques. Paris: Institut Sténographique, 1916; Condon E.U. Statistics of Vocabulary // Science 67, no. 1733 (16 марта 1928 г.). P. 300. Доступно в сети Интернет: http://goo.gl/Qi5B49; Ayres Leonard P. A Measuring Scale for Ability in Spelling. New York: Russell Sage Foundation, 1915, доступно в сети Интернет: http://goo.gl/C0cgke; Dewey Godfrey. Relative Frequency of English Speech Sounds. Cambridge, MA: Harvard University Press, 1923; Petruszewycz M. L’Histoire de la Loi d’Estoup-Zipf: Documents // Mathématiques et Sciences Humaines 44 (1973). P. 41–56. Доступно в сети Интернет: http://goo.gl/LlrNn. Краткое и изящное описание этих идей приведено в книге Levelt Willem. A History of Psycholinguistics. Oxford: Oxford University Press, 2012. Обширная библиография на тему закона Ципфа и связанных с ним принципов приводится в работе Beebe Nelson H. F. A Bibliography of Publications about Benford’s Law, Heaps’ Law, and Zipf ’s Law. Salt Lake City: University of Utah, 2013, доступно в сети Интернет: http://goo.gl/TuyT0. Связанной с законом Ципфа может считаться концепция «розового или 1/f шума». См. Mandelbrot Benoit B. Multifractals and 1/f Noise: Wild Self-Affinity in Physics. New York: Springer, 1999.