Название: Путешествия во время пандемии
Автор: Владимир Дараган
Издательство: Издательские решения
Жанр: Современная русская литература
isbn: 9785005183309
isbn:
Слова на экране
Итак, дом на Ленинском проспекте. Восемнадцатый этаж. Окно кухни выходит на лесок, который тянется до Университета Дружбы Народов. Пью чай и смотрю в книгу, где незнакомые английские слова: defiant, discernible, abyss… Вздыхаю – зачем мне это надо? Маразм вроде не грозит, мозги и так работают в лаборатории, в памяти еле удерживаются формулы и графики – осталось не так много места для новых сочетаний букв, которые, как думаю, мне никогда не пригодятся.
Охи и стоны происходят над книгой Джека Лондона «Белый клык». То ли дело Хемингуэй! Книга «Прощай оружие» прошла на ура. Сначала я даже подумал, что знаю английский, ходил гордый, пока не взял в руки Лондона.
Прошли годы. Теперь надо перенестись в Миннеаполис. Дом в пригороде. За окном старые клены, еще более старая яблоня. Сейчас зима, ветер гоняет поземку по вершинам сугробов. Смотрю на белку, которая пытается залезть на птичью кормушку. Вот прыгнула, уцепилась. Есть в такой позе неудобно, белка начинает сбрасывать зерна. Внизу ожидает ужина ее подружка. Ладно, пусть развлекаются. Смотрю на экран – там страницы романов Хемингуэя и Лондона. Запускаю программу по анализу текстов. Это так, развлечение – по работе надо написать программу, которая ищет важные крупицы информации в словесном потоке. Сейчас же компьютер анализирует качество текста, его оригинальность.
Как это можно сделать? Способов миллион. У меня самый простейший. Можно взять достаточно длинный текст и посчитать, сколько раз встречается то или иное слово. После этого выделить первую сотню наиболее популярных слов и выкинуть их из текста – останутся более редкие. Оставшиеся слова уже не такие расхожие, и их количество характеризует стиль автора, его воображение, словарный запас. Чем больше слов в тексте останется после выкидывания 100 популярных слов, тем более насыщен текст нетривиальными словами.
Прогоняю через программу разные книги. Оказывается, что после выкидывания остается около 40% текста! Это же сколько бумаги и компьютерной памяти занимают эти 100 слов!
Вспоминаю книги Хемингуэя и Лондона. А ну ка, господа писатели, как у вас с языком? Компьютер на секунду задумывается и выдает ответ:
У Лондона остается 46% текста после выкидывания 100 популярных слов.
У Хемингуэя в этом случае остается 40%.
Так, Джек Лондон немного впереди. Что дальше:
Лондон использует в романах слова в среднем по 3,5 раза.
Хемингуэй использует в романах слова в среднем по 6,3 раза.
Ага, вот и ответ, почему тогда в Москве так портилось настроение после романов Лондона. Слишком у него много новых слов в текстах. Но может быть это только для выбранных романов? Прогоняю через программу другие романы. Вижу у Хемингуэя:
«Прощай, оружие!» – 40,1% и 6,6;
«По ком СКАЧАТЬ