Башкирский стих XX века. Корпусное исследование. Борис Орехов
Чтение книги онлайн.

Читать онлайн книгу Башкирский стих XX века. Корпусное исследование - Борис Орехов страница 24

СКАЧАТЬ Корпусом чешского стиха23 [Plecháč 2015]. Все тексты получили морфологическую, метрическую и строфическую разметку, а также некоторые дополнительные, облегчающие поиск уровни аннотации (восстановление словарной формы слова, фонетическую транскрипцию). Объём корпуса складывается в основном из поэтических произведений конца XIX и начала XX века, и на 2019 год составляет 76 699 стихотворений, 2 664 989 строк и 14 592 037 словоупотреблений.

      3.2. Репрезентативность и сбалансированность корпуса

      3.2.1. Оценка сбалансированности

      Так как дальнейшие выводы будут основаны на подсчётах и статистических методах, апробированных в корпусной лингвистике, нужно убедиться, что собранная коллекция (мы также по статистической традиции будем называть её «выборкой») отвечает требованиям репрезентативности и сбалансированности.

      В корпус вошли поэтические произведения 103 башкирских поэтов, творческая активность которых приходится на XX век. Стихотворений в выборке: 17 895, их общий объём 468 456 стихотворных строк и 1,77 млн словоупотреблений. «Зачинателем башкирской советской литературы был Мажит Гафури, начавший писать в 1902 году» [Вместо предисловия 1950: 5], он (годы жизни: 1880‒1934) является самым старым автором в корпусе, и ему принадлежат наиболее ранние стихотворения коллекции, датируемые 1902 годом. Корпус доведён до 2000-х годов, последнее включённое в него стихотворение – «Көндән-көнгә бойоғамын һаман…» (2005) Мустая Карима (1919‒2005). Полный список авторов, включённых в корпус, можно найти в Приложении 1. Коллекция отражает только книжные издания поэтических произведений, в нее не попали публикации в периодике. Из стихотворений, написанных до введения в башкирской печати кириллического алфавита, в корпусе есть только те, которые были позднее переизданы в современной графике. Оригинальные публикации на арабице и латинице в качестве источника нами не рассматривались.

      Можно измерить долю участия каждого автора в коллекции по трём параметрам: число стихотворений, число стихотворных строк, число словоупотреблений. Интуитивно кажется, что эти параметры зависят друг от друга, то есть если растёт один, то растёт и другой: чем больше стихотворений одного поэта появится в корпусе, тем больше принадлежащих ему строк и словоупотреблений мы обнаружим в корпусе. Эта зависимость может нарушаться в случае, если при составлении коллекции в неё попадёт небольшое число произведений одного автора, которые, однако, будут иметь аномальную длину. Проверим ситуацию в корпусе. Мы используем для этого коэффициент корреляции Пирсона. Он принимает значения от −1 до 1. Значение близкое к 1 означает высокую степень корреляции, то есть в случае, если какой-то параметр будет расти для некоторого измерения, то и другой параметр для того же измерения вырастет. Верно и обратное: падение одного параметра будет означать падение другого.

      Коэффициент корреляции близкий к −1 будет означать, что рост значений для одного параметра почти наверняка будет сопровождаться падением значений для другого, иными словами, СКАЧАТЬ



<p>23</p>

URL: http://www.versologie.cz/en/kcv.html