Отец ушёл, а я открыл новый файл для написания тезисов и задумался…
Глава 3
Подсказки отца подействовали. Я довольно быстро накидал тезисы нового доклада, и у меня получился десяток слайдов. Действительно, оказалось всё не так сложно, как я боялся. Нет, конечно, если закапываться в тему, то можно сделать презентацию и с парой сотен слайдов, так как тема поистине безгранична. Но я ограничился только самыми поверхностными тезисами о том, как применяется теория информации в генетике и вообще в биоинформатике.
Всё оказалось одновременно и довольно тривиально, но в то же время очень интересно. Итак, генетическая информация потому и называется «информацией», так как в молекулах ДНК закодированы инструкции о том, как производить белки. Эта кодировка достаточно проста – используется всего лишь четыре буквы: А, Г, Т и Ц.
ДНК – это дезоксирибонуклеиновая кислота, огромная молекула, которая содержится в каждой клетке организма. В ядре каждой клетки содержится две копии ДНК, свёрнутые в так называемые хромосомы. Хромосомы – это Х-образные биомолекулярные комплексы, даже видимые в оптический микроскоп. У каждого вида живых существ используется свой набор хромосом, и, например, у человека таких хромосом 23 пары. Пары именно потому, что ДНК хранится в ядрах клеток в двух экземплярах.
ДНК состоит из нуклеотидов, если говорить очень упрощённо. Нуклеотиды – это и есть те самые четыре буквы генетического кода. Буква «А» обозначает аденин, буква «Г» – гуанин, буква «Т» – тимин и буква «Ц» – цитозин (или при помощи букв латинского алфавита – A, G, T и C). Аденин, гуанин, тимин и цитозин – это четыре нуклеотида, из которых состоит ДНК всех живых существ на планете, а также некоторых вирусов.
И вот тут как раз проявляется теоретико-информационный подход к генетике. Вместо того чтобы размышлять о ДНК, как о гигантской биомолекуле, состоящей из нуклеотидов, сцеплённых друг с другом в двойную спираль, имеет смысл абстрагироваться от этого и записывать последовательность нуклеотидов в виде букв генетического кода, которых всего лишь четыре. Геном человека состоит из двух цепочек ДНК, в каждой из которых примерно три миллиарда нуклеотидов, то есть это три миллиарда букв А, Г, Т или Ц, записанных друг за другом. Если предположить, что на одной странице формата А4 примерно 45 строк, в каждой из которых около 85 букв, то на странице умещается 3825 букв, а это значит, что весь геном человека можно уместить на 784 313 страницах убористого текста. Не так уж и много – всего лишь полторы тысячи книг, которые умещаются в небольшой библиотеке.
Но это всё – всего лишь самый первый уровень кодирования. Оказывается, что есть второй уровень, на котором в расчёт берутся три подряд идущих нуклеотида – так называемые «триплеты», и значение имеет комбинация букв в каждом триплете. Если на первом уровне существует 4 типа нуклеотидов, то на втором уровне есть 64 разных тройки нуклеотидов. СКАЧАТЬ