Разметка данных – этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения [1].
В процессе создания, хранения и использования НД необходимо руководствоваться следующими нормативно-правовыми актами, межгосударственными и национальными стандартами:
– Указ Президента Российской Федерации от 10.10.2019 №490 «О развитии искусственного интеллекта в Российской Федерации»;
– ГОСТ 34.602—2020. Информационные технологии. Комплекс стандартов на автоматизированные системы;
– ГОСТ 19.201—78. Единая система программной документации. Техническое задание. требования к содержанию и оформлению;
– ГОСТ 19.101—77. Единая система программной документации. Виды программ и программных документов;
– ГОСТ Р 59921.1-7-2022. Системы искусственного интеллекта в клинической медицине. Алгоритмы анализа медицинских изображений;
– ГОСТ Р 8.736—2011. Государственная система обеспечения единства измерений. Измерения прямые многократные. Методы обработки результатов измерений. Основные положения;
– Федеральный закон «Об информации, информационных технологиях и о защите информации» от 27.07.2006 №149-ФЗ.
Для обучения, внутренней и внешней валидации, клинико-технических и клинических испытаний технологий искусственного интеллекта применяют эталонные наборы данных, под которыми понимают упорядоченную совокупность:
– результатов диагностических исследований одной или нескольких модальностей и/или однотипных медицинских документов;
– сведений о наличии, характере и локализации и т. д. целевых признаков; для текстовых документов – библиотеки ключевых слов, словосочетаний и их критичных сочетаний;
– сведений о верификации (опционально).
Информация о наличии, характере, локализации и т. д. целевых признаков (в том числе в соответствии с Международной классификацией болезней – МКБ) может быть подтверждена объективно – в таком случае набор данных именуется верифицированным.
Размер набора данных (математически – размер выборки) и баланс классов определяются исходя из целей и задач проводимого исследования и требований технического задания на проведение исследований, а также с учетом требований СКАЧАТЬ