Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие. Юрий Александрович Васильев
Чтение книги онлайн.

Читать онлайн книгу Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие - Юрий Александрович Васильев страница 5

СКАЧАТЬ это совокупность данных, прошедших предварительную подготовку (обработку) в соответствии с требованиями законодательства Российской Федерации об информации, информационных технологиях и о защите информации и необходимых для разработки программного обеспечения на основе искусственного интеллекта [1].

      Разметка данных – этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения [1].

      В процессе создания, хранения и использования НД необходимо руководствоваться следующими нормативно-правовыми актами, межгосударственными и национальными стандартами:

      – Указ Президента Российской Федерации от 10.10.2019 №490 «О развитии искусственного интеллекта в Российской Федерации»;

      – ГОСТ 34.602—2020. Информационные технологии. Комплекс стандартов на автоматизированные системы;

      – ГОСТ 19.201—78. Единая система программной документации. Техническое задание. требования к содержанию и оформлению;

      – ГОСТ 19.101—77. Единая система программной документации. Виды программ и программных документов;

      – ГОСТ Р 59921.1-7-2022. Системы искусственного интеллекта в клинической медицине. Алгоритмы анализа медицинских изображений;

      – ГОСТ Р 8.736—2011. Государственная система обеспечения единства измерений. Измерения прямые многократные. Методы обработки результатов измерений. Основные положения;

      – Федеральный закон «Об информации, информационных технологиях и о защите информации» от 27.07.2006 №149-ФЗ.

      Для обучения, внутренней и внешней валидации, клинико-технических и клинических испытаний технологий искусственного интеллекта применяют эталонные наборы данных, под которыми понимают упорядоченную совокупность:

      – результатов диагностических исследований одной или нескольких модальностей и/или однотипных медицинских документов;

      – сведений о наличии, характере и локализации и т. д. целевых признаков; для текстовых документов – библиотеки ключевых слов, словосочетаний и их критичных сочетаний;

      – сведений о верификации (опционально).

      Информация о наличии, характере, локализации и т. д. целевых признаков (в том числе в соответствии с Международной классификацией болезней – МКБ) может быть подтверждена объективно – в таком случае набор данных именуется верифицированным.

      Размер набора данных (математически – размер выборки) и баланс классов определяются исходя из целей и задач проводимого исследования и требований технического задания на проведение исследований, а также с учетом требований СКАЧАТЬ