Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие. Юрий Александрович Васильев
Чтение книги онлайн.

Читать онлайн книгу Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие - Юрий Александрович Васильев страница 6

СКАЧАТЬ т.н. тезауруса (кодированной библиотеки типовых формулировок, соответствующих нормативно-правовой документации, клиническим рекомендациям или рекомендациям профессиональных врачебных ассоциаций).

      4. Подготовка и разметка должны быть проведены техническими и медицинскими специалистами, имеющими соответствующие навыки и компетенции.

      Наборы данных для обучения и тестирования алгоритмов искусственного интеллекта можно классифицировать различными способами. Например, выделяют наборы со структурированными, частично структурированными и неструктурированными данными; либо разделяют их по источникам формирования, условиям использования, типам биомедицинских и клинических данных, по временным характеристикам, файловой структуре, наконец, по видам задач, для решения которых наборы сформированы и т. д.

      Рекомендуется использовать две классификации: по диагностической ценности (подробнее см. параграф 1.2 «Классификация разметки и наборов данных») и по целевому назначению (подробнее см. параграф 3.1 «Этап инициирования создания набора данных»).

      Контрольные вопросы

      1. Дайте определение понятию «Набор данных».

      2. Дайте определение понятию «Разметка данных».

      3. Перечислите нормативно-правовые акты, регулирующие создание набора данных.

      4. Что такое эталонный набор данных?

      5. Перечислите основные требования к эталонному набору данных.

      1.2. Классификация разметки и наборов данных

      Под разметкой в контексте классификации медицинских наборов данных понимается установка категориального или визуального признака в данных, выполненная медицинским персоналом и/или врачом-экспертом.

      Класс разметки варьируется в зависимости от задачи, поставленной ПО на основе ТИИ, и основывается на методах верификации данных. В таблице 1 представлены принципы классификации методов верификации, разработанные на основе собственного опыта, а также рекомендаций Управления по санитарному надзору за качеством пищевых продуктов и медикаментов (Food and Drug Administration, FDA [5]). Под верификацией понимают проверку данных на достоверность, правильность и точность. На рисунке 1 изображены методы верификации данных по возрастанию их ценности.

      Рисунок 1 – Диаграмма методов верификации НД

      Наименьшей ценностью обладает верификация по заключению врача, т.е. вывод о наличии или отсутствии патологии делается на основании заключения врача, описывавшего исследование. Как правило, такой способ разметки используется на первых этапах отбора данных и может быть осуществлен с помощью алгоритмов автоматического анализа текстовых протоколов, например MedLabel12. Следующим по ценности методом верификации является экспертный пересмотр: слепой анализ исследований врачами-экспертами с достижением заданного уровня согласованности их решений (подробно описан в подпараграфе СКАЧАТЬ



<p>12</p>

Свидетельство о государственной регистрации программы для ЭВМ №2020664321 Российская Федерация. MedLabel – автоматизированный анализ медицинских протоколов: заявл. 11.11.2020 / Морозов С. П., Андрейченко А. Е., Кирпичев Ю. С. [и др.]; заявитель ГБУЗ «НПКЦ ДиТ ДЗМ».