Искусственный интеллект в здравоохранении. Коллектив авторов
Чтение книги онлайн.
Читать онлайн книгу Искусственный интеллект в здравоохранении - Коллектив авторов страница 5
Под размерностью понимается количество атрибутов, которые имеют объекты в наборе данных (например, значение артериального давления, масса тела пациента, уровень холестерина и др.). Наборы данных с высокой размерностью (с большим количеством атрибутов) выдвигают повышенные требования к алгоритмам системы ИИ, допустимому размеру таких наборов, а также к вычислительным ресурсам для их обработки. В зависимости от поставленной цели и дизайна исследования допустимо обоснованное снижение размерности набора данных, в частности, за счет кластеризации данных либо группировки взаимосвязанных по какому-либо признаку атрибутов в объединенные категории.
Высокий уровень разреженности (отсутствия) данных способен существенно осложнить для системы ИИ задачу поиска и категоризации объектов интереса, что нужно учитывать в зависимости от поставленной задачи.
Сбалансированный набор данных должен содержать одинаковое количество примеров различных категорий (классов) объектов интереса. В случае бинарной классификации это может соответствовать распределению 50/50 для случаев «патология/норма».
Важным этапом подготовки данных является деидентификация (обезличивание). Должны быть удалены любые персональные данные. В случае необходимости возможно их изменение, например замена даты рождения на возраст.
Подготовленные наборы данных могут быть структурированы посредством выделения признаков в соответствии с поставленной задачей. В процессе структурирования снижают размерность набора данных, оставляя достаточный список атрибутов для точного и полного описания элементов набора данных, что будет способствовать последующему обобщению шагов и проведению качественной разметки (аннотации) данных.
Фильтрация набора данных позволяет исключить данные, не соответствующие заданным параметрам (например, смазанные изображения), повысив их качество.
Существенную роль в подготовке данных играет разметка. Выделяется три вида разметки: ретроспективная, проспективная разметка, верификация [Национальный стандарт РФ ГОСТ Р 59921.5…].
Ретроспективная разметка представляет собой сбор элементов согласно указанным метаданным, перечень которых выбирают в соответствии с поставленной целью. Такую разметку проводят путем выгрузки данных из информационной системы. Ретроспективная разметка не предполагает выполнение манипуляций или какой-либо обработки элементов. Для каждого элемента набора данных устанавливают соответствие с информацией (диагноз, результаты лабораторного исследования и др.). К примеру, ретроспективная разметка пациентов с подтвержденной новой коронавирусной инфекцией предполагает следующий перечень метаданных: идентификационный номер, дата рождения, дата выполнения рентгенологического исследования, результаты теста на полимеразную цепную реакцию.
Проспективная