В помощь врачу

В апреле этого года в PLOS One вышла любопытная статья авторов из английского  University of Nottingham, рассказавших о своем эксперименте по обучению искусственного интеллекта (четыре разных алгоритма) предсказывать риски сердечно-сосудистых событий.

Сегодня стандартом прогнозирования 10-летних кардиорисков являются расчеты на основании рекомендаций The American Heart Association/American College of Cardiology (ACC/AHA). Авторы исследования захотели выяснить – сможет ли машина, получив доступ к данным пациентов, найти другие критерии и спрогнозировать кардиориски лучше, чем это делает человек.

Забегая вперед скажу, что, да, получилось. Это не единственное, хотя и очень крупное исследование. В последние несколько лет появились и другие работы, которые, показали, например, что искусственный интеллект обыгрывает рентгенологов в поисках признаков туберкулеза на снимках и гистологов – в поисках злокачественных клеток в биопсийных препаратах.

Так что, я думаю, мы еще продолжим эту серию постов. А пока вернемся к англичанам.

ACC/AHA рекомендует рассчитывать вероятность наступления сердечно-сосудистых событий в 10-летней перспективе на основе восьми критериев:

  • Пол
  • Возраст
  • Курение
  • Цифры артериального давления
  • Использование препаратов против артериальной гипертензии
  • Уровень общего холестерина
  • Уровень липопротеинов высокой плотности
  • Диабет

Каждый из этих критериев имеет доказанную связь с сердечно-сосудистыми событиями. Но, увы, природа человека устроена сложнее, чем хотелось бы, и существует немало людей, у которых инфаркты, инсульты и другие подобные неприятности происходят вопреки всяким предсказаниям.

Кардиологи понимают, что помимо факторов с сильным линейным эффектом (как эти восемь), существует еще много других причин, которые проявляют себя не так выраженно, но складываясь с другими факторами, вместе могут давать такой же результат.

Чтобы найти эти факторы нужно проанализировать огромный массив данных, в поиске индивидуальных и групповых корреляций. Такая задача уже может выходить за пределы человеческих возможностей, особенно, если это происходит не рамках клинических исследований, а в рутинной практике.

Сегодняшний глобальный тренд на оцифровку и облачное хранение всех персональных данных человека, включая его медицинские записи, создают хорошие предпосылки к тому, чтобы попытаться использовать искусственный интеллект.

Авторы статьи смоделировали такую ситуацию. Они использовали британский цифровой архив данных Clinical Practice Research Datalink (CPRD), 681 медицинского центра, занимающихся семейной медициной в Великобритании.

Чтобы использовать критерии оценки 10-летних рисков исследователям были нужны 10 лет ретроспективного анализа. Поэтому они решили считать 1 января 2005 года – началом выборки данных (baseline), а 1 января 2015 – окончанием выборки.

Авторы собирали данные тех пациентов, кому на момент baseline было от 30 до 84 лет, у них не было сердечно-сосудистого заболевания и про них было известны все восемь рекомендованных ACC/AHA критериев.

Таких пациентов получилось 378,256 человек.

Далее нужно было сделать следующее:

  • Выяснить у какого % из них за 10 лет с 2005 по 2015 действительно случились эпизоды сердечно-сосудистых событий (фатальные и нефатальные).
  • Затем, зная настоящий процент нужно было пересчитать его, используя критерии ACC/AHA, то есть как бы спрогнозировать его задним числом, уже заранее зная правильный ответ.
  • Одновременно нужно было научить ИИ предсказывать кардиориски, а потом еще раз спрогнозировать их, используя уже обученные машины.

Для обучения ИИ было решено использовать данные от 75% пациентов из полученной выборки. А остальные 25% — для собственно самого машинного прогноза.

Использовали четыре распространенных алгоритма машинного обучения:

  • Логистическая регрессия
  • Случайный лес
  • Градиентный бустинг и
  • Нейросети

Если среди читателей есть специалисты по машинному обучению, которые бы хотели просветить нас насчет того, как работают эти алгоритмы – могу предоставить трибуну. А мы пока пойдем дальше.

Искусственному интеллекту для обучения помимо восьми стандартных критериев предложили еще 22 критерия, подобранных заранее авторами исследования. Их выбирали по результатам исследований и медицинским публикациям, но они не входят в стандартную панель.

Вот эти критерии –

Так как пациентов в исследовании не проверяли по этим критериям на baseline, то в ряде случаев данные пациентов, необходимые для ответов на дополнительные критерии, отсутствовали, и машинам приходилось использовать метод median imputation (подстановка медианного значения), чтобы компенсировать это во время обучения.

Когда обучение было завершено, машины проанализировали оставшиеся 25% пациентов и спрогнозировали у них риски сердечно-сосудистых событий, на основе вновь обретенных знаний.

И вот, что получилось. Из общего числа исследованной когорты за 10 лет наблюдения в реальной жизни эпизоды сердечно-сосудистых событий случились у 24,970 человек. Это значение взяли за 100%.

Процент правильно предсказанных эпизодов составил:

  • Экспертами по критериям ACC/AHA – 62.7%
  • Машиной по методу случайного леса – 65.3%
  • По методу логистической регрессии – 67.1%
  • По методу градиентного бустинга и нейросети – 67.5%

Нейросеть сумела найти на один эпизод больше, чем градиентный бустинг, и, таким образом, заняла в этом соревновании первое место. Шутки шутками, а в «боевых условиях» нейросеть смогла бы спасти сотни жизней (при том размере когорты, с которой работали исследователи).

Повышение эффективности предсказания, было связано, как и ожидалось, связано с тем, что ИИ внес свои изменения в факторы риска, рекомендованные АСС/AHA. Так, машины, например, вычеркнули диабет и вписали хронические обструктивные заболевания легких, прием пероральных стероидов и другие факторы.

Любопытно, что все четыре вида ИИ внесли в список основных факторов риска то, что авторы статьи назвали townsend deprivation – интегральный показатель, складывающийся из безработицы, отсутствия личного автомобиля, отсутствия личного жилища и перенаселенности дома или квартала, в котором живет человек (к вопросу о Компактном городе, да?).

Вот выбранные людьми и машинами 10 главных факторов риска –

кардиориски

Выводы

Чудес в этих результатах нет, просто ИИ сделал то, что он умеет делать лучше, чем человек – перелопатил огромное количество данных, не зная усталости и не теряя внимания, и нашел дополнительные корреляции.

Обратите внимание, что зона поиска ИИ была искусственно ограничена 22 критериями, выбранными исследовательской командой. Возможно, если бы ИИ мог «искать всюду», эффект был бы более значительным. Но это уже другая история.


Показалось интересным — подпишитесь на анонсы новых статей в наших пабликах ВКонтакте и Фейсбуке.

Добавить комментарий

Такой e-mail уже зарегистрирован. Воспользуйтесь формой входа или введите другой.

Вы ввели некорректные логин или пароль

Извините, для комментирования необходимо войти.