CLiX

Есть в Нью-Йорке (и вроде бы в Майами) такая сеть медицинских и научно-образовательных центров – Mount Sinai. Насколько я успел понять, они являются одними из мировых пионеров в области внедрения элементов искусственного интеллекта, создания цифровых регистров пациентов (EHR) и их интеграции с принципами персонализованной медицины.

В июне этого года тамошние специалисты опубликовали результаты тестирования NLP-движка CLiX от компании Clinithink для обнаружения в своей базе данных EHR пациентов с неалкогольной жировой болезнью печени (NAFLD).

Давайте сначала разберемся, что это всё такое и зачем это надо. EHR – это electronic healthcare records, то есть совокупность всех оцифрованных записей пациента. Это включает в себя историю болезни, все записи (наблюдения, назначения и прочее), сделанные врачами, результаты всех лабораторных и инструментальных исследований, оцифрованные снимки и многое другое.

Когда в больнице есть такое досье на каждого пациента, то получается больничная база данных EHR. В будущем эти базы будут сливаться в сетевые, потом национальные, потом региональные (типа евросоюзные), а потом и глобальные.

Базы данных EHR представляют собой пищу для искусственного интеллекта (ИИ), который может использовать ее для поиска нужных пациентов, слежения за состоянием пациентов, контроля за лечением и даже проведения виртуальных клинических исследований.

Исследователи из Mount Sinai поставили перед ИИ относительно простую задачу – разыскать в больничной EHR базе пациентов с NAFLD. Казалось бы, что за ерунда – нужно просто прочитать диагнозы, но, увы, если ограничиться только этим, то изрядное количество пациентов пролетит мимо.

Дело в том, что врач – не машина, и потому ведет медицинские записи как попало, сообразно с настроением, дефицитом времени и размахом литературного таланта. EHR база – это не только аккуратно отформатированные электронные документы, но и просто сканы рукописных врачебных записей и то, что врач наговорил на диктофон.

Ну, вы представляете, как это выглядит –

Кому-то потом всё это разбирать, и когда этим будет заниматься человек – многое будет lost in translation. Свидетельством тому результаты предыдущих похожих экспериментов, вроде того, что я описал в Mendel.ai.

Задачей CLiX (и это его встроенный функционал) было перевести обнаруженные элементы в специальную структурированную форму SNOMED CT. Это разрабатываемый универсальный международный язык для глобальных EHR баз данных, содержащий медицинские записи в понятной машине иерархической и чётко классифицированной структуре.

Выглядит это примерно так:

Итак, CLiX обладает способностью распознавать образы (рукописный текст, снимки и прочее), понимать содержание текста в медицинском контексте (clinical NLP; CNLP), переводить текст в формат SNOMED CT и искать в нём то, что нужно исследователю. И делает он это со скоростью 2 миллиона медицинских документов в час.

Что было в исследовании?

В тестировании участвовали три метода:

  • NLP-анализ неструктурированных EHR записей
  • Человеческий анализ записанных диагнозов по МКБ
  • Человеческий анализ медицинских текстов

Вторая и третья группа выступали в роли контроля эффективности NLP движка.

Данные EHR исследователи из базы данных 38,575 пациентов, зарегистрированных в клиниках Mount Sinai с июля 2002 по декабрь 2017 года (база BioMe). NLP-движок, CLiX, должен был искать NAFLD пациентов, наводясь на цель по таким признакам:

  1. Записи о текущем заболевании печени
  2. Лабораторные признаки текущего заболевания печени
  3. Биопсийные признаки
  4. Радиологические и ультразвуковые признаки
  5. Заключения гистологов, радиологов и УЗИ-специалистов
  6. Диагнозы по МКБ

Одновременно, CLiX следил за тем, чтобы не было признаков или прямых указаний на ложные критерии: алгокольный стеатоз, вирусные гепатиты и другие заболевания печени, характеризующиеся жировой дистрофией.

В группе контроля по МКБ врачи вручную искали пациентов с установленными диагнозами:

  • ICD-9-CM 571.8: Other chronic nonalcoholic liver disease
  • ICD-9-CM 571.9: Unspecified chronic liver disease without mention of alcohol
  • ICD-10-CM K76.0: Fatty (change of) liver, not elsewhere classified
  • ICD-10-CM K75.81: Nonalcoholic steatohepatitis (NASH)
  • ICD-10-CM K75.89: Other specified inflammatory liver diseases

Эти диагнозы чаще все ставят при NAFLD, так как у самого NAFLD собственного кода по МКБ нет.

В группе ручного анализа медицинских текстов исследователи искали записи по ключевым словам:

  • NAFLD
  • NASH
  • Fatty liver
  • Steatosis
  • Steatohepatitis
  • Fatty infiltration of the liver
  • Fatty infiltration of liver

Что получилось?

CLiX проанализировал 7,766,654 медицинских документа. Представляешь, сидишь ты в ординаторской вечером, собираешься домой. Тут заходит завотделением и говорит:

«Я завтра к обеду буду, мне с утра в комитет. Ты к моему приезду просмотри, пожалуйста, восемь миллионов записей и выпиши оттуда всех пациентов с жировым гепатозом. Тебе это часа на четыре работы, но, если что, девочек попроси помочь. Ну, до завтра».

Из полученных результатов исследователи рандомно отобрали 200 пациентов, и специальные «заслепленные» эксперты сравнили точность методов. Получилось так –

CLiX опередил контрольные методы по чувствительности поиска, то есть способности «выцеплять» искомых пациентов в бардаке первичных данных, при этом обладая очень высокой специфичностью (чем выше это значение – тем меньше ложно-положительных диагнозов).

Самая высокая специфичность была у поиска по МКБ, но чувствительность этого метода оказалась непозволительно низкой. Это связано с тем, что в США диагноз по МКБ устанавливается только в том случае, когда все участвующие врачи и администрация больницы едины во мнении, что страховая примет этот диагноз.

Выводы

Помимо очевидных практических сфер применения искусственного интеллекта на основе NLP, как то индивидуализированного поиска пациентов для прецизионной терапии и уточнения собственной статистики медицинского учреждения, у этого подхода есть и более фундаментальные возможности, например, проведение виртуальных клинических исследований.

Такие исследования позволят в автоматическом режиме:

  • Собирать постмаркетинговые данные о безопасности и эффективности лекарств
  • Проверять точность диагностических и прогностических методов
  • Исправлять ошибки в классификациях
  • Улучшать комплаентность пациентов

И многое другое. Но на эту тему мы поговорим как-нибудь в другой раз.


Показалось интересным или полезным — подпишитесь на анонсы новых статей в наших пабликах ВКонтакте и Фейсбуке.

Добавить комментарий

Такой e-mail уже зарегистрирован. Воспользуйтесь формой входа или введите другой.

Вы ввели некорректные логин или пароль

Sorry that something went wrong, repeat again!