Применение модели машинного обучения в прогнозе неблагоприятных сердечно-сосудистых событий
Aннотация
Построение прогностических моделей – перспективное направление для профилактической медицины, а поиск новых факторов, влияющих на сердечно-сосудистое здоровье, является важным дополнением к зарекомендовавшим себя шкалам риска. Цель исследования – поиск значимых факторов сердечно-сосудистого риска и разработка прогностической модели с использованием машинного обучения у здоровых лиц. Основой анализа стал массив анамнестических, клинических, инструментальных, лабораторных, социально-экономических и др. параметров двух этапов эпидемиологического исследования (исследовательский центр Научно-исследовательский институт комплексных проблем сердечно-сосудистых заболеваний, г. Кемерово), включавшего 1 217 участников в возрасте 35–70 лет. Здоровых респондентов было 70,9 % (n = 863), с болезнями системы кровообращения – 29,1 % (n = 354). Совокупно методами искусственного интеллекта проанализировано 1 915 признаков. Определены наиболее значимые признаки с позиции неблагоприятного сердечно-сосудистого исхода (стенокардия, инфаркт миокарда, сердечная недостаточность, инсульт, нарушение ритма сердца, фибрилляция и/или трепетания предсердий и др.). Так, выделено 28 значимых признаков, на основе которых построена прогностическая модель. Необходимо отметить, что к наиболее значимым параметрам были отнесены объём форсированного выдоха за 1 секунду, доля внутреннего жира, отсутствие потребление алкоголя, изменение потребления соли после врачебной рекомендации и отсутствие работы. Определены значимые ранее не признанные в качестве факторов сердечно-сосудистого риска признаки, что обеспечивает «информационный прирост» для расширения традиционных прогностических моделей.
Ключевые слова: профилактическая медицина, факторы риска, машинное обучение, искусственный интеллект, шкала сердечно-сосудистого риска
Введение
Болезни системы кровообращения (БСК) продолжают сохранять многолетнее мировое лидерство по заболеваемости и смертности. Согласно исследованию «Глобальное бремя болезней», за последние 30 лет распространенность БСК удвоилась и составила 523 млн случаев, продолжая свой рост и в 2024 году [Roth et al., 2020]. По числу смертей от БСК в мире (более 18 млн в 2019 г.) Российская Федерация заняла третье место, уступая Китаю и Индии, но опережая Соединенные Штаты Америки [Roth et al., 2020]. План действий по сохранению сердечно-сосудистого здоровья предопределяет органам здравоохранения увеличение охвата населения мерами профилактической направленности, поскольку снижение смертности от БСК в 45–75 % случаев обусловлено контролем факторов риска [Стародубов и др., 2019; Francula-Zaninovic, Nola, 2018].
Один из инструментов предупреждения развития БСК у здоровых лиц – прогнозирование. К наиболее распространенной модели прогнозирования сердечно-сосудистого риска отнесена шкала SCORE (Systematic Coronary Risk Estimation), использующая 5 факторов для прогноза: возраст, уровень артериального давления, пол, уровень холестерина, статус курения [Conroy et al., 2003]. В последнее пятилетие медицинские специалисты все больше делают акцент на применение методов машинного обучения, включающие в том числе глубокое обучение, дерево решений, метод ближайших соседей, опорных векторов и др. для анализа большого массива данных медицинских информационных систем поликлиник и стационаров, лабораторных информационных систем, баз медицинских изображений, научных исследований и др. [Yasmin et al., 2021; Suri et al., 2022]. При сравнении уже известной прогностической модели (Фрамингемская шкала) с моделью, имеющей те же исходные данные, с помощью современного метода машинного обучения AutoPrognosis показано превосходство последней по качеству (площадь под кривой) и выявленным случаям [Alaa et al., 2019]. Наряду с применением развивающихся методов машинного обучения важным является поиск новых значимых факторов для прогноза сердечно-сосудистых заболеваний как в дополнение к уже существующим прогностическим шкалам, так и использующихся самостоятельно [Невзорова и др., 2022]. Перспективным является добавление новых факторов (например, пищевые привычки, особенности образа жизни, социально-экономические детерминанты и др.) к зарекомендовавшим себя шкалам риска, что в свою очередь приводит к улучшению качества дополненной оригинальной модели [Alaa et al., 2019]. В этой связи целью исследования явились поиск значимых факторов сердечно-сосудистого риска и разработка прогностической модели с использованием машинного обучения у здоровых лиц. Для достижения поставленной цели сформированы и последовательно решены следующие задачи:
1. Подготовка датасета исследования, представленного набором данных проспективного эпидемиологического исследования, включавшего 1 600 участников. Дизайн исследования подробно описан ранее [Барбараш и др., 2018]. Среди респондентов были выделены здоровые лица и пациенты с болезнями системы кровообращения.
2. Определение наиболее значимых признаков набора данных для прогноза риска развития БСК.
3. Машинная обработка признаков для прогноза риска и создание прогностической модели развития БСК.
Объекты и методы исследования
Набор данных осуществлялся в ходе эпидемиологического исследования (1 600 респондентов) выполненного на территории г. Кемерово и ближайших поселений. Собраны данные в двух этапах: первый этап проводился в 2016 г., второй – в 2019 г. В настоящее исследование были включены только те участники, которые посетили исследовательский центр дважды (на первом и втором этапе исследования), таким образом, в исследование включено 1 217 человек. Возрастной диапазон участников составил 35–70 лет. Здоровых лиц было 863 (70,9 %), с БСК – 354 (29,1 %). В выборке исследования определялись лица с такими БСК, как заболевания коронарных артерий, стенокардия, инфаркт миокарда, сердечная недостаточность, инсульт, фибрилляция и/или трепетания предсердий и другие заболевания сердца. Наличие указанных заболеваний являлось конечной точкой исследования и фиксировалось на первом и втором этапах исследования. Совокупно собрано 1 915 признаков, среди которых встречались количественные и категориальные, таблица 1. Стоит отметить, что признаки включали классические факторы риска БСК, однако в рамках исследования проводился поиск других значимых с позиции БСК признаков.
Таблица 1
Table 1
Группы признаков, используемых в исходном датасете
Predictor groups used in the initial dataset
Группа признаков | 1-й этап, n признаков | 2-й этап, n признаков |
Анамнез заболевания и жизни | 266 | 331 |
Социально-экономический и психосоциальный статус | 139 | 201 |
Условия проживания и окрестностей | 237 | - |
Образ жизни | 261 | 261 |
Оценка системы здравоохранения | - | 72 |
Лабораторные и инструментальные показатели здоровья, в том числе данные электрокардиографии, спирографии, динамометрии, биохимического анализа крови, в том числе липидной панели крови, анализа мочи, биоимпедансометрии | 123 | 24 |
Итого: | 1 026 | 889 |
В качестве метода построения прогностической модели риска сердечно-сосудистого события использован градиентный бустинг, в основе алгоритма которого применяются деревья решений. Метод реализовывался на платформе открытой программной библиотеки «Yandex CatBoost». Оценку значимости признаков, входящих в модель, положительное или отрицательное влияние на прогнозируемый результат осуществлялся посредством фреймворка «SHAP (SHapley Additive exPlanations)». Качество модели проверяли трехкратно перекрестно, с оценкой величины площади под кривой (AUC – area under the curve), чувствительности и специфичности.
Алгоритм построения прогностической модели неблагоприятных сердечно-сосудистых событий с применением методов искусственного интеллекта:
1. Первичная обработка признаков набора данных (n = 1915).
2. Определение наиболее значимых признаков (n = 192).
3. Построение моделей машинного обучения и выбор оптимального варианта.
4. Анализ влияния признаков, вошедших в финальную модель, на развитие сердечно-сосудистого события.
5. Настройка и оценка качества модели.
Результаты и их обсуждение
При первичной обработке 1 915 признаков из набора данных определено, что группа признаков по оценке системы здравоохранения (n = 72) имела наибольшую специфичность (0,77) и чувствительность (0,70) с позиции построения модели машинного обучения для прогнозирования риска сердечно-сосудистых событий. Другие группы признаков (представлены в таблице 1) характеризовались следующей специфичностью и чувствительностью: анамнез заболевания и жизни имел уровень специфичности 0,69–0,72, чувствительности – 0,53–0,67; социально-экономический и психосоциальный статус – 0,62–0,68 и 0,59–0,62 соответственно, условия проживания и окрестностей – 0,49–0,60 и 0,63-0,77 соответственно, образ жизни – 0,55–0,73 и 0,56–0,67 соответственно, лабораторные и инструментальные показатели здоровья – 0,54–0,62 и 0,59–0,66 соответственно. Показатели специфичности и чувствительности указаны через дефис, так как рассчитывались для первого и второго этапа.
Далее в каждой группе признаков машинным методом выявляли наиболее значимые. Было получено 192 признака, которые вошли в состав моделей машинного обучения, как в полном объеме, так и частично объединяясь с другими признаками. Было построено 9 моделей различного качества, но после оценки клиницистов-кардиологов, выступавших в качестве экспертов, с учетом значимости признаков выбрана одна модель, включающая параметры, представленные в таблице 2.
Таблица 2
Table 2
Характеристика значимых признаков прогностической модели развития сердечно-сосудистого риска
Characteristics of significant features of the prognostic model for the development of cardiovascular risk
Признак | Значимость признака | Признак | Значимость признака |
Лабораторные и инструментальные показатели здоровья | Общая физическая активность | 0,020141 | |
Объём форсированного выдоха за 1 секунду (ОФВ1), л | 0,116632 | Ходьба, связанная с оздоровительными мероприятиями | 0,047156 |
ОФВ1 в % | 0,049917 | Время засыпания | 0,036723 |
Форсированная жизненная ёмкость лёгких (ФЖЕЛ) | 0,032103 | Ходьба, связанная с выполнением рабочих обязанностей | 0,058305 |
Доля внутреннего жира | 0,100638 | Физическая активность, связанная с выполнением рабочих обязанностей | 0,055193 |
Уровень холестерина | 0,080219 | Оценка системы здравоохранения | |
Объём талии | 0,064895 | Изменение потребления соли после врачебной рекомендации | 0,074803 |
Отношение объема талии/бедра | 0,037265 | Посещение частной аптеки за последний год | 0,022681 |
Уровень креатинина в крови | 0,029094 | Отсутствие визитов ко врачу или посещение врача в государственной клинике за последний год | 0,028292 |
Сила левой руки | 0,026192 | Отсутствие обращений ко врачу за последний год | 0,012550 |
Сила правой руки | 0,037182 | Факт изменения образа жизни | 0,010051 |
Образ жизни | Факт получения врачебных рекомендаций по изменению образа жизни | 0,004169 | |
Алкоголь, употребление в прошлом или никогда не употреблял | 0,159538 | Социально-экономический и психосоциальный статус | |
Отсутствие потребления пива | 0,095542 | Отсутствие работы | 0,087362 |
Общая продолжительность физической активности, связанная с выполнением рабочих обязанностей | 0,089565 | Отсутствие расходов на покупку собственности, земли, скота, ремонт за последний год | 0,065727 |
Физическая активность, приходящаяся на прогулку | 0,030698 | Пребывание на пенсии | 0,031261 |
В финальную модель (площадь под кривой 0,72, чувствительность 0,71) вошли 28 признаков. К наиболее значимым были отнесены объём форсированного выдоха за 1 секунду (ОФВ1) (0,116632), доля внутреннего жира (0,100638), потребление алкоголя (0,159538), изменение потребления соли после врачебной рекомендации (0,074803) и отсутствие работы (0,087362).
Рисунок 1 иллюстрирует этапы обучения машинной модели при трехкратной перекрестной проверке. Согласно графику, среднее арифметическое значение площади под кривой (AUC) по трем частям выборки (0,735, 0,719, 0,708) достигает максимума за 248 итераций (AUC = 0,72). Таким образом, значение AUC = 0,72 является оценкой качества обученной модели и является удовлетворительным результатом.
Рис. 1. Проверка качества итоговой модели машинного обучения
Fig. 1. Testing the quality of the final machine-learning model
Примечание: по оси y отмечены значения AUC, по оси x отмечено число итераций, на которых было достигнуто соответствующее значение AUC в процессе обучения.
Пример работы прогностической модели приведен на рисунке 2. Инструмент SHAP демонстрирует влияние признаков с помощью цветовой шкалы. В верхней части рисунка модель определяет вероятность риска развития БСК 0,66 (негативный прогноз – болен), во втором – 0,4 (позитивный прогноз – здоров). В случае негативного прогноза модель основывалась на том, что у данного респондента высокая доля внутреннего жира (на уровне 15), объем талии (115 см), при этом участник никогда не употреблял алкоголь.
Рис. 2. Углубленный анализ признаков финальной модели при помощи инструмента SHAP
Fig. 2. In-depth analysis of the final machine-learning model predictors using the SHAP tool
В случае позитивного прогноза (нижняя часть рисунка) модель также основывалась на объеме талии участника в пределах нормы (80 см), а также на то, что данный респондент отмечал высокие показатели физической активности (ходьба, связанная с выполнением рабочих обязанностей МЕТ-мин/нед = 990) и употреблял алкоголь.
Выводы
К наиболее значимым факторам сердечно-сосудистого риска отнесены объём форсированного выдоха за 1 секунду, доля внутреннего жира, отсутствие потребления алкоголя, изменение потребления соли после врачебной рекомендации, отсутствие работы. Разработанная шкала риска на основе машинного обучения обеспечивает «информационный прирост» для уже существующих прогностических моделей и оригинальной модели прогноза риска сердечно-сосудистого события. На основании полученных данных будет проведен следующий этап исследования по оценке диапазона значений исследуемых признаков и апробирование модели в популяции.
Благодарности
Результаты получены при поддержке Российской Федерации в лице Министерства науки и высшего образования РФ в рамках Соглашения о предоставлении из федерального бюджета грантов в форме субсидий от 30 сентября 2022 г. № 075-15-2022-1202, комплексной научно-технической программы полного инновационного цикла «Разработка и внедрение комплекса технологий в областях разведки и добычи твердых полезных ископаемых, обеспечения промышленной безопасности, биоремедиации, создания новых продуктов глубокой переработки из угольного сырья при последовательном снижении экологической нагрузки на окружающую среду и рисков для жизни населения» (утвержденной распоряжением Правительства Российской Федерации от 11 мая 2022 г. № 1144-р).
Список литературы
Барбараш О.Л., Артамонова Г.В., Индукаева Е.В., Максимов С.А. 2018. Международное эпидемиологическое исследование неинфекционных заболеваний в России: протокол исследования. Комплексные проблемы сердечно-сосудистых заболеваний. 7(4): 128–135. https://doi.org/10.17802/2306-1278-2018-7-4-128-135
Невзорова В.А., Бродская Т.А., Шахгельдян К.И., Гельцер Б.И., Костерин В.В., Присеко Л.Г. 2022. Методы машинного обучения в прогнозировании рисков 5-летней смертности (по данным исследования ЭССЕ-РФ в приморском крае). Кардиоваскулярная терапия и профилактика. 21(1): 34–42. https://doi.org/10.15829/1728-8800-2022-2908
Стародубов В.И., Сон И.М., Сененко А.Ш., Савченко Е.Д., Дзюба Н.А., Захарченко О.О., Терентьева Д.С. 2019. Итоги диспансеризации определенных групп взрослого населения Российской Федерации, 2013–2018 гг. Информационно-аналитический обзор. Центральный научно-исследовательский институт организации и информатизации здравоохранения: 114 с. ISBN 5-94116-026-7. EDN VAXRCS.
Alaa A., Bolton T., Di Angelantonio E., Rudd J., van der Schaar M. 2019. Cardiovascular Disease Risk Prediction Using Automated Machine Learning: A Prospective Study of 423,604 UK Biobank Participants. PLoS One. 14(5): e0213653. https://doi.org/10.1371/journal.pone.0213653
Francula-Zaninovic S., Nola IA. 2018. Management of Measurable Variable Cardiovascular Disease' Risk Factors. Current cardiology reviews. 14(3): 153–163. https://doi.org/10.2174/1573403X14666180222102312
Roth G., Mensah G., Johnson C., Addolorato G., Ammirati E., Baddour L., Barengo N., Beaton A., Benjamin E., Benziger C., Bonny A., Brauer M., Brodmann M., Cahill T., Carapetis J., Catapano A., Chugh S., Cooper L., Coresh J., Criqui M., DeCleene N., Eagle K., Emmons-Bell S., Feigin V., Fernández-Solà J., Fowkes G., Gakidou E., Grundy S., He F., Howard G., Hu F., Inker L., Karthikeyan G., Kassebaum N., Koroshetz W., Lavie C., Lloyd-Jones D., Lu H., Mirijello A., Temesgen A., Mokdad A., Moran A., Muntner P., Narula J., Neal B., Ntsekhe M., Moraes de Oliveira G., Otto C., Owolabi M., Pratt M., Rajagopalan S., Reitsma M., Ribeiro A., Rigotti N., Rodgers A., Sable C., Shakil S., Sliwa-Hahnle K., Stark B., Sundström J., Timpel P., Tleyjeh I., Valgimigli M., Vos T., Whelton P., Yacoub M., Zuhlke L., Murray C., Fuster V., GBD-NHLBI-JACC. 2020. Global Burden of Cardiovascular Diseases and Risk Factors, 1990–2019: Update From the GBD 2019 Study. Journal of the American College of Cardiology. 76(25): 2982–3021. https://doi.org/10.1016/j.jacc.2020.11.010
Roth G., Mensah G., Fuster V. 2020. The Global Burden of Cardiovascular Diseases and Risks: A Compass for Global Action. Journal of the American College of Cardiology. 76(25): 2980–2981. https://doi.org/10.1016/j.jacc.2020.11.021
Conroy R., Pyörälä K., Fitzgerald A., Sans S., Menotti A., De Backer G., De Bacquer D., Ducimetière P., Jousilahti P., Keil U., Njølstad I., Oganov R.G., Thomsen T., Tunstall-Pedoe H., Tverdal A., Wedel H., Whincup P., Wilhelmsen L., Graham I., SCORE project group. 2003. Estimation of Ten-Year Risk of Fatal Cardiovascular Disease in Europe: the SCORE Project. European Heart Journal. 24(11): 987–1003. https://doi.org/10.1016/S0195-668X(03)00114-3
Suri J., Bhagawati M., Paul S., Protogerou A., Sfikakis P., Kitas G., Khanna N., Ruzsa Z., Sharma A., Saxena S., Faa G., Laird J., Johri A., Kalra M., Paraskevas K., Saba L. 2022. A Powerful Paradigm for Cardiovascular Risk Stratification Using Multiclass, Multi-Label, and Ensemble-Based Machine Learning Paradigms: A Narrative Review. Diagnostics (Basel). 12(3): 722. https://doi.org/10.3390/diagnostics12030722
Yasmin F., Shah S., Naeem A., Shujauddin S., Jabeen A., Kazmi S., Siddiqui S., Kumar P., Salman S., Hassan S., Dasari C., Choudhry A., Mustafa A., Chawla S., Lak H. 2021. Artificial Intelligence in the Diagnosis and Detection of Heart Failure: the Past, Present, and Future. Reviews In Cardiovascular Medicine. 22(4): 1095–1113. https://doi.org/10.31083/j.rcm2204121