Application of Machine Learning Model in Prediction of Adverse Cardiovascular Events
Annotation
Construction of prognostic models is a promising direction for preventive medicine. The search for new factors affecting cardiovascular health is an important addition to conventional risk scores. The aim of the study was to search for significant cardiovascular risk factors and develop a prognostic model using machine learning in healthy individuals. The analysis was based on an dataset of anamnestic, clinical, paraclinical, socio-economic and other parameters of two stages of the epidemiological study (Research Institute for Complex Issues of Cardiovascular Diseases, Kemerovo), which included 1 217 participants aged 35–70 years. There were 70.9 % (n = 863) and 29.1 % (n = 35) healthy respondents and cardiovascular patients, respectively. A total of 1, 915 features were analyzed using artificial intelligence. We identified 28 significant predictors of the following unfavorable cardiovascular outcomes: angina, myocardial infarction, heart failure, stroke, arrhythmias (atrial fibrillation and/or flutter), etc. Based on these, a prognostic model was developed. It should be noted that the most significant parameters included the forced expiratory volume in one second, internal fat proportion, no alcohol consumption, a change in salt intake after a doctor's recommendation, and no job. The paper determined the significant features that had not previously been recognized as cardiovascular risk factors affecting cardiovascular health. This undoubtedly provides an information gain for conventional prognostic models.
Keywords: preventive medicine, risk factors, machine learning, artificial intelligence, cardiovascular risk score
Unfortunately, the article is available only in Russian
Введение
Болезни системы кровообращения (БСК) продолжают сохранять многолетнее мировое лидерство по заболеваемости и смертности. Согласно исследованию «Глобальное бремя болезней», за последние 30 лет распространенность БСК удвоилась и составила 523 млн случаев, продолжая свой рост и в 2024 году [Roth et al., 2020]. По числу смертей от БСК в мире (более 18 млн в 2019 г.) Российская Федерация заняла третье место, уступая Китаю и Индии, но опережая Соединенные Штаты Америки [Roth et al., 2020]. План действий по сохранению сердечно-сосудистого здоровья предопределяет органам здравоохранения увеличение охвата населения мерами профилактической направленности, поскольку снижение смертности от БСК в 45–75 % случаев обусловлено контролем факторов риска [Стародубов и др., 2019; Francula-Zaninovic, Nola, 2018].
Один из инструментов предупреждения развития БСК у здоровых лиц – прогнозирование. К наиболее распространенной модели прогнозирования сердечно-сосудистого риска отнесена шкала SCORE (Systematic Coronary Risk Estimation), использующая 5 факторов для прогноза: возраст, уровень артериального давления, пол, уровень холестерина, статус курения [Conroy et al., 2003]. В последнее пятилетие медицинские специалисты все больше делают акцент на применение методов машинного обучения, включающие в том числе глубокое обучение, дерево решений, метод ближайших соседей, опорных векторов и др. для анализа большого массива данных медицинских информационных систем поликлиник и стационаров, лабораторных информационных систем, баз медицинских изображений, научных исследований и др. [Yasmin et al., 2021; Suri et al., 2022]. При сравнении уже известной прогностической модели (Фрамингемская шкала) с моделью, имеющей те же исходные данные, с помощью современного метода машинного обучения AutoPrognosis показано превосходство последней по качеству (площадь под кривой) и выявленным случаям [Alaa et al., 2019]. Наряду с применением развивающихся методов машинного обучения важным является поиск новых значимых факторов для прогноза сердечно-сосудистых заболеваний как в дополнение к уже существующим прогностическим шкалам, так и использующихся самостоятельно [Невзорова и др., 2022]. Перспективным является добавление новых факторов (например, пищевые привычки, особенности образа жизни, социально-экономические детерминанты и др.) к зарекомендовавшим себя шкалам риска, что в свою очередь приводит к улучшению качества дополненной оригинальной модели [Alaa et al., 2019]. В этой связи целью исследования явились поиск значимых факторов сердечно-сосудистого риска и разработка прогностической модели с использованием машинного обучения у здоровых лиц. Для достижения поставленной цели сформированы и последовательно решены следующие задачи:
1. Подготовка датасета исследования, представленного набором данных проспективного эпидемиологического исследования, включавшего 1 600 участников. Дизайн исследования подробно описан ранее [Барбараш и др., 2018]. Среди респондентов были выделены здоровые лица и пациенты с болезнями системы кровообращения.
2. Определение наиболее значимых признаков набора данных для прогноза риска развития БСК.
3. Машинная обработка признаков для прогноза риска и создание прогностической модели развития БСК.
Объекты и методы исследования
Набор данных осуществлялся в ходе эпидемиологического исследования (1 600 респондентов) выполненного на территории г. Кемерово и ближайших поселений. Собраны данные в двух этапах: первый этап проводился в 2016 г., второй – в 2019 г. В настоящее исследование были включены только те участники, которые посетили исследовательский центр дважды (на первом и втором этапе исследования), таким образом, в исследование включено 1 217 человек. Возрастной диапазон участников составил 35–70 лет. Здоровых лиц было 863 (70,9 %), с БСК – 354 (29,1 %). В выборке исследования определялись лица с такими БСК, как заболевания коронарных артерий, стенокардия, инфаркт миокарда, сердечная недостаточность, инсульт, фибрилляция и/или трепетания предсердий и другие заболевания сердца. Наличие указанных заболеваний являлось конечной точкой исследования и фиксировалось на первом и втором этапах исследования. Совокупно собрано 1 915 признаков, среди которых встречались количественные и категориальные, таблица 1. Стоит отметить, что признаки включали классические факторы риска БСК, однако в рамках исследования проводился поиск других значимых с позиции БСК признаков.
Таблица 1
Table 1
Группы признаков, используемых в исходном датасете
Predictor groups used in the initial dataset
Группа признаков | 1-й этап, n признаков | 2-й этап, n признаков |
Анамнез заболевания и жизни | 266 | 331 |
Социально-экономический и психосоциальный статус | 139 | 201 |
Условия проживания и окрестностей | 237 | - |
Образ жизни | 261 | 261 |
Оценка системы здравоохранения | - | 72 |
Лабораторные и инструментальные показатели здоровья, в том числе данные электрокардиографии, спирографии, динамометрии, биохимического анализа крови, в том числе липидной панели крови, анализа мочи, биоимпедансометрии | 123 | 24 |
Итого: | 1 026 | 889 |
В качестве метода построения прогностической модели риска сердечно-сосудистого события использован градиентный бустинг, в основе алгоритма которого применяются деревья решений. Метод реализовывался на платформе открытой программной библиотеки «Yandex CatBoost». Оценку значимости признаков, входящих в модель, положительное или отрицательное влияние на прогнозируемый результат осуществлялся посредством фреймворка «SHAP (SHapley Additive exPlanations)». Качество модели проверяли трехкратно перекрестно, с оценкой величины площади под кривой (AUC – area under the curve), чувствительности и специфичности.
Алгоритм построения прогностической модели неблагоприятных сердечно-сосудистых событий с применением методов искусственного интеллекта:
1. Первичная обработка признаков набора данных (n = 1915).
2. Определение наиболее значимых признаков (n = 192).
3. Построение моделей машинного обучения и выбор оптимального варианта.
4. Анализ влияния признаков, вошедших в финальную модель, на развитие сердечно-сосудистого события.
5. Настройка и оценка качества модели.
Результаты и их обсуждение
При первичной обработке 1 915 признаков из набора данных определено, что группа признаков по оценке системы здравоохранения (n = 72) имела наибольшую специфичность (0,77) и чувствительность (0,70) с позиции построения модели машинного обучения для прогнозирования риска сердечно-сосудистых событий. Другие группы признаков (представлены в таблице 1) характеризовались следующей специфичностью и чувствительностью: анамнез заболевания и жизни имел уровень специфичности 0,69–0,72, чувствительности – 0,53–0,67; социально-экономический и психосоциальный статус – 0,62–0,68 и 0,59–0,62 соответственно, условия проживания и окрестностей – 0,49–0,60 и 0,63-0,77 соответственно, образ жизни – 0,55–0,73 и 0,56–0,67 соответственно, лабораторные и инструментальные показатели здоровья – 0,54–0,62 и 0,59–0,66 соответственно. Показатели специфичности и чувствительности указаны через дефис, так как рассчитывались для первого и второго этапа.
Далее в каждой группе признаков машинным методом выявляли наиболее значимые. Было получено 192 признака, которые вошли в состав моделей машинного обучения, как в полном объеме, так и частично объединяясь с другими признаками. Было построено 9 моделей различного качества, но после оценки клиницистов-кардиологов, выступавших в качестве экспертов, с учетом значимости признаков выбрана одна модель, включающая параметры, представленные в таблице 2.
Таблица 2
Table 2
Характеристика значимых признаков прогностической модели развития сердечно-сосудистого риска
Characteristics of significant features of the prognostic model for the development of cardiovascular risk
Признак | Значимость признака | Признак | Значимость признака |
Лабораторные и инструментальные показатели здоровья | Общая физическая активность | 0,020141 | |
Объём форсированного выдоха за 1 секунду (ОФВ1), л | 0,116632 | Ходьба, связанная с оздоровительными мероприятиями | 0,047156 |
ОФВ1 в % | 0,049917 | Время засыпания | 0,036723 |
Форсированная жизненная ёмкость лёгких (ФЖЕЛ) | 0,032103 | Ходьба, связанная с выполнением рабочих обязанностей | 0,058305 |
Доля внутреннего жира | 0,100638 | Физическая активность, связанная с выполнением рабочих обязанностей | 0,055193 |
Уровень холестерина | 0,080219 | Оценка системы здравоохранения | |
Объём талии | 0,064895 | Изменение потребления соли после врачебной рекомендации | 0,074803 |
Отношение объема талии/бедра | 0,037265 | Посещение частной аптеки за последний год | 0,022681 |
Уровень креатинина в крови | 0,029094 | Отсутствие визитов ко врачу или посещение врача в государственной клинике за последний год | 0,028292 |
Сила левой руки | 0,026192 | Отсутствие обращений ко врачу за последний год | 0,012550 |
Сила правой руки | 0,037182 | Факт изменения образа жизни | 0,010051 |
Образ жизни | Факт получения врачебных рекомендаций по изменению образа жизни | 0,004169 | |
Алкоголь, употребление в прошлом или никогда не употреблял | 0,159538 | Социально-экономический и психосоциальный статус | |
Отсутствие потребления пива | 0,095542 | Отсутствие работы | 0,087362 |
Общая продолжительность физической активности, связанная с выполнением рабочих обязанностей | 0,089565 | Отсутствие расходов на покупку собственности, земли, скота, ремонт за последний год | 0,065727 |
Физическая активность, приходящаяся на прогулку | 0,030698 | Пребывание на пенсии | 0,031261 |
В финальную модель (площадь под кривой 0,72, чувствительность 0,71) вошли 28 признаков. К наиболее значимым были отнесены объём форсированного выдоха за 1 секунду (ОФВ1) (0,116632), доля внутреннего жира (0,100638), потребление алкоголя (0,159538), изменение потребления соли после врачебной рекомендации (0,074803) и отсутствие работы (0,087362).
Рисунок 1 иллюстрирует этапы обучения машинной модели при трехкратной перекрестной проверке. Согласно графику, среднее арифметическое значение площади под кривой (AUC) по трем частям выборки (0,735, 0,719, 0,708) достигает максимума за 248 итераций (AUC = 0,72). Таким образом, значение AUC = 0,72 является оценкой качества обученной модели и является удовлетворительным результатом.
Рис. 1. Проверка качества итоговой модели машинного обучения
Fig. 1. Testing the quality of the final machine-learning model
Примечание: по оси y отмечены значения AUC, по оси x отмечено число итераций, на которых было достигнуто соответствующее значение AUC в процессе обучения.
Пример работы прогностической модели приведен на рисунке 2. Инструмент SHAP демонстрирует влияние признаков с помощью цветовой шкалы. В верхней части рисунка модель определяет вероятность риска развития БСК 0,66 (негативный прогноз – болен), во втором – 0,4 (позитивный прогноз – здоров). В случае негативного прогноза модель основывалась на том, что у данного респондента высокая доля внутреннего жира (на уровне 15), объем талии (115 см), при этом участник никогда не употреблял алкоголь.
Рис. 2. Углубленный анализ признаков финальной модели при помощи инструмента SHAP
Fig. 2. In-depth analysis of the final machine-learning model predictors using the SHAP tool
В случае позитивного прогноза (нижняя часть рисунка) модель также основывалась на объеме талии участника в пределах нормы (80 см), а также на то, что данный респондент отмечал высокие показатели физической активности (ходьба, связанная с выполнением рабочих обязанностей МЕТ-мин/нед = 990) и употреблял алкоголь.
Выводы
К наиболее значимым факторам сердечно-сосудистого риска отнесены объём форсированного выдоха за 1 секунду, доля внутреннего жира, отсутствие потребления алкоголя, изменение потребления соли после врачебной рекомендации, отсутствие работы. Разработанная шкала риска на основе машинного обучения обеспечивает «информационный прирост» для уже существующих прогностических моделей и оригинальной модели прогноза риска сердечно-сосудистого события. На основании полученных данных будет проведен следующий этап исследования по оценке диапазона значений исследуемых признаков и апробирование модели в популяции.
Thanks
The study was supported by the Russian Federation, specifically the Ministry of Science and Higher Education of the Russian Federation, under the Agreement for providing grant funding in the form of subsidies from the federal budget, dated September 30, 2022, No. 075-15-2022-1202. The study is a part of a comprehensive scientific and technological program of the full innovation cycle, entitled “Development and implementation of technologies in the fields of solid mineral exploration and extraction, industrial safety, bioremediation, and the creation of new products through deep coal processing, all with a gradual reduction of environmental impact and risks to the population`s well-being”. This initiative was established by the Russian Government`s decree No. 1144-r on May 11, 2022.
Reference lists
Barbarash O.L., Artamonova G.V., Indukaeva E.V., Maksimov S.A. 2018. International Epidemiological Study of Noncommunicable Diseases in Russia: Protocol. Complex Issues of Cardiovascular Diseases. 7(4): 128–135 (in Russian). https://doi.org/10.17802/2306-1278-2018-7-4-128-135
Nevzorova V.A., Brodskaya T.A., Shakhgeldyan K.I., Geltser B.I., Kosterin V.V., Priseko L.G. 2022. Machine Learning for Predicting 5-year Mortality Risks: Data from the ESSE-RF Study in Primorsky Krai. Cardiovascular Therapy and Prevention. 21(1): 2908 (in Russian). https://doi.org/10.15829/1728-8800-2022-2908
Starodubov V.I., Son I.M., Senenko A.Sh. Savchenko E.D., Dzyuba N.A., Zakharchenko O.O., Terentyeva D.S. 2019. Itogi dispanserizatsii opredelennykh grupp vzroslogo naseleniya Rossiyskoy Federatsii, 2013–2018 gg. [Results of Medical Examination of Certain Groups of the Adult Population of the Russian Federation, 2013–2018]. Informatsionno-analiticheskiy obzor. Tsentral'nyy nauchno-issledovatel'skiy institut organizatsii i informatizatsii zdravookhraneniya. 114 s. ISBN 5-94116-026-7. EDN VAXRCS.
Alaa A., Bolton T., Di Angelantonio E., Rudd J., van der Schaar M. 2019. Cardiovascular Disease Risk Prediction Using Automated Machine Learning: A Prospective Study of 423,604 UK Biobank Participants. PLoS One. 14(5): e0213653. https://doi.org/10.1371/journal.pone.0213653
Francula-Zaninovic S., Nola IA. 2018. Management of Measurable Variable Cardiovascular Disease' Risk Factors. Current cardiology reviews. 14(3): 153–163. https://doi.org/10.2174/1573403X14666180222102312
Roth G., Mensah G., Johnson C., Addolorato G., Ammirati E., Baddour L., Barengo N., Beaton A., Benjamin E., Benziger C., Bonny A., Brauer M., Brodmann M., Cahill T., Carapetis J., Catapano A., Chugh S., Cooper L., Coresh J., Criqui M., DeCleene N., Eagle K., Emmons-Bell S., Feigin V., Fernández-Solà J., Fowkes G., Gakidou E., Grundy S., He F., Howard G., Hu F., Inker L., Karthikeyan G., Kassebaum N., Koroshetz W., Lavie C., Lloyd-Jones D., Lu H., Mirijello A., Temesgen A., Mokdad A., Moran A., Muntner P., Narula J., Neal B., Ntsekhe M., Moraes de Oliveira G., Otto C., Owolabi M., Pratt M., Rajagopalan S., Reitsma M., Ribeiro A., Rigotti N., Rodgers A., Sable C., Shakil S., Sliwa-Hahnle K., Stark B., Sundström J., Timpel P., Tleyjeh I., Valgimigli M., Vos T., Whelton P., Yacoub M., Zuhlke L., Murray C., Fuster V., GBD-NHLBI-JACC. 2020. Global Burden of Cardiovascular Diseases and Risk Factors, 1990–2019: Update From the GBD 2019 Study. Journal of the American College of Cardiology. 76(25): 2982–3021. https://doi.org/10.1016/j.jacc.2020.11.010
Roth G., Mensah G., Fuster V. 2020. The Global Burden of Cardiovascular Diseases and Risks: A Compass for Global Action. Journal of the American College of Cardiology. 76(25): 2980–2981. https://doi.org/10.1016/j.jacc.2020.11.021
Conroy R., Pyörälä K., Fitzgerald A., Sans S., Menotti A., De Backer G., De Bacquer D., Ducimetière P., Jousilahti P., Keil U., Njølstad I., Oganov R.G., Thomsen T., Tunstall-Pedoe H., Tverdal A., Wedel H., Whincup P., Wilhelmsen L., Graham I., SCORE project group. 2003. Estimation of Ten-Year Risk of Fatal Cardiovascular Disease in Europe: the SCORE Project. European Heart Journal. 24(11): 987–1003. https://doi.org/10.1016/S0195-668X(03)00114-3
Suri J., Bhagawati M., Paul S., Protogerou A., Sfikakis P., Kitas G., Khanna N., Ruzsa Z., Sharma A., Saxena S., Faa G., Laird J., Johri A., Kalra M., Paraskevas K., Saba L. 2022. A Powerful Paradigm for Cardiovascular Risk Stratification Using Multiclass, Multi-Label, and Ensemble-Based Machine Learning Paradigms: A Narrative Review. Diagnostics (Basel). 12(3): 722. https://doi.org/10.3390/diagnostics12030722
Yasmin F., Shah S., Naeem A., Shujauddin S., Jabeen A., Kazmi S., Siddiqui S., Kumar P., Salman S., Hassan S., Dasari C., Choudhry A., Mustafa A., Chawla S., Lak H. 2021. Artificial Intelligence in the Diagnosis and Detection of Heart Failure: the Past, Present, and Future. Reviews In Cardiovascular Medicine. 22(4): 1095–1113. https://doi.org/10.31083/j.rcm2204121