[ad_1]
Биобанки — базы данных с генетической информацией и информацией о здоровье — дают исследователям возможность исследовать болезни и изучать вклад генетики и окружающей среды в развитие болезни. Эти исследования позволили нам сделать выводы о различных факторах, начиная от взаимосвязи между питанием и болезнью и заканчивая размером домохозяйства и тяжестью течения COVID, что дало ценную информацию для исследователей, клиницистов и пациентов.
Но полезность биобанков зависит от количества и качества данных в них. Неполная информация часто является проблемой в наборах данных пациентов, объясняет аспирант Стэнфордского университета Лу Янг. «Мы можем знать, например, что пациент лечился от диабета II типа, — говорит Ян, — но если он никогда не лечился в больнице в стационарных условиях, термин «диабет II типа» может отсутствовать в их данные». Эта недостающая информация является серьезным препятствием для исследователей, которые проводят исследования болезней и ищут закономерности, которые могут привести к новым прорывам.
Чтобы решить эту проблему, Ян сотрудничал с недавним постдокторантом Стэнфорда Шэном Ваном и Рассом Альтманом — заместителем директора Stanford HAI и профессором биоинженерии, генетики, медицины, биомедицинских данных и, любезно, компьютерных наук — чтобы создать модель, которая может предсказывать исчерпывающий набор кодов диагнозов, также называемых кодами фенотипа, для всех пациентов в британском биобанке. В этом банке хранятся данные полумиллиона участников из Великобритании, включая пациентов с редкими заболеваниями. Создав POPDx, систему машинного обучения для распознавания заболеваний, исследовательская группа создала модель, которая, по словам Янга, «вычисляет вероятность того, что у человека могут быть определенные заболевания или коды фенотипа».
На самом деле, POPDx превосходит существующие модели в прогнозировании распространенных и редких заболеваний, в том числе болезней, которых нет в обучающих данных. По словам Альтмана, это важное открытие. «Хотя большинство подходов к машинному обучению, использующих глубокие нейронные сети, требуют тонны обучения, мы были очень довольны тем, что наш подход, использующий предварительные знания, такие как текст и таксономия, позволил нам распознать некоторые заболевания в нашем тестовом наборе, даже если мы никогда не видели их раньше. в обучении. Это важно, потому что, хотя в медицине есть существенные данные, они не в том же масштабе, что и крупные ИТ-компании, и поэтому очень важно, чтобы мы разработали методы, которые могут работать с разреженными данными и работать достаточно хорошо, чтобы помочь пациентам с необычными заболеваниями. ».
Реальные данные от реальных пациентов
Приступая к этому исследованию, Ян рассмотрел предыдущую работу второго автора Вана по классификации клеток. В этом исследовании Ван использовал онтологию клеток, чтобы предсказать один правильный тип клеток для всех клеток в тестовом наборе. Ян хотел использовать аналогичный подход для POPDx, но для болезней. «Я подумал, что было бы здорово аналогичным образом использовать взаимосвязь болезней в онтологии болезней человека для решения проблемы распознавания болезней». В то время как исследование Вана представляло собой проблему классификации «один против всех», где был предсказан только один тип клеток, Янгу нужно было несколько меток. «У каждого пациента может быть несколько заболеваний, поэтому мы рассмотрели это как проблему с несколькими ярлыками и несколькими классификациями», — говорит она.
Еще одним ключевым отличием работы Ян является широта используемой ею информации. Модель POPDx рассматривает множество данных о пациентах, от демографической информации и анкет пациентов до медицинских осмотров и данных электронных медицинских карт. Он даже извлекает информацию из физических данных и лабораторных тестов. «До этого большинству существующих моделей требовались хорошо подобранные наборы данных, а это значит, что они могут быть не в состоянии изучить множество функций, которые мы можем изучить в нашей работе», — говорит она. Масштабы работы Янга напрямую отразились на широком спектре кодов заболеваний, которые модель могла предсказать. «Обычно исследования касаются определенной области, например болезней сердца, поэтому они рассматривают только соответствующую информацию или коды. Но для нашего исследования мы попытались составить полный профиль участников британского биобанка».
Прогнозирование заболеваний, несмотря на небольшие наборы данных
Модель POPDx работает путем поиска взаимосвязей между данными пациента и информацией о заболевании, используя обработку естественного языка и онтологию болезней человека для принятия вероятностных решений. «Самая большая проблема для модели связана с заболеваниями, которые мы не видим в ходе обучения или о которых мало данных. Как мы знаем, большинство моделей машинного обучения опираются на большие наборы данных, но некоторые из этих заболеваний не имеют данных», — говорит Ян.
Стабильная производительность POPDx с ограниченными данными или даже без них является чрезвычайно мощной, устраняя необходимость в огромных наборах данных. Ян смог улучшить AUPRC (показатель точности модели) для невидимых и редких заболеваний на 218% и 151%. По словам Янга, это означает, что если клинической бригаде необходимо выявить пациентов с заболеванием с низкой распространенностью, «наша модель в среднем повысит вероятность обнаружения этих положительных случаев. Раньше им приходилось просматривать огромное количество пациентов в биобанке, но теперь они могут проверять гораздо меньшее количество пациентов, чтобы найти возможные случаи». Способность POPDx распознавать редкие заболевания обеспечивает лучшую отправную точку для клиницистов и исследователей, стремящихся изучить эти заболевания.
Одной из проблем, которую отметил Ян, был демографический перекос в британском биобанке, который на 56% состоит из женщин и в основном из белых, а средний возраст составляет 71 год. Но отсутствие разнообразия в биобанке связано не столько с данными, сколько с широким доступом к здравоохранению. «Проблема в том, что если у кого-то нет доступа к медицинскому обслуживанию, у нас нет его данных», — говорит Ян. Исследователи решили эту проблему, введя справочную информацию об иерархии и взаимосвязи между заболеваниями, что придало модели импульс при работе с незнакомыми заболеваниями. Янг считает, что эта стратегия, возможно, также добавила в модель некоторую случайность и смягчила предвзятость. Янг надеется, что в будущем будет больше инфраструктуры, позволяющей интегрировать данные из нескольких биобанков, что позволит использовать более разнообразные наборы данных.
Будущее предсказания болезней
Глядя в будущее, Ян интересуется анализом временных рядов данных о пациентах, который будет учитывать не только вероятность заболевания, но и период жизни пациента. Другой возможный путь — интеграция данных о фенотипе и генотипе в модель, что даст исследователям еще более всесторонний взгляд на болезни, чем они имеют сейчас. Каким бы ни был следующий шаг, Ян стремится создавать инклюзивные модели, которые работают для всех. «Неважно, пациент или исследователь, доступ к данным имеет решающее значение», — говорит Ян.
Белки в лесу в красивых фотографиях смотрите на сайте priroda.club.
[ad_2]