Проект Московского центра исследований и разработок ЕМС по облачным вычислениям и большим данным в области биоИТ. |
Сегодня формируется абсолютно новая отрасль, которая становится точкой притяжения различных методов работы с информацией – это индустрия биологических и медицинских информационных технологий (биоИТ). Даже если просто посмотреть на объем данных, которые начинают в ней возникать, то эту сферу можно поставить на одно из первых мест среди всех источников данных, существующих сейчас. И главной задачей становится правильным образом интерпретировать эти данные для научных и медицинских целей, использовать их для лечения больных.
Московский центр исследований и разработок EMC по облачным вычислениям и большим данным в Сколково принимает активное участие в становлении индустрии биоИТ и в решении основных ее задач.
Сегодня медицина серьезно зависит от достигнутого прогресса в области информационных технологий. Она базируется на технологиях обработки, анализа и инженерии новых, молекулярных данных. Для врача имеют ценность не гигантские массивы информации, полученной в результате секвенирования ДНК или РНК, а только результаты их сложной математической обработки и сопоставления с аналогичными данными других больных, полученными исследователями и врачами во всем мире.
Сегодня все больше научных и медицинских организаций для лучшей эффективности своей работы связываются между собой в сети, которые позволяют им объединять и использовать геномный материал, накапливаемый каждым из них. Это влечет за собой потребность в создании информационных и технологических средств, позволяющих грамотно объединять геномные данные.
Молекулярные данные становятся одним из главных и наиболее быстро растущих источников больших данных в мире. Уже в ближайшем будущем геномика будет производить несколько зеттабайт данных в год.
Сейчас в мире есть множество центров, клинических, исследовательских, которые уже генерируют большой объем данных, полученных в результате секвенирования.
В Европе можно отметить серьезные центры в Великобритании, Испании, Франции, Швейцарии. Также выделяется восточное и западное побережья США. Огромный объем геномных данных получают в Китае, Южной Корее. Россия на этой карте оказывается чуть ли не белым пятном - отчетливо видны только центры в Москве, Петербурге и в Екатеринбурге.
Масштаб индустрии БиоИТ определяется тем, что такой гигантский объем данных требует создания инфраструктуры, информационных и технологических средств, позволяющих хранить, объединять, проводить правильный поиск, анализировать всю эту информацию и обмениваться ей для исследовательского и медицинского использования.
Для того, чтобы решить проблемы, стоящие перед биоИТ, около четырёх лет назад был создан Глобальный альянс по геномике и здравоохранению (GA4GH). Основная его задача состоит в создании общих протоколов работы с геномной информацией, общей модели для предоставления результатов поиска и описания структуры запроса. Огромная проблема остается все еще с согласием на обработку данных и передачей их между странами.
Уже сейчас в рамках Альянса реализованы несколько успешных международных проектов, среди них Beacon project, Match Maker Exchange, создан стандарт для обработки и для обмена геномными данными, а также составлены рекомендации по использованию семейной истории в клинической практике. Успешно движется проект по работе с описанием модели метаданных - Metadata Team, проектная группа Genotype to phenotype (G2P) начинает проект «Раковый геном» (Cancer Genome Project), нацеленный на поиск мутаций, которые ведут к развитию раковых заболеваний человека.
Московский центр исследований и разработок EMC по облачным вычислениям и большим данным в Сколково сотрудничает с проектной группой G2P Глобального альянса, которая призвана описать, как строить системы хранения ассоциаций, связывающие между собой генотипы и фенотипы, как собирать такие данные, как хранить, как их запрашивать, как возвращать результат.
В частности Центр работает над созданием системы на основе проиндексированной многофункциональной базы данных. Она будет объединять массивы данных из самых разных источников, анализировать их и выявлять связи. Сейчас работает ее пилотная версия, она позволяет специалисту отправить запрос ко всему массиву, находить данные за доли секунды и получить развернутый ответ с учетом всех возможных связей и контекста. Врач может посмотреть, например, какие лекарства использовались при конкретных или сходных болезнях при разных вариантах геномных параметров, и получить ответ не только на свой прямой вопрос, но и на близкие вопросы, которые могут ему помочь в принятии решения.
В российских реалиях эта система также может быть применена и Московский центр исследований и разработок EMC по облачным вычислениям и большим данным открыт к сотрудничеству.
<< Предыдущая В начало рубрики Следующая >>