Новая программа ускорила обработку геномных данных в десятки раз

Изображение: (cc0) pixabay.com
Эксперимент
Эксперимент

Новые программные средства позволили ученым сократить обработку больших наборов геномных данных до 30 минут, 1 апреля сообщает журнал Nature Biotechnology.

Этот инструмент может быть использован множеством способов для различных биологических нужд и поможет обеспечить воспроизводимость научных исследований. Причем для его работы достаточно вычислительной мощности среднего ноутбука и примерно 30 минут времени, а не суперкомпьютера и несколько дней вычислений, как это было ранее.

Исследование проводилось в сотрудничестве между лабораторией Лиора Пахтера, профессора вычислительной биологии и вычислительных и математических наук Брена, и Палла Мельстеда, профессора компьютерных наук в Университете Исландии.

Простота использования, низкая стоимость и модульность этих инструментов позволят обеспечить последовательную и воспроизводимую предварительную обработку геномных данных для крупных консорциумов, таких как Атлас клеток человека и Исследование мозга через продвижение инновационных нейротехнологий.

Этот инструмент, который доступен в Интернете и открыт для всех желающих, в настоящее время адаптируется другой исследовательской группой для изучения вируса SARS-CoV-2 в образцах, собранных в ходе скрининговых тестов.

Напомним, в последнее десятилетие технологии измерения экспрессии генов в отдельных клетках произвели революцию в биологии. Биологам больше не нужно усреднять экспрессию генов по многим клеткам в тканях; теперь они могут определить, какие гены активны в каждой клетке в любое время.

Однако вычислительная мощь с трудом поспевает за этим взрывным количеством данных. Например, в ходе одного эксперимента можно изучить 100 000 клеток и измерить информацию из сотен тысяч транскриптов (фрагментов РНК, образующихся, когда ген активен), что приводит к десяткам миллиардов секвенированных фрагментов. Геномные данные от секвенирования одной клетки могут занимать терабайты и для их обработки на больших вычислительных серверах нужны часы или целые дни.