Investigadores do CiTIUS aceleran o secuenciado de ADN usando tecnoloxías Big Data
mércores, 4 de novembro do 2015
Estudar o que somos, o
libro natural onde estamos descritos ao detalle, é un labor que se
ten topado cunha serie de atrancos, unha boa parte deles relacionados
coa imposibilidade de afrontar, asumir, tratar e xestionar unha
cantidade de información que escapa ao noso entendemento. Para
emendalo, investigadores do centro tecnolóxico CiTIUS
(Universidade de Santiago) e a Fundación Pública Galega de
Medicamento Xenómica (FPGMX)
propuxéronse a si mesmos aplicar no estudo do ADN (máis polo miúdo
o secuenciado de ADN) tecnoloxías propias do tratamento da
información masiva, o que se coñece como Big Data. O
resultado é a solución BigBWA, unha ferramenta capaz de reducir
drasticamente os tempos de execución do Burrows-Wheeler Aligner
(BWA), software de referencia en xenómica. En termos concretos,
multiplícase por 12 a velocidade actual de cómputo con só seis
servidores.
Para axudarnos a enxergar
o alcance deste desenvolvemento e o reto que asume, os investigadores
convidan a imaxinar un material de estudo convencional coma unha
paisaxe tan extensa que é imposíbel de abranguer cunha única
fotografía. Isto, engaden, obrigaríanos a capturar a escena que
temos diante dende diferentes ángulos para obtermos unha panorámica
que reflicta con meirande realismo a contorna. Porén, unha vez
rematada esta fase do traballo e querendo ver finalmente o resultado
da tarefa (as imaxes cen por cen ensambladas e artelladas), é
posíbel descubrir que este adíe de xeito indefinido a súa
operación: é o tempo que se toma o sistema que empreguemos para
procesar todos os datos achegados. Todo isto, engade o CiTIUS, serve
para explicar e amosar o que acontece “cos recursos computacionais
a pequena escala”. A situación adquire aínda máis complexidade
cando o que se quere procesar son grandes cantidades de información,
é o caso do día a día de determinadas áreas científicas e de
investigación, onde as tecnoloxías de cómputo non sempre achegan a
resposta axeitada. Unha destas áreas é a biolóxica. A
interrelación deste eido co ámbito TI deu como resultado o que se
coñece como bioinformática, que é a contorna na que se insire o
desenvolvemento que está a presentar o CiTIUS. Dunha maneira máis
específica, o desenvolvemento do centro tecnolóxico compostelán
insírese no estudo informático do xenoma, cuxa secuenciación é un
procedemento “complexo e custoso que debe abordarse ao longo de
fases sucesivas”, explican os investigadores, retrotraéndonos ao
devandito exemplo do ensamblado de múltiples imaxes (cada imaxe é
unha cadea ou anaco de ADN que logo deberán ser axeitadamente
aliñados cun xenoma de referencia para o seu posterior estudo e
interpretación).
- Exterior do centro tecnolóxico CiTIUS no Campus Vida de Santiago
Segundo informan, o
aliñamento é precisamente un dos labores máis complexos e custosos
a realizar a nivel de cómputo, cousa que vai a máis, adquirindo
cada vez máis complexidade, en canto aumenta a cifra de cadeas de
ADN pendentes de aliñar (falamos de cifras que poden chegar as miles
de millóns). “Procesar un volume de información desa magnitude
nun servidor, usando a ferramenta de referencia no campo (coñecida
como BWA ou Burrows-Wheeler Aligner)”, explican os investigadores
do CiTIUS, “esixe un tempo de execución superior a catro días;
unha resposta excesivamente lenta, que levou aos profesionais a
demandar solucións para incrementar o rendemento dos aliñadores, co
obxectivo de obter resultados nun tempo razoábel”.
Tratando de dar resposta
a este desafío científico, os
investigadores do CiTIUS presentan agora na revista Bioinformatics
a solución BigBWA, un novo recurso informático que permite
aproveitar as vantaxes das tecnoloxías Big Data para
incrementar o rendemento das operacións de aliñado acometidas por
BWA. Para acadar o obxectivo proposto sérvese de Hadoop, en palabras
do centro “a implementación de código aberto máis exitosa do
modelo de programación MapReduce introducido por Google”. Desta
maneira, engaden, “o programador pode concentrar todos os seus
esforzos no desenvolvemento do algoritmo chamado a resolver o
problema científico que se propón, xa que o propio Hadoop encárgase
de distribuír a carga computacional entre os distintos procesadores
ou núcleos (cores) de computación, de forma totalmente
automática e transparente ao usuario”.
Segundo informan, os
resultados demostran que o uso de BigBWA “tradúcese nun incremento
espectacular da eficiencia”. Así, mediante o emprego desta
ferramenta os investigadores lograron reducir o tempo preciso para
aliñar os 6.000 millóns de cadeas de ADN a tan só 8 horas, usando
un pequeno clúster de computación (6 servidores). En termos
concretos, esta optimización do traballo supón multiplicar por 12 a
velocidade actual de cómputo, “un chimpo cualitativo que pode
aumentar moito máis en caso de dispoñer dun maior número de
servidores”, engade o CiTIUS, que explica que a principal vantaxe
da ferramenta é que “consegue dividir o labor do aliñamento de
secuencias de ADN en múltiples procesos independentes que poden
executarse de maneira simultánea”. Outro aspecto salientábel do
traballo, se cadra o que máis, é que se fornece solucións de
almacenamento distribuído, “unha aproximación claramente
innovadora no ámbito da xenómica, que xunto á paralelaxe do código
fai posíbel reducir drasticamente os tempos de execución”.
O centro compostelán
lembra tamén que BigBWA é tolerante a fallos, “o que permite
asegurar o correcto remate das tarefas de aliñamento, mesmo se se
producisen erros hardware nalgún dos servidores utilizados durante o
proceso”. E engaden os investigadores: “Trátase dunha solución
de software libre que xa está dispoñíbel para os profesionais, e
pode executarse tanto en pequenos servidores coma en sistemas de
computación de altas prestacións”.
Segundo apunta Juan
Carlos Pichel, investigador principal do equipo responsábel do
traballo, “unha vantaxe substancial é que o uso de BigBWA non
implica ningún tipo de modificación no código fonte da ferramenta
orixinal; isto significa que calquera futura actualización nos
algoritmos BWA seguirá sendo compatíbel coa nosa solución”.