Galaxy Cloud: la bioinformatica a portata di click

ResearchBlogging.orgLe tecnologie per il sequenziamento genomico sono migliorate in modo impressionante negli ultimi anni, è un fatto ormai noto a chiunque lavori in ambito scientifico: si è passati dal metodo Sanger al sequenziamento di seconda generazione e infine, proprio in questi mesi, alle macchine di terza generazione. Le specifiche tecniche sono strabilianti, è possibile ottenere in poco tempo e a basso costo una sequenza genomica di qualità elevatissima. L’aspetto che molti si dimenticano spesso di sottolineare, però, è che a questa enorme produzione di dati non corrisponde un’altrettanto straordinaria capacità di immagazzinarli, e soprattutto di analizzarli.

Con il crollo dei costi, sempre più laboratori – anche di piccole dimensioni – decidono di acquistare un sequenziatore di DNA per produrre in casa i dati, ma quando arriva il momento di dare a queste sequenze un significato biologico iniziano i problemi. Il primo problema è il software: la tecnologia cambia rapidamente, le esigenze di analisi sono differenti e non sempre esiste un programma bell’e pronto che consenta di eseguire l’analisi richiesta agevolmente. Molto spesso i bioinformatici sono costretti a setacciare la rete alla ricerca del software giusto, poi devono ottimizzarlo per lo specifico lavoro da svolgere e infine perdere tempo a modificare il formato dei propri file affinché siano “digeribili” dal programma. Per non parlare di quando non esiste nessun software che esegua l’analisi che vi interessa nel modo in cui serve a voi, con il tipo di organismo che serve a voi e la tipologia di dati che voi avete a disposizione: in quel caso il bioinformatico sfodera le sue competenze di programmatore e si fabbrica da solo il tool tanto desiderato. Insomma, se pensate che per analizzare una sequenza genomica basti premere un pulsante sulla tastiera del vostro portatile, vi sbagliate di grosso.

Il secondo scoglio in cui ci si imbatte quando si devono analizzare dati genomici è l’hardware. E’ una questione molto seria, specialmente quando la deve affrontare un piccolo laboratorio, che certamente non ha a disposizione infrastrutture informatiche fantascientifiche. Lo spazio occupato da questo tipo di dati è nell’ordine dei terabyte (1 tera sono più o meno 1000 giga), e la potenza computazionale necessaria per analizzarli in un tempo accettabile non è quella in dotazione a un normale computer. Se si vuole fare proprio tutto da sé, quindi, è inevitabile acquistare server costosi e assicurarsi di avere personale specializzato che faccia regolare manutenzione e risolva prontamente qualsiasi problema tecnico.

Fortunatamente, c’è qualcuno che ha ben presenti tutte queste difficoltà e si sta impegnando a fondo per ridimensionare – se non eliminare – questi problemi: sono Anton Nekrutenko, professore alla Penn State University, e il suo team. Nel 2005 hanno lavorato per risolvere la questione software e hanno realizzato Galaxy, una piattaforma che raccoglie tutti i principali tool di analisi in unico sito web dall’interfaccia user-friendly. Si può scaricare il software sul proprio PC oppure lanciare le analisi sui computer dell’università americana. E’ gratis e può contare su una comunità di sviluppatori che aggiunge continuamente nuove funzionalità. Ora il team di Nekrutenko fa un altro salto di qualità, portando Galaxy nel mondo del cloud computing. I vantaggi sono notevoli: le risorse computazionali a disposizione del singolo utente diventano pressoché illimitate, e si ha la garanzia che i propri dati siano conservati in un luogo sicuro.

“Galaxy Cloud offre molti vantaggi oltre a quelli più ovvi, come la potenza computazionale necessaria per grandi quantità di dati e la possibilità per uno scienziato con poca esperienza informatica di cimentarsi in analisi complesse, che sarebbero altrimenti inaccessibili” ha dichiarato Nekrutenko. “Ad esempio, i gruppi di ricerca non devono più investire denaro in costose infrastrutture informatiche per poter eseguire, su grandi moli di dati, analisi scientifiche sofisticate“. Un altro punto di forza è l’allocazione automatica delle risorse disponibili nel cloud, gestita dal sistema CloudMan, che rende rapide ed economiche le analisi. In una lettera a Nature Biotechnology, gli autori dimostrano che impostando la funzione autoscaling di CloudMan è possibile svolgere un’analisi nello stesso tempo (6 ore), spendendo 20 dollari invece di 50. Per usare Galaxy Cloud non avete bisogno né di grossi server, né di ingegneri informatici: tutto ciò che vi serve è il vostro browser.


Afgan, E., Baker, D., Coraor, N., Goto, H., Paul, I., Makova, K., Nekrutenko, A., & Taylor, J. (2011). Harnessing cloud computing with Galaxy Cloud Nature Biotechnology, 29 (11), 972-974 DOI: 10.1038/nbt.2028

2 thoughts on “Galaxy Cloud: la bioinformatica a portata di click

  1. se al cloud computing hardware poi seguisse il “cloud programming” in cui automaticamente le funzioni dedicate si integrano in una IA allora siamo a posto😀

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...