RSS

Archivi tag: bioinformatica

Non fidatevi di quel messaggero!

Ogni biologo molecolare sa che le istruzioni contenute nei geni, per essere convertite in proteine, devono prima passare attraverso una molecola intermedia chiamata RNA messaggero. In teoria, la sequenza del messaggero dovrebbe essere identica a quella del gene corrispondente, in modo tale che il messaggio arrivi inalterato a destinazione. Si tratta di un fatto ormai consolidato nella comunità scientifica, perciò potete immaginarvi come venne accolta l’estate scorsa la pubblicazione su Science di un articolo che sosteneva l’esistenza di frequenti eventi di RNA editing nelle nostre cellule. In pratica, in oltre 10mila punti del genoma umano la sequenza di RNA messaggero risultava diversa rispetto al gene di partenza. Quello studio però era affetto da una serie di errori metodologici o quanto meno leggerezze, come sottolineato da alcuni commentatori: il fenomeno dell’RNA editing esiste in natura, ma non poteva essere così frequente come quei ricercatori volevano far credere. Ebbene, un gruppo di scienziati ha deciso di riaffrontare la questione e di chiarire la faccenda senza incappare negli errori di metodo che avevano macchiato l’articolo di Science. Gli autori di questo nuovo studio, pubblicato su Nature Biotechnology, sono i bioinformatici del BGI, l’istituto di genomica cinese leader mondiale nel campo del sequenziamento. Quello che hanno fatto è stato confrontare la sequenza genomica di un individuo cinese con quelle dei suoi trascritti di RNA: sia classici RNA messaggeri codificanti per proteine, sia altre tipologie di RNA. A differenza dell’articolo del 2011, però, questa volta sono stati applicati tutta una serie di filtri molto stringenti che avevano lo scopo di rimuovere i falsi positivi e di garantire quindi risultati più affidabili.

ResearchBlogging.orgL’analisi ha rivelato l’esistenza di oltre 22mila siti di editing, 22mila punti del genoma in cui la sequenza di DNA differiva da quella poi riscontrata nell’RNA trascritto. Gli eventi erano molto abbondanti per i trascritti delle regioni intergeniche, per gli introni e per la parte terminale degli RNA messaggeri (il 3’UTR): le sequenze codificanti per proteine, insomma, sembrano essere risparmiate da questo editing di massa. In queste ultime sequenze, infatti, si riscontrano solo 5 differenze ogni milione di nucleotidi, mentre per quelle non codificanti il numero oscilla tra 100 e 140. Gli autori hanno notato anche un altro fatto interessante: generalmente i punti di editing hanno dei nucleotidi particolari vicino, il che fa pensare che non si tratti di cambiamenti casuali, ma che ci siano degli enzimi in azione. Infine, si è visto che molte delle differenze trovate potrebbero avere un significato funzionale: le code terminali dei messaggeri, caratterizzate da numerosi eventi di editing, possono essere infatti attaccate dai microRNA, molecole che riconoscono particolari sequenze e “spengono” i messaggeri che le possiedono. In effetti, l’analisi ha rivelato che il 43% degli eventi a carico dei 3’UTR sono potenzialmente in grado di rimuovere queste sequenze, o viceversa di creare segnali per i microRNA dove normalmente non esisterebbero.

Dunque avevano ragione gli autori dell’articolo di Science, che tanto sono stati criticati? Sì e no. Questa volta, con dei risultati più sicuri, abbiamo un quadro più chiaro della situazione, e possiamo constatare che sì, è effettivamente un fenomeno molto frequente. Ma gli errori metodologici di cui parlavo all’inizio restano: lo dimostra il fatto che gli scienziati cinesi hanno provato a verificare con il loro rigorosissimo sistema i siti di editing presentati su Science, e la maggior parte di essi non hanno passato i filtri di affidabilità. Ad ogni modo, è acqua passata. E ora che sappiamo che il fenomeno è rilevante, vale la pena studiarlo meglio.


Peng, Z., Cheng, Y., Tan, B., Kang, L., Tian, Z., Zhu, Y., Zhang, W., Liang, Y., Hu, X., Tan, X., Guo, J., Dong, Z., Liang, Y., Bao, L., & Wang, J. (2012). Comprehensive analysis of RNA-Seq data reveals extensive RNA editing in a human transcriptome Nature Biotechnology DOI: 10.1038/nbt.2122

 
7 commenti

Pubblicato da su 14 febbraio 2012 in Scienza

 

Tag: , ,

Analisi di sequenze biologiche II (videolezioni dagli USA)

Continua il corso di genomica organizzato dal NHGRI. In questa lezione, Andy Baxevanis parla di profili proteici, famiglie di proteine, domini funzionali e allineamenti multipli.

Per scaricare le slides clicca qui (21 MB).

 
1 commento

Pubblicato da su 7 febbraio 2012 in Educational, Scienza, Tecnologia

 

Tag: , , , , ,

Analisi di sequenze biologiche I (videolezioni dagli USA)

Come promesso, vi tengo aggiornati sul corso di genomica organizzato dal NHGRI americano. Nella seconda lezione, Andy Baxevanis spiega tutti i segreti del BLAST, il programma che tutti i biologi usano ma che pochi capiscono veramente. Utile per ripassare qualche concetto basilare come la differenza tra similarità e omologia di sequenza.

Per scaricare le slides clicca qui (17 Mb).

 
1 commento

Pubblicato da su 29 gennaio 2012 in Educational, Genetica personale, Scienza, Tecnologia, Varie

 

Tag: , , , , , , , ,

Le videochat di Oil Project: Informatica Medica con il prof. Bevilacqua

COMUNICATO STAMPA – Medicina e Informatica: dalla diagnostica per immagini all’analisi di patologie tumorali

Nuova diretta interattiva su Oilproject, piattaforma free dedicata alla formazione online. Martedì 20 dicembre, dalle 20:50 alle 21:50, parleremo di Informatica medica con Vitoantonio Bevilacqua , docente di Elaborazione delle Immagini presso il Politecnico di Bari.

Quale supporto è in grado di fornire oggi l’informatica al lavoro medico, e quali sviluppi si prevedono per il prossimo futuro? In che modo l’introduzione di strumenti come la tomografia assiale computerizzata (meglio nota come TAC) ha rivoluzionato metodi e cure? Ricostruendo il percorso di questa disciplina, dai sistemi sanitari per l’elaborazione dei dati clinici fino alle ultime applicazioni della bioinformatica, cercheremo di illustrarne obiettivi e potenzialità.

La videochat è aperta a tutti e gratuita: chiunque potrà inviare domande, votare quelle altrui e discutere in chat. Questo il link per seguire l’evento.

 
Lascia un commento

Pubblicato da su 20 dicembre 2011 in Educational, Medicina, Salute, Scienza, Tecnologia

 

Tag: , , , ,

GenoMIX #19 – Novembre 2011

Dove non arriva l’archeologia, arriva la genomica: sembra questo il messaggio che vogliono comunicarci le scoperte scientifiche di questo mese. Ma andiamo con ordine (cronologico). Ricercatori cinesi hanno scoperto con un’analisi bioinformatica che gli esseri umani nella loro evoluzione hanno acquisito 60 nuovi geni, assenti negli altri primati: sono geni attivi in diversi tessuti, soprattutto nella corteccia cerebrale. La ricerca, pubblicata su PLoS Genetics, sembra ipotizzare un tasso di formazione di nuovi geni molto più alto del previsto, pari a circa 10-12 geni ogni milione di anni.

Uno dei geni più interessanti per chi studia l’evoluzione umana è FOXP2. Rispetto agli scimpanzé, gli esseri umani hanno una forma mutata di questo gene, che secondo gli scienziati potrebbe essere alla base della nascita del linguaggio nei nostri antenati. Al Max Planck di Leipzig, in Germania, stanno conducendo esperimenti interessanti: inserendo in topi di laboratorio la versione umana del gene FOXP2, sembra che i roditori diventino più intelligenti e producano squittii differenti rispetto ai topolini normali. I dati sono stati presentati un paio di settimane fa a un meeting di neuroscienze.

Dopo aver imparato a parlare i nostri antenati hanno colonizzato quasi tutte le terre emerse, esplorando aree geografiche molto diverse una dall’altra, e anche qui la genomica può esserci d’aiuto. Un articolo pubblicato su PLoS Genetics ci dice infatti che a guidare l’evoluzione dell’uomo durante la colonizzazione della Terra non sono state tanto l’alimentazione o il clima, ma piuttosto gli organismi patogeni che gli esseri umani hanno dovuto fronteggiare, e in particolare i parassiti. Ho intervistato uno degli autori, Matteo Fumagalli; se siete interessati ai dettagli di questo lavoro bioinformatico l’intervista è qui.

Avanziamo di parecchie migliaia di anni per parlare non più dell’uomo, ma del suo migliore amico. Analizzando la variabilità genetica delle principali razze canine e quella di lupi e coyote, un gruppo di ricerca internazionale ha infatti ribadito una vecchia ipotesi sul luogo in cui ebbe inizio l’addomesticamento dei cani. Si tratterebbe di un’area a sud del Fiume Azzurro, in Cina: è qui che vivono i cani con la maggiore diversità genetica, ed è da qui che dovrebbe essere iniziata l’evoluzione dei nostri amici a quattro zampe. La ricerca è stata pubblicata sulla rivista Heredity.

Rapidamente segnalo il Roman DNA Project, con il quale un’antropologa americana vuole fare l’identikit dei migranti che 2000 anni fa giungevano nell’antica Roma. Parlando di nuovi genomi, questo mese è stato sequenziato il genoma della farfalla monarca, una specie americana in grado di compiere delle migrazioni straordinarie: gli scienziati ci stanno lavorando per capire come facciano queste bellissime farfalle a orientarsi in un viaggio di migliaia di chilometri. Infine, una buona notizia per chi possiede la variante genetica rischiosa del gene dell’obesità (FTO): attività fisica e dieta povera di grassi saturi sono in grado di annullare la vostra predisposizione genetica per la ciccia.

 
1 commento

Pubblicato da su 30 novembre 2011 in GenoMIX

 

Tag: , , , , , , , , , , , , , , , , ,

Galaxy Cloud: la bioinformatica a portata di click

ResearchBlogging.orgLe tecnologie per il sequenziamento genomico sono migliorate in modo impressionante negli ultimi anni, è un fatto ormai noto a chiunque lavori in ambito scientifico: si è passati dal metodo Sanger al sequenziamento di seconda generazione e infine, proprio in questi mesi, alle macchine di terza generazione. Le specifiche tecniche sono strabilianti, è possibile ottenere in poco tempo e a basso costo una sequenza genomica di qualità elevatissima. L’aspetto che molti si dimenticano spesso di sottolineare, però, è che a questa enorme produzione di dati non corrisponde un’altrettanto straordinaria capacità di immagazzinarli, e soprattutto di analizzarli.

Con il crollo dei costi, sempre più laboratori – anche di piccole dimensioni – decidono di acquistare un sequenziatore di DNA per produrre in casa i dati, ma quando arriva il momento di dare a queste sequenze un significato biologico iniziano i problemi. Il primo problema è il software: la tecnologia cambia rapidamente, le esigenze di analisi sono differenti e non sempre esiste un programma bell’e pronto che consenta di eseguire l’analisi richiesta agevolmente. Molto spesso i bioinformatici sono costretti a setacciare la rete alla ricerca del software giusto, poi devono ottimizzarlo per lo specifico lavoro da svolgere e infine perdere tempo a modificare il formato dei propri file affinché siano “digeribili” dal programma. Per non parlare di quando non esiste nessun software che esegua l’analisi che vi interessa nel modo in cui serve a voi, con il tipo di organismo che serve a voi e la tipologia di dati che voi avete a disposizione: in quel caso il bioinformatico sfodera le sue competenze di programmatore e si fabbrica da solo il tool tanto desiderato. Insomma, se pensate che per analizzare una sequenza genomica basti premere un pulsante sulla tastiera del vostro portatile, vi sbagliate di grosso.

Il secondo scoglio in cui ci si imbatte quando si devono analizzare dati genomici è l’hardware. E’ una questione molto seria, specialmente quando la deve affrontare un piccolo laboratorio, che certamente non ha a disposizione infrastrutture informatiche fantascientifiche. Lo spazio occupato da questo tipo di dati è nell’ordine dei terabyte (1 tera sono più o meno 1000 giga), e la potenza computazionale necessaria per analizzarli in un tempo accettabile non è quella in dotazione a un normale computer. Se si vuole fare proprio tutto da sé, quindi, è inevitabile acquistare server costosi e assicurarsi di avere personale specializzato che faccia regolare manutenzione e risolva prontamente qualsiasi problema tecnico.

Fortunatamente, c’è qualcuno che ha ben presenti tutte queste difficoltà e si sta impegnando a fondo per ridimensionare – se non eliminare – questi problemi: sono Anton Nekrutenko, professore alla Penn State University, e il suo team. Nel 2005 hanno lavorato per risolvere la questione software e hanno realizzato Galaxy, una piattaforma che raccoglie tutti i principali tool di analisi in unico sito web dall’interfaccia user-friendly. Si può scaricare il software sul proprio PC oppure lanciare le analisi sui computer dell’università americana. E’ gratis e può contare su una comunità di sviluppatori che aggiunge continuamente nuove funzionalità. Ora il team di Nekrutenko fa un altro salto di qualità, portando Galaxy nel mondo del cloud computing. I vantaggi sono notevoli: le risorse computazionali a disposizione del singolo utente diventano pressoché illimitate, e si ha la garanzia che i propri dati siano conservati in un luogo sicuro.

“Galaxy Cloud offre molti vantaggi oltre a quelli più ovvi, come la potenza computazionale necessaria per grandi quantità di dati e la possibilità per uno scienziato con poca esperienza informatica di cimentarsi in analisi complesse, che sarebbero altrimenti inaccessibili” ha dichiarato Nekrutenko. “Ad esempio, i gruppi di ricerca non devono più investire denaro in costose infrastrutture informatiche per poter eseguire, su grandi moli di dati, analisi scientifiche sofisticate“. Un altro punto di forza è l’allocazione automatica delle risorse disponibili nel cloud, gestita dal sistema CloudMan, che rende rapide ed economiche le analisi. In una lettera a Nature Biotechnology, gli autori dimostrano che impostando la funzione autoscaling di CloudMan è possibile svolgere un’analisi nello stesso tempo (6 ore), spendendo 20 dollari invece di 50. Per usare Galaxy Cloud non avete bisogno né di grossi server, né di ingegneri informatici: tutto ciò che vi serve è il vostro browser.


Afgan, E., Baker, D., Coraor, N., Goto, H., Paul, I., Makova, K., Nekrutenko, A., & Taylor, J. (2011). Harnessing cloud computing with Galaxy Cloud Nature Biotechnology, 29 (11), 972-974 DOI: 10.1038/nbt.2028

 
2 commenti

Pubblicato da su 10 novembre 2011 in Scienza, Tecnologia

 

Tag: , , , , , , ,

Assemblathon: bioinformatici a duello!

Immaginate di avere tra le mani questo puzzle: un bel disegno chiaro, 24 pezzi. Quanto tempo pensate di impiegarci per completarlo? Immagino pochi minuti.

Finito? Bravi! Ok, ora passiamo a qualcosa di più difficile… Di molto più difficile… Ad esempio questo! 24mila pezzi. Dura eh?

E cosa ne dite se il disegno del puzzle da 24mila pezzi fosse questo frattale? Molto probabilmente non riuscireste a completarlo in una vita intera.

Perché parlarvi di puzzle e frattali? Per farvi indossare, per una volta, i panni di un bioinformatico alle prese con i dati di sequenziamento di un genoma. I genomi, infatti, non si leggono dall’inizio alla fine, senza interruzioni, come se fossero un romanzo: non è tecnicamente possibile. I sequenziatori di DNA producono sequenze più o meno piccole, che poi vanno riassemblate proprio come le tessere di un puzzle. Il primo che vi ho mostrato corrisponde ai dati di sequenziamento di prima generazione (metodo Sanger): sequenze lunghe, “facilmente” assemblabili. Il secondo riflette la situazione di un sequenziamento di seconda generazione, come quello dei Genome Analyzer di Illumina: sequenze piccolissime, assemblaggio difficile. Il terzo puzzle è il più complesso di tutti, e si verifica quando si hanno sequenze molto corte e un genoma molto difficile da assemblare: così come i frattali, certi genomi (soprattutto quelli di alcune piante) sono molto ricchi di ripetizioni e diventa pressoché impossibile ricostruire tutto il “disegno”.

Mettere a punto degli algoritmi efficaci di assemblaggio è uno degli obiettivi più importanti della bioinformatica: mentre la tecnologia avanza rapidamente verso il genoma da 1000 dollari, l’analisi dei dati a valle è ancora zoppicante. Per stimolare la realizzazione di nuovi software è nato Assemblathon, una competizione internazionale a cui possono partecipare i gruppi di bioinformatica desiderosi di mettere alla prova, su genomi sintetici (cioè non esistenti in natura), i loro programmi di assemblaggio. Per iscriversi è sufficiente effettuare il download dei dati grezzi dal sito internet, provare ad assemblarli e consegnare il risultato entro il 6 Febbraio. Facoltativamente si può anche utilizzare come riferimento un genoma completo già assemblato, evolutivamente parlando una sorta di cugino di quello ignoto. Gli assemblaggi prodotti saranno valutati secondo diversi parametri e verranno poi discussi ad un workshop che si terrà il 14-16 Marzo a Santa Cruz, California. L’incontro è sponsorizzato dal Genome 10K Project, che mira a sequenziare 101 genomi entro il 2012: immagino sarà molto interessato ai nuovi algoritmi che saranno presentati, voi che dite?

 
Lascia un commento

Pubblicato da su 21 gennaio 2011 in Educational, Tecnologia

 

Tag: , , , ,

 
%d blogger cliccano Mi Piace per questo: