Hard disk a DNA

dna-storage-51.cut

Gli studenti di biologia lo sanno bene: il DNA non è solo una molecola, è anche informazione. Sfruttando le regole semplici ma efficaci del codice genetico, gli esseri viventi hanno evoluto un sistema formidabile di memorizzazione di informazioni, salvate in un archivio incredibilmente compatto che può essere scritto, modificato, letto e copiato. Stiamo parlando di informazioni particolari, informazioni utili alle nostre cellule: quando e in che tessuto accendere o spegnere un gene, quali aminoacidi occorrono per costruire una proteina e in che ordine devono essere assemblati. Affascinante, certo, ma la cosa davvero interessante è che, in linea teorica, il DNA potrebbe essere usato per archiviare dati di qualsiasi tipo. Tutto quello che dobbiamo fare è trasformare questi dati in lunghe serie di A, C, G e T, e sintetizzare le corrispondenti molecole di DNA. Facile a dirsi, difficile a farsi. I costi sono elevati e i problemi tecnici da affrontare sono molti. Ciononostante, alcuni gruppi di ricerca sparsi nel mondo ci stanno lavorando seriamente, e le pubblicazioni sull’argomento sono sempre più frequenti.

Il motivo del crescente interesse della comunità scientifica risiede nell’elevatissima densità di informazione che il DNA sarebbe in grado di raggiungere, se potessimo utilizzarlo come sistema di archiviazione. Pensate agli hard disk portatili che usiamo per fare i backup dei nostri dati: quelli più capienti consentono di salvare pochi Terabytes di dati, e hanno le dimensioni di un libro. Di contro, una molecola di DNA potrebbe archiviare fino a 700 Tera in un millimetro cubico! Proprio quest’anno, un gruppo di ricerca dell’Università di Washington ha battuto il record di dati memorizzati in un archivio genetico: 200 Megabyte, salvati in 13 milioni di frammenti di DNA. Stiano comunque sereni i produttori di materiale informatico: codificare dati in molecole di DNA non è esattamente una passeggiata. Tanto per cominciare, si tratta di una procedura molto costosa. Non tanto in fase di lettura: i costi per sequenziare molecole di DNA (e leggerne quindi il contenuto) sono ormai molto bassi. Il grosso limite sta nella fase di scrittura: aggiungere al nostro archivio genetico un singolo nucleotide (cioè una sola lettera di DNA) costa al momento quasi 10 centesimi di dollaro. Ancora troppo per mandare in pensione hard disk e DVD.

C’è poi un altro importante aspetto che deve essere tenuto in considerazione: qual è il sistema di codifica migliore per convertire i nostri dati nel linguaggio del DNA? Dobbiamo sfruttare al meglio le quattro lettere che la biologia ci mette a disposizione, cercando di racchiudere il maggior numero di informazioni possibili nella minore quantità di DNA. Ipotizzando di dover convertire un semplice file di testo, ad esempio, potremo pensare di associare a ciascuna lettera dell’alfabeto una particolare tripletta di nucleotidi, proprio come fa il codice genetico. In totale, avremmo a disposizione 64 differenti triplette, più che sufficienti a codificare le lettere dell’alfabeto inglese, i numeri, gli spazi e i segni di punteggiatura. Potremmo anche adottare un codice ancora più sintetico, sfruttando solo 3 dei quattro nucleotidi disponibili: in questo caso riusciremmo a codificare le lettere e gli spazi. Perderemmo la punteggiatura, ma l’Ulisse di Joyce dimostra che in fondo potremmo anche farne a meno.

Il vero problema di questo sistema di codifica è che consente di memorizzare solo file di testo. Come fare quindi a salvare i nostri film e le nostre canzoni preferite? In questo caso occorre partire dal codice binario in cui questi dati sono scritti, e convertire quest’ultimo in sequenze di DNA. Questa volta le 4 lettere a nostra disposizione sono più che sufficienti per tradurre i nostri dati, che ora sono diventati una lunghissima serie di 0 e 1. Siamo in una situazione fortunata, perché l’alfabeto di destinazione (quello del DNA) possiede più valori di quanti ne contenga l’alfabeto di partenza (quello del codice binario); questa abbondanza ci offre più opzioni per la nostra codifica, ma anche in questo caso la scelta da compiere è delicata. Ad esempio, possiamo cercare di compattare il più possibile l’informazione, associando a ciascuna lettera del DNA una coppia di bit (A = 00, C = 01, G = 10, T = 11): in questo modo riusciamo a dimezzare la lunghezza delle nostre sequenze, e possiamo quindi codificare più dati nello stesso segmento di DNA. Sembra decisamente la soluzione migliore, e in effetti lo sarebbe davvero se il DNA fosse semplicemente una lunga serie di lettere stampate sulle pagine di un libro. Purtroppo, non è questo il caso: per leggere una sequenza di DNA è necessario sequenziarlo, e le macchine progettate per questo compito (i sequenziatori) non riescono a leggere facilmente i tratti di DNA molto ripetitivi. Questo significa che la sequenza CCCCCCCC (che nel nostro esempio codifica la stringa 0101010101010101) potrebbe essere letta per errore con una C in più o con una C in meno, rendendo di fatto illeggibile l’informazione originaria. Un hard disk molto capiente ma illeggibile non è oggettivamente molto utile, quindi forse potremmo rinunciare alla compattezza estrema per salvaguardare l’integrità dei dati. Per fare questo, basterebbe ragionare per singoli bit, associando lo 0 a due diversi nucleotidi (ad es. A e T), e l’1 agli altri due. In questo modo, abbiamo un codice ridondante che ci consente una certa flessibilità: in presenza di lunghe serie di 0, ad esempio, potremmo alternare a piacere le A e le T, così che il risultato finale (ad es. TATTAAAT) possa essere letto con più facilità dai sequenziatori. Ci stiamo avvicinando alla meta, finalmente! Usando quotidianamente hard disk e chiavette USB, però, sappiamo benissimo che i file possono corrompersi, e un sistema basato sul DNA non farebbe comunque eccezione. Ecco perché alcuni ricercatori hanno pensato di implementare, anche per le memorie “genetiche”, delle tecniche di correzione degli errori sviluppate in altri ambiti, come il codice di Reed-Solomon usato nei CD e nei DVD.

Supponiamo ora di essere finalmente riusciti a memorizzare in una lunga molecola di DNA i greatest hits del nostro gruppo musicale preferito, e supponiamo di avere a disposizione un fantastico stereo con sequenziatore di DNA incorporato (non cercate su Amazon, non esiste). Abbiamo risolto tutti i nostri problemi? Purtroppo no. I sistemi di archiviazione tradizionali hanno una caratteristica fondamentale, che al nostro DNA non può mancare: è la capacità di accedere ai dati in modo diretto. Se voglio ascoltare l’ultima canzone del greatest hits, non devo necessariamente sorbirmi anche tutti i pezzi precedenti, ma posso accedere direttamente al brano che mi interessa. Questo, almeno, con i classici CD. E con il DNA? Anche per questo abbiamo una soluzione. L’ha proposta un paio di anni fa un gruppo di ricerca dell’Università dell’Illinois, guidato dalla prof.ssa Olgica Milenkovic, e consiste nella sintesi di particolari coppie di sequenze da aggiungere ai lati di un segmento di DNA di interesse, ad esempio quello che contiene la nostra canzone preferita. Siccome ogni segmento di DNA è associato a una coppia di sequenze differente, è possibile sfruttarle come indirizzi molecolari e accedere in modo selettivo solo a questo o a quel pezzo di DNA. Per farlo, basta amplificare il segmento che ci interessa con una comune reazione di PCR: l’importante è usare i primer corretti, quelli corrispondenti agli indirizzi molecolari che stiamo cercando. È un po’ come entrare in una biblioteca e mettersi alla ricerca di un libro usando la mappa degli scaffali: ora che abbiamo trovato il nostro libro, possiamo cominciare a leggere. Ci manca solo il sequenziatore: quello in vendita su Amazon lo avete già ordinato, vero?