Shranjevanje digitalnih podatkov v DNA

From Wiki FKKT

Jump to: navigation, search

Povzeto po: Goldman, N. et al. Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature 494, 77–80 (2013)

Contents

Uvod

Ideja o shranjevanju digitalnih podatkov v molekulah DNA ni nova. Kot medij za shranjevanje genetskih informacij, je DNA prisotna vse od začetka življenja na zemlji, velika verjentost pa je, da so se njeni osnovni gradniki pojavili že veliko prej. Tako pravzaprav ni nobeno naključje, da so raziskovalci že v sredini prejšnjega stoletja začeli razmišljati v tej smeri. Leta 1959 je fizik Richard Feynman predlagal koncept uporabe umetno zasnovanih objektov/procesov, ki bi med drugim posnemali tudi biološke molekule/sisteme. Prvi primer dejanskega shranjevanja podatkov je iz leta 1988, ko so raziskovalci iz Harvarda, v sodelovanju z umetnikom Joe Davisom, v DNA sekvenco v E.coli shranili sliko germanske rune. Razvoj je bil sprva zelo počasen (in je še danes), največjo oviro namreč predstavljata cena in pa dolgotrajnost postopkov zapisovanja in branja podatkov.1,2

V zadnjih nekaj letih smo ustvarili in shranili večjo količino podatkov, kot pred tem v celotni zgodovini človeštva. Količina generiranih podatkov se eksponentno povečuje iz leta v leto. Klasični (t.j. magnetni ali optični) nosilci informacij ne predstavljajo trajne rešitve saj je, poleg relativno kratke življenjske dobe, njihova glavna pomanjkljivost ogromna količina energije ki je potrebna za delovanje podatkovnih centrov. V luči konstantnega napredka na področju tehnologije DNA, večjih hitrostih in pa predvsem nižanju cen sinteze in sekvenciranja, predstavlja uporaba DNA za shranjevanje podatkov izredno zanimivo alternativo klasičnim trdim diskom. Poleg tega molekula DNA predstavlja enostavno in robustno platformo, ki omogoča shranjevanje podatkov za daljše časovno obdobje.1,3

Praktičen način shranjevanja podatkov z visoko kapaciteto

Prednosti DNA sistemov:

- Visoka kapaciteta oz. izredna gostota kodiranja informacij

- Dolgotrajna obstojnost pri lahko lahko dosegljivih pogojih

- Evolucijsko dokazana učinkovitost in zanesljivost ohranjanja zapisanih informacij

Slabosti prvih DNA sistemov:

- Shranjevanje majhnih količin podatkov (težave pri razširjanju obsega)

- Odsotnost robustnih popravljalnih mehanizmov oziroma sistemov

- Visoka cena zapisovanja in branja podatkov

Kljub temu, da so tehnike za manipulacijo, shranjevanje in kopiranje velikih količin DNA v veljavi že leta, glavno težavo pri uporabi DNA, kot medija za shranjevanje digitalnih informacij, predstavlja de novo sinteza dolgih zaporedij DNA po točno določenem načrtu. Pristop, ki so ga ubrali raziskovalci iz Evropskega inštituta za bioinformatiko (EBI), je temeljil na hipotetični dolgi molekuli DNA, ki je bila kodirana in vitro z uporabo krajših fragmentov. Za razliko od uporabe živih vektorjev, tako zasnovan sistem omogoča preprost dostop do informacij in dolgotrajno shranjevanje, poleg tega pa je cenovno veliko bolj učinkovit.

Kodiranje digitalnih informacij

Za analizo delovanja načrtovanega sistema shranjevanja informacij je bilo izbranih 5 datotek zapisanih v sledečih računalniških formatih: ASCII tekst, PDF format, JPEG format in MP3 format. Bajti, ki sestavljajo vsako posamezno datoteko so predstavljeni kot enoverižno DNA zaporedje. Le-to ne vsebuje nobenih homopolimerov (t.j. zaporednih ponovitev identičnih baz), saj ti znatno prispevajo k pojavu napak v procesu obsežnejšega sekvenciranja. Odsotnost ponovitev je bila dosežena z uporabo Huffmanovega algoritma, ki vsak bajt v zaporedju zamenja s petimi ali šestimi base-3 števili oz. triti (ternarni sistem – 0, 1, 2). Vsak od 256 možnih bajtov je tako predstavljen z petimi ali šestimi triti. Nato je vsak trit kodiran z nukleotidom, ki je izbran po principu, da ne sme biti enak kot prejšnji (Tabela 1). Vsako posamezno DNA zaporedje sestavlja 100 nukleotidov, razdeljeno pa je na prekrivajoče se segmente (prekrivanje 75 nukleotidov) s čimer je zagotovljena 4x redundantnost. Poleg tega je vsak drug segment pretvorjen v svoj reverzni komplement (s tem je zmanjšana možnost sistemskih napak, ki bi povzročile izgubo podatkov). Vsakemu segmentu pripada tudi 17 nukleotidov dolgo registrsko zaporedje, ki vsebuje informacije o datoteki, ki ji segment pripada in o njegovi lokacija znotraj le-te. Končni produkt je set segmentov celotnega DNA zaporedja z dolžino 117 nukleotidov. Uniformna dolžina segmentov in odsotnost zaporednih ponovitev enakih nukleotidov kažeta na to, da gre za sintetične molekule DNA, ki ne izvirajo iz narave.

Tabela 1: Shema pretvarjanja tritov v nukleotide, ki preprečuje nastanek homopolimerov.
naslednji trit naslednji trit naslednji trit
predhoden nukleotid 0 1 2
A C G T
C G T A
G T A C
T A C G

Štirikratna redundantnost pomeni, da je vsaka baza kodirana v štirih različnih DNA segmentih, od katerih sta dva reverzna komplementa. Zaradi tega lahko vsako sistemsko ali naključno napako v sintezi ali sekvenciranju popravimo s t.i. »majority vote-om« (večinskim glasovanjem) ali pa z uporabo bolj dovršenih bralnih mehanizmov, ki upoštevajo možnost nastanka takšnih napak. Sintetizirane oligonukeotide, ki ustrezajo načrtovanim DNA segmentom lahko v liofilizirani obliki shranjujemo ali transportiramo pri sobni temperaturi, brez uporabe specializiranega pakiranja. Po resuspendiranju, pomnoževanju in čiščenju je moč vzorec sekvencirati in iz posameznih segmentov in silico rekonstruirati celotno DNA zaporedje in iz njega dekodirati informacijo (brez kakršnih koli dodatnih informacij).

Dekodiranje in poprava napak

Po opravljenem sekvenciranju se segmenti naložijo v pripravljen program, ki s procesom, obratnim od tistega za kodiranje informacije (opisano zgoraj), izlušči informacije v sklopu štirih stopenj (postopno branje segmentov ob upoštevanju prekrivanja). Pri tem se znebimo skoraj vseh sistemskih in naključnih napak, ki so nastale v procesu priprave informacijske knjižnice. Štiri od petih originalnih datotek so bile rekonstruirane s 100-odstotno natančnostjo brez človeškega posredovanja. Pri peti je prišlo do izgube dveh regij (25 nukleotidov), ki pa ju je bilo moč, z predvidevanjem glede na okoliške nukleotide, ročno dopolniti. Ob pregledu teh dveh regij, se je izkazalo, da gre za regije ki se nahajata znotraj dolgih ponovitev 20 nukleotidov dolgega motiva:

5ʹ-GAGCATCTGCAGATGCTCAT-3ʹ

ki je reverzno komplementaren sam sebi in kot tak predstavlja težavo saj v pogojih sekvenciranja pride do nastanka zanke znotraj tarčnega zaporedja kar inhibira sam proces. Iz tega razloga je pomembno, da se pri načrtovanju sheme kodiranja upošteva tudi možnost nastanka dolgih samo-komplementarnih zaporedij, ki nato motijo proces sekvenciranja in v celotno DNA verigo vnašajo luknje.4

Dolgoročno arhiviranje digitalnih podatkov

Pomembno vprašanje za dolgoročno shranjevanje podatkov je, kako lahko bo sisteme za shranjevanje informacij na osnovi DNA uporabiti za razširjenje aplikacije. Število baz, ki so potrebne za kodiranje podatkov seveda raste linearno s samo količino podatkov, ki jih želimo shraniti. A vendar to ni edini sestavni del segmentov ki jih uporabljamo. Dolžina registrskega zaporedja, ki je potrebno za klasifikacijo posameznega segmenta, raste kot logaritem števila segmentov, ki jih moramo označiti. Iz tega razloga celotna količina DNA, ki jo je potrebno sintetizirati ne raste linearno. Največjo oviro pri vsem tem pa še vedno predstavlja dolžina posameznega fragmenta, ki je trenutno še omejena. Z napredkom na tem področju in z optimizacijo redundance v sistemu kodiranja pa bo tudi ta težava v bližnji prihodnosti odpravljena.

Že ob upoštevanju trenutnih stroškov povezanih s sintezo in sekvenciranjem DNA verig, predstavlja opisani način zapisovanja informacij v DNA možno alternativo klasičnim sistemom v primerih kjer ni potrebe po konstantnem dostopanju do informacij. Takšen je tudi sistem CASTOR pospeševalnika v Cernu, ki je leta 2012 vseboval 80 PB in ima letni prirast 15 PB. Le majhen delež teh podatkov je shranjen na disku, za preostanek pa se uporabljajo magnetni trakovi, ki zasedejo veliko prostora in ne predstavljajo dolgoročne rešitve saj jih je treba na vsake 10 let presnemavati. V primerih, kjer bo dostop do določenih informacij potreben šele čez nekaj deset let v primeru preverjanja podatkov, je sistem na osnovi DNA cenovno ugoden že danes.

Ocenjeni stroški uporabe dotične metode (leta 2013) so naslednji: $12,400 MB-1 za shranjevanje informacije in $220 MB-1 za dekodiranje podatkov. V primerjavi z klasičnimi shranjevalnimi mediji (npr. magnetni trakovi), se torej uporaba DNA izkaže kot primerna opcija v primerih, kjer ni potrebe po konstantnem dostopanju do podatkov (dolgotrajno shranjevanje). Količina izluščenih podatkov: 757,051 bajtov podatkov iz 337 pg DNA (podatkovna gostota: 2,2 PB/g DNA. Za primerjavo, leta 2017 so raziskovalci iz univerze Columbia objavili metodo, imenovano DNA fontana, ki omogoča shranjevanje do 215 PB podatkov na gram DNA, vendar pa metoda zaradi svoje cene ni primerna za razširjeno uporabo v večjih sistemih.1,4,5,6

Zaključek

Predstavljen sistem shranjevanja digitalnih informacij v DNA predstavlja pomemben napredek na tem področju in je nekakšna odskočna deska za nadaljnje raziskave. Z napredkom na področju tehnologije DNA, nižanjem cen sinteze in sekvenciranja ter uveljavljanjem novih metod kodiranja podatkov, bodo sistemi na osnovi DNA v prihodnosti gotovo igrali pomembno vlogo v shranjevanju vedno večje količine podatkov, ki jih ustvarja človeštvo.

Viri in literatura

1. Ceze, L., Nivala, J. & Strauss, K. Molecular digital data storage using DNA. Nature Reviews Genetics vol. 20 456–466 (2019).

2. Extance, A. Could the molecule known for storing genetic information also store the world’s data? Nature 537, 22–24 (2016).

3. DNA Data Storage Is Closer Than You Think - Scientific American. https://www.scientificamerican.com/article/dna-data-storage-is-closer-than-you-think/.

4. Goldman, N. et al. Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature 494, 77–80 (2013).

5. Akram, F., Haq, I. ul, Ali, H. & Laghari, A. T. Trends to store digital data in DNA: an overview. Molecular Biology Reports vol. 45 1479–1490 (2018).

6. Erlich, Y. & Zielinski, D. DNA Fountain enables a robust and efficient storage architecture. Science 355, 950–954 (2017).

Personal tools