NuCloud

From Wiki FKKT
Jump to navigationJump to search

nuCloud: Nov oblak za shranjevanje podatkov na osnovi nukleotidov

nuCloud je iGEM projekt ekipe UBC-Vancouver iz Kanade iz leta 2024.

Uvod

Podatke v glavnem shranjujemo v oblaku, kar v bistvu pomeni, da jih shranjujemo v centrih za shranjevanje velikih količin podatkov. Ti centri so sicer sposobni vzdrževati velike količine podatkov, vendar bo zaradi eksponentnega naraščanja potreb po shranjevanju podatkov ta sistem kmalu postal nezmožen zadostiti povpraševanju. Gradnja novih podatkovnih centrov ni okolju prijazna, saj imajo le ti velik ogljični odtis. nuCloud je platforma za sintezo DNA v trdni fazi na osnovi termostabilne TdT, ki uporabnikom omogoča sintezo DNA za kodiranje podatkov na okolju prijazen način. Projekt je sestavljen iz dveh faz, in sicer iz sinteze DNA na trdni fazi s termostabilnim TdT, in iz vzpostavitve platforme za kodiranje in dekodiranje podatkov, ki lahko binarne datoteke pretvori v nukleotidno zaporedje in obratno.

Terminalna deoksinukleotidil transferaza (TdT)

Terminalna deoksinukleotidil transferaza (TdT) je od matrice neodvisna DNA polimeraza. TdT podaljšuje 3' konec ssDNA, pri čemer kot substrat uporabi dNTP-je, tvorijo pa se podaljšan oligonukleotid in priofosfati kot stranski produkt. TdT sodeluje pri V(D)J rekombinaciji v T- in B- celičnih receptorjih. TdT potrebuje dvovalentne kovinske ione kot kofaktorje. Ko TdT dodaja nukleotide na ssDNA, se le-tej podaljša dolžina in hkrati tudi poveča možnost za nastanek sekundarnih struktur, ki zmanjšajo aktivnost TdT. Nastanek sekundarnih struktur je možno preprečiti s povišanjem temperature reakcijske mešanice, vendar je problem v tem, da TdT denaturira že pri 40 °C. Zato so pripravili termostabilen TdT (ThTdT), ki je stabilen tudi pri temperaturah do 56 °C.

Sinteza dna s ThTdT

Najprej so želeli izraziti ThTdT v E. coli BL21[DE3]. Za vstavitev zapisa za ThTdT so uporabili plazmid pET-28b(+). Zapis za ThTdT je bil sintetiziran v obliki G-bloka. Plazmid pET-28b(+) so linearizirali z inverznim PCR, s čemer so odstranili N- in C-končni His6 oznaki. Z uporabo Gibbsonove sklopitve so nato vstavili ThTdT G-blok plazmid v pET-28b(+). Temu je sledila transformacija plazmida v kompetentne celice E. coli DH5α. Iz teh celic so nato izolirali plazmid in ga transformirali v kompetentne celice E. coli sev BL21[DE3]. Da se je v E. coli BL21[DE3] vstavil plazmid z zapisom za ThTdT, so potrdili s PCR na osnovi kolonije in s sekvenciranjem plazmida. Nato so inducirali izražanje ThTdT v transformirani E. coli BL21[DE3] z IPTG. Celice so nato lizirali, ThTdT pa izolirali iz celičnega lizata z Mi-NTA magnetnimi kroglicami, ki imajo močno afiniteto do N-končnega His-taga. Temu je sledila dializa, pri kateri so s filtrom na osnovi centrifugalne sile izmenjali elucijski pufer s pufrom za shranjevanje, v katerega so dodali 0,1 mM 2,2’-bipiridil za odstranitev morebitnih Ni2+ ionov.

Potem, ko so izolirali in očistili ThTdT, so preverili njegovo aktivnost v tekoči fazi. Najprej so vzpostavili standardni test za preverjanje aktivnosti WT TdT. Pri tem so v reakcijsko mešanico dodali začetni oligonukleotid, WT TdT, TdT reakcijski pufer in dNTP-je različnih koncentracij in preverili, ali se veriga ssDNA podaljša. Test je potrdil, da se ssDNA podaljša ob dodatku WT TdT in dNTP. Nato so testirali aktivnost ThTdT glede na WT TdT, poleg tega pa so preverjali tudi vpliv koncentracije dNTP-jev in CoCl2 na aktivnost ThTdT. S tem testom so potrdili, da ThTdT lahko dodaja vse 4 dNTP-je na 3'konec ssDNA in da je Co2+ kofaktor ThTdT. Za konec so preverili še stabilnost ThTdT pri različnih temperaturah, ki so segale od 37 °C do 55 °C. Test je pokazal, da je ThTdT termostabilen, saj je bil vzorec dodajanja dNTP-jev na ssDNA enak vzdolž temperaturnega gradienta, vendar se je hkrati pokazalo, da se niso podaljšali vsi začetni oligonukleotidi.

Najprej so imobilizirali začetni oligonukleotid na steklo. Za to so želeli izkoristiti interakcijo med biotinom in avidinom. Pri tem so steklo biotinirali z uporabo biotin-PEG-SVA in inkubirali s streptavidinom, nato pa še z biotiniliranim začetnim oligonukleotidom. Za najbolj učinkovito se je izkazala kombinacija 1% biotin-PEG-SVA in 300 nM biotinilirane ssDNA. Po uspešni imobilizaciji so želeli podaljšati DNA na trdni fazi z uporabo ThTdT. Kot substrat so uporabili dTTP, v reakcijsko mešanico pa so dodali še 0,25 µL encima ThTdT, 10 µM DTTP in 250 µM CoCl2 pri 37 °C. Reakcijo so zaustavili tako, da so stekelce splaknili z vodo, vzorec pa so nato slikali pod parametri Cy5, s čemer so potrdili prisotnost grozdov začetnega oligonukleotida P1. Le-ta je bil nato razcepljen z nanašalnim pufrom v 0,1 M NaOH, pri čemer je bila vsaka skupina razcepljena z istim volumnom raztopine, da se poveča koncentracija primerja v raztopini. Stekelce je bilo slikano tudi po inkubaciji z raztopino NaOH in pokazalo se je, da je prišlo do izgube signala, kar nakazuje na uspešno cepitev DNA z nanašalnim pufrom. Raztopino nanašalnega pufra so nato analizirali z NaDS PAGE in primerjali z različnimi koncentracijami standarda primerja P1 za primerjalno učinkovitost. Na sliki NaDS PAGE gela so bili razvidni različni pasovi fragmentov DNA z večjo molekulsko maso, kar pomeni, da je prišlo do uspešnega podaljševanja začetnega oligonukleotida P1 na stekleni površini. S tem so tudi demonstrirali, da je možno DNA encimsko podaljševati brez matrične DNA na substratu na trdni fazi.

Teorija kodiranja in dekodiranja dna v bite

Kodiranje je pretvorba informacij iz formata A v format B. Dekodiranje je obraten postopek kodiranja, pri čemer se format B pretvori nazaj v format A. V primeru shranjevanja DNA so format A bitovi, format B pa nukleotidi DNA. Bit, čigar vrednost je lahko 0 ali 1, je najosnovnejša enota informacije, ki jo klasični računalnik lahko shrani in interpretira. Medtem ko tradicionalni podatkovni centri shranjujejo informacije v obliki bitov, vsebuje DNA več kot 2 osnovna gradnika, zaradi česar je potrebno DNA zaporedje dekodirati v bite in obratno. Poleg tega je potrebno paziti na ustrezen gelež GC v zaporedju, največji problem pa so napake pri kodiranju in dekodiranju DNA. Napake se lahko pojavijo v SSD. Stopnja napake je tu od 10^-9 do 10^-11. Večji problem so napake, ki jih dela TdT pri podaljševanju začetnih oligonukletoidov, saj je delež delecij 1 baze bil 25,8 %, delež insercij 1 baze 13,4 %, delež zamenjav baz pa 8,9 %. Pri dekodiranju z NGS tudi lahko pride do napak, in sicer je njihov delež 10^-3.

Programska oprema za kodiranje in dekodiranje

Za povečanje količine informacije, shranjene v DNA so uporabili stiskanje po izgubah, s katerim se ob stiskanju datotek ne izgubijo podatki. To hkrati omogoča tudi uporabo Orodji, ki so ju uporabili za stiskanje datotek, sta LZ4 in ts_zip. Zaradi omejene dolžine sintetiziranih zaporedij je potrebno "blokiranje" datotek v manjše pododdelke, ki jih je treba kodirati ločeno. Tako je bil razvit algoritem za blokiranje in ponovno izgradnjo, ki uporablja zaporedja prekrivanja s fiksno dolžino za določitev vrstnega reda blokov med rekonstrukcijo. Za kodiranje so se odločili, da bodo uporabili rotacijsko kodiranje. Pri rotacijskem kodiranju prehodi v bazah kodirajo za 0, 1 in 2. Tako šifra kodira informacije v bazi 3, medtem ko računalniki običajno interpretirajo informacije v bazi 2. Temu se je moč izogniti s pretvorbo informacij baze 2 v bazo 3. Nato moramo izbrati poljubno začetno bazo in nato slediti puščicam za kodiranje informacij. Ker je zaradi delecij prisotnih veliko napak, so dodali v kratke sekvence ogrodne baze, ki pomagajo pri poravnavi in pri oceni števila delecij. Pred dekodiranjem podatkov, ki so zapisani v oligonukleotidih, je potrebno verigo DNA sekvencirati. Po neuspešnem NGS sekvenciranju so odstranili nukleotide, ki predstavljajo začetni oligonukleotid, z uporabo mehkih algoritmov. Nato so homonukleotide strnili v mononukleotide tako, da so zmanjšali vsako pojavljanje ponavljajočih se nukleotidov. Pri odpravljanju napak so najprej poravnali zaporedja DNA. Vsako zaporedje, ki je krajše od dolžine kodirnega zaporedja DNA, so nato zavrgli. Zavrgli so tudi zaporedja, ki jih ni bilo mogoče poravnati z ogrodnimi bazami. Pri določanju pravega zaporedja si tako pomagajo tako s poravnavami z ogrodjem kot tudi z pojavnostjo homonukleotidov.

Strojna oprema

Najprej so zasnovali 3D-natisnjen bioreaktor, sprva zgolj z osnovnimi funkcijami, kot sta prezračevanje in mešanje, nato pa so dodali še dodatne funkcije za lažje upravljanje z bioreaktorjem, kot so peristaltična črpalka, temperaturni senzor, OD senzor, tipkovnica s krmilno palčko in modul Wi-Fi ESP8266. Poleg tega so zasnovali in izdelali še mikrofluidne črpalke, ki omogočajo avtomatizacijo dodajanja reagenta. Zasnovali so tudi različne mikrofluidne čipe LPS in SPS, ki omogočajo povečanje reakcijskega obsega za potencialno uporabo v industriji.

Zaključek

Encimska sinteza DNA se lahko uporabi sintezo DNA za shranjevanje podatkov, kar ima potencial zmanjšati okolijski odtis. Preden pa bi jo bilo mogoče implementirati v ta namen, pa je potrebno premagati precej izzivov, kot so nizka hitrost branja in pisanja DNA ter pogoste napake v zaporedju. Poleg tega je za zaščito DNA pred razgradnjo le to potrebno shraniti v ustreznem okolju, ki mora biti hladno, suho in sterilno. Iz tega razloga je trenutno shranjevanje podatkov z DNA primerno le za njihovo shranjevanje v arhivih.

Viri in literatura

[1] UBC-Vancouver: https://2024.igem.wiki/ubc-vancouver/implementation/ (odprto 21.4.2025)