Ponavljajoča se zaporedja v genomu
Uvod
Že v 80. letih prejšnjega stoletja so znanstveniki ugotovili, da DNA ni sestavljen le iz kodirajočih sekvenc, ampak da vsebuje tudi ponavljajoča se zaporedja. Takšna zaporedja se pojavljajo tako pri prokariontih kot pri evkariontih. Pri človeškem genomu na primer predstavljajo približno 45% celotnega genoma.
Vsa ta ponavljajoča se zaporedja sta Orgel in Crick pomenljivo poimenovala z angleškim izrazom “junk” DNA, pogost pa je tudi izraz parazitska DNA. Danes pa dokazi nakazujejo, da ta zaporedja niso v genomu le za okras, ampak imajo tudi pomembno arhitekturno vlogo pri urejanju strukture kromatina. Prav tako se ta zaporedja uporablja tudi pri določenih identifikacijskih testih, kot na primer pri testu očetovstva. Vseeno pa ta zaporedja ne predstavljajo le evolucijske prednosti za genom, ampak so povezana tudi z določenimi boleznimi (npr. Huntingtonova bolezen, povečano tveganje za raka, povezava z Alzheimerjevo boleznijo, itd.).
Za prokariontski genom je dolgo veljalo, da je zelo organiziran in vsebuje le kodirajoče regije. Danes pa je že dokazano, da tudi prokariontska DNA vsebuje določene ponavljajoče se regije, ki so velikokrat tudi vrstno specifične. Analiza 613 vrst prokariontov je namreč pokazala, da ima kar 97% vseh teh vrst vsaj eno vrstno specifično ponavljajoče se zaporedje, ki je daljše od 85 bp in se od zaporedij v ostalih vrstah razlikuje za vsaj 40%. Bolj splošno pa pri prokariontih ločimo 2 veliki skupini ponavljajočih se zaporedij:
- dolge ponovitve večinoma predstavljajo insercijska zaporedja (IS; ang: “Insertion Sequences”), ki so dolga med 0,8 in 2 kbp in vsebujejo terminalne obrnjene ponovitve (TIR; ang: “Terminal Inverted Repeats”) ter zapisujejo za endonukleaze, ki interagirajo s TIR in omogočajo premike IS;
- kratke ponovitve so dolge med 20 in 300 bp ter imajo različno strukturo, zato jih lahko ločimo v več skupin:
- tandemsko urejene ponovitve predstavljajo kratke palindromske ponovitve, ki so združene v klastre (CRISPR; ang: “Clustered Regularly Interspaced Short Palindromic Repeats) in so dolge med 24 in 48 bp. Njihova funkcija je analogna funkciji interferenčne RNA pri evkariontih, saj omogočajo prepoznavanje in utišanje eksogenih elementov v genomu.
- ponavljajoči izvengenski palindromi (REP; ang: “Repetitive Extragenic Palindromes”) so od 20 do 40 bp dolga palindromska zaporedja, ki so za razliko od CRISPR povsem simetrična. Navadno se v genomu pojavljajo posamično ali v klastrih, ki jih označimo kot bakterijske razpršene mozaične elemente (BIMEs; ang: “Bacterial Interspersed Mosaic Elements”). Predvideva se, da ta zaporedja vplivajo na dodatno zvitje DNA, na terminacijo transkripcije in na stabilizacijo mRNA. V določenih vrstah prokariontov ti palindromi vplivajo tudi na strukturo DNA, saj delujejo kot tarče za vstavitev IS. Za REP je značilno tudi, da se večinoma zaključijo z zaporedjem GTAG ali pa malo redkeje z zaporedjem CGTC.
- miniaturne obrnjene ponovitve transpozicijskih elementov (MITEs; ang: “Miniature Inverted-repeat Transposable Elements) in so dolge med 70 in 300 bp. Podobne so IS, saj vsebujejo 15-30 bp dolge TIR, ampak za razliko od IS nimajo kodirajoče kapacitete. MITE so pogosto vstavljene blizu kodirajočih zaporedij in po transkripciji vplivajo na izražanje sosednjih genov, saj se zvijejo v robustne sekundarne strukture, ki lahko stabilizirajo mRNA ali pa povzročijo njeno hitrejšo razgradnjo. Premike teh elementov omogočajo transpozaze, ki prepoznajo njihova TIR zaporedja.
Ponavljajoča se zaporedja v prokariontskem genomu so najverjetneje posledica zdrsa polimeraze in nepravilnega parjenja sosednjih ponovitev med matrično verigo in hčerinsko verigo. Zaradi zdrsa namreč nekaj ponavljajočih se enot izstopi in tvori zanko, ki se pri naslednjem ciklu vgradijo v DNA ali pa se v določenih primerih iz DNA odstranijo. Če pride do izstopa na matrični verigi, se ponavljajoče se zaporedje skrajša za toliko enot, kolikor jih je izstopilo. Lahko pa pride do izstopa na hčerinski verigi in takrat pride v naslednjem ciklu do podaljšanja ponavljajočega se zaporedja.
Pri evkariontih je ponavljajočih se zaporedij več, saj je evkariontski genom kompleksnejši od prokariontskega. Tako kot pri prokariontih je njihov nastanek povezan z napakami pri procesu replikacije DNA, in sicer predvsem s procesom zdrsa polimeraze. S tem procesom je povezano predvsem podvojevanje kratkih ponavljajočih se elementov, medtem ko je za daljša ponavljajoča se zaporedja značilno neenakovredno prekrižanje oz. “crossing-over”. Pri evkariontih se pojem ponavljajočih se zaporedij pogosto enači s pojmom transpozicijski elementi (TE; ang: “Transposable Elements”), saj se večina ponavljajočih se zaporedij lahko s transpozoni premika po genomu, vendar mobilnost ni značilna za vsa ponavljajoča se zaporedja. Glavna skupna značilnost transpozicijskih elementov je, da se lahko podvajajo in prestavljajo neodvisno od celičnega cikla.
Razvrstitev
Tako kot pri prokariontih tudi pri evkariontih razdelimo ponavljajoča se zaporedja v več skupin. Te skupine se razlikujejo predvsem v dolžini zaporedij in v njihovi mobilnosti. V grobem ločimo tri velike skupine:
- retroelementi so elementi, ki se prestavljajo po genomu z vmesno pretvorbo v RNA intermediat. Element se torej najprej prepiše kot RNA intermediat in se med transpozicijo ne izreže iz donorske DNA. Zaradi tega vsaka transpozicija privede do večjega števila ponovitev v genomu, kar predstavlja mehanizem kopiraj in prilepi. Retroelemente razdelimo na 3 podskupine:
- dolgi razpršeni jedrni elementi (LINE; “Long Interspersed Nuclear Elements”) predstavljajo pri človeku približno 17% genoma. Vsebujejo dve kodirajoči regiji, ki kodirata proteine, ki so potrebni za transpozicijo. Transpozicijo omogoči endonukleaza, ki zareže v eno verigo DNA in to verigo nato reverzna transkriptaza uporabi kot matrico za tvorbo RNA intermediata. Takšen način retrotranspozicije naj bi bil odločilen za večino aktivnosti reverzne transkriptaze v genomu.
- kratki razpršeni jedrni elementi (SINE; ang: “Short Interspersed Nuclear Elements”) so med 100 in 400 bp dolga zaporedja, ki se prav tako prestavljajo po genomu preko retrotranspozicije. Vsebujejo promotor za polimerazo III in ne kodirajo nobenih proteinov, zato spadajo med neavtonomne transpozone ter uporabljajo proteine, ki jih kodirajo LINE. Večina teh zaporedij izhaja iz tRNA zaporedij, pri čemer so izjema Alu elementi, ki izhajajo iz 7SL komponente SRP (ribonukleoprotein, ki prepozna signalno zaporedje proteinske molekule in jo usmerja na SRP receptor). Ti Alu elementi predstavljajo približno 11% človeškega genoma in vsebujejo prepoznavno mesto za restrikcijski encim AluI.
- dolgi terminalni ponavljajoči se retrotranspozoni (LTR retrotranspozoni; ang: “Long Terminal Repeat retrotransposons”) so podobni retrovirusom in so obdani z dolgimi terminalnimi ponovitvami, ki vsebujejo transkripcijske regulatorne elemente, ki poganjajo izražanje vsaj dveh odprtih bralnih okvirjev. Ta bralna okvirja vsebujeta zaporedji, ki sta podobni gag (geni za skupinsko specifične antigene pri retrovirusih) in pol (geni za encime pri retrovirusih) genom. Pri človeku LTR transpozoni predstavljaj približno 8% genoma in se prestavljajo preko reverzne transkripcije retrotranspozonske RNA in integracije nastale cDNA na novo mesto v genomu s pomočjo encima integraze.
- DNA transpozoni so prav tako transpozicijski elementi, ki pa se prestavljajo s pomočjo bolj konservativnega izreži in prilepi mehanizma. Pri tem mehanizmu pride do izreza zaporedja iz donorske molekule DNA, zato vstavitev na drugo mesto v genomu ne privede do povečanja števila ponovitev v genomu. Najpreprostejši DNA transpozoni so sestavljeni iz zaporedja, ki ga obdaja gen za transpozazo, ki katalizira mehanizem izreži in prilepi. Pri človeku predstavljajo ti transpozoni 2-3% celotnega genoma in poskusi kažejo, da so zelo neaktivni, saj ni nikakršnih indikatorjev njihove aktivnosti v zadnjih 50 milijonih let.
- tandemske ponovitve DNA so edina oblika ponavljajočih se zaporedij, ki ni sposobna premestitve po genomu. Te tandemske ponovitve sestavljajo satelitna DNA, ki je pomembna za organizacijo centromer in konstitutivnega heterokromatina, minisateliti in krajši mikrosateliti, ki se oboji uporabljajo kot genski markerji pri iskanju prstnih odtisov DNA. Termin tandemska ponovitev pomeni, da ponovitve, ponavljajoče se enote zaporedja, ostanejo povezane med seboj znotraj genoma.
Vloga
Ponavljajoča se zaporedja naj bi imela pomembno vlogo v organizmu pri vzpostavljanju centromer in konstitutivnega heterokromatina. S ponavljajočimi se zaporedji oziroma natančneje s transpozicijskimi elementi naj bi bili povezani tudi zelo veliki genomi (večji od 20 Gb). Pri teh genomih je transpozicijskih elementov sicer veliko, vendar je skozi leta potekla njihova akomodacija preko inaktivacije in razpada, zato je danes te elemente težko natančno določiti, saj so skozi proces akomodacije postali zelo divergentni. Poleg tega zadnje raziskave kažejo, da so ta zaporedja pomembna tudi pri procesu podaljševanja intronov v genomu. V splošnem njihova vloga sicer ni ključna, saj podaljševanje intronov ostaja konstantno tudi brez ponavljajočih se zaporedij, lahko pa njihova prisotnost podaljševanje pospeši. Manj pomembna je satelitna DNA, saj je zelo kratka in njena vstavitev ne vpliva ključno na velikost intronov. Na velikost intronov veliko bolj vplivajo LINE in LTR retrotranspozoni, ki so veliko daljši od satelitne DNA. Pomembna vloga ponavljajočih se zaporedij je tudi pri regulaciji transkripcije, saj novejše študije kažejo, da so se skozi proces evolucije določeni transpozicijski elementi preoblikovali v cis regulatorne elemente. Transpozicijska zaporedja torej tvorijo določene promotorje, ojačevalce, inzulatorje in so tudi vir novih vezavnih mest za transkripcijske faktorje. Ker je njihova pojavnost v teh regulatornih elementih posledica naključnih mutacij, so tudi pomemben faktor za nastanek novih regulatornih regij.
Kljub vsemu pa ponavljajoča se zaporedja ne predstavljajo le prednosti za genom, ampak so povezana tudi z določenimi boleznimi. Ker je večina teh zaporedij sposobna avtonomnega premikanja po genomu, ki poteče neodvisno od celičnega cikla, lahko to vodi v nestabilnost genoma, kar je povezano tudi s pojavljanjem raka. Poleg tega določene študije kažejo, da so v povezavi z epigenetiko, ta zaporedja pomembna tudi pri Alzheimerjevi bolezni, saj je bila pri bolnikih s to boleznijo zmanjšana metilacija LINE zaporedij glede na kontrolno skupino. Najbolj znana bolezen, ki je neposredno povezana s ponavljajočimi se zaporedji, pa je Huntingtonova bolezen pri kateri gre za ponovitve zaporedja CAG (kodira glutamin) v genu za protein hungtingtin. Poleg te bolezni gre za ponovitev trinukleotidnega zaporedja tudi pri miotonični distrofiji, ko pride do ponovitev elementa CTG na 3’-koncu neprevedljive regije gena za protein DMPK (distrofična miotonična protein kinaza; ang: “Dystrophia Myotonica Protein Kinase”) na kromosomu 19. Določene raziskave pa se osredotočajo tudi na potencialno regulatorno vlogo minisatelitov, saj naj bi bila različna dolžina teh elementov znotraj gena za inzulinski promotor povezana z različnimi tipi diabetesa.
Zaključek
Od prvega opisa transpozicijskih elementov leta 1940 smo v 70 letih dosegli pomembne premike v razumevanju njihove vloge. Čeprav so sprva veljali, skupaj z ostalimi ponavljajočimi zaporedji, le za parazitsko DNA, ki porablja prostor na genomu in ne opravlja nobene funkcije, danes vemo, da je njihova vloga zelo raznolika in predstavlja tako evolucijske prednosti kot slabosti. Še vedno obstaja velik potencial na področju ponavljajočih se zaporedij, še posebej glede njihove povezave s pojavljanjem različnih oblik raka.
Viri
- Di Nocera, P. P. in drugi. GTAG- and CGTC-tagged palindromic DNA repeats in prokaryotes. BMC Genomics, 2013, letn. 14, str. 522 – 543
- Van Belkum, A. in drugi. Short-Sequence DNA Repeats in Prokaryotic Genomes. Microbiology and Molecular Biology Reviews, 1998, letn. 6, str. 275 – 293
- Ivics, Z. in Izsvák, Z. Editorial: Repetitive elements and genome instability. Seminars in Cancer Biology, 2010, letn. 20, str. 197 – 199
- De Souza, F. S. J. in drugi. Exaptation of Transposable Elements into Novel Cis-Regulatory Elements: Is the Evidence Always Strong? Molecular Biology and Evolution, 2013, letn. 30, str.1239–1251
- Metcalfe, C. J. in Casane, D. Accommodating the load: The transposable element content of very large genomes. Mobile Genetic Elements, 2013, letn. 3, str. 4 – 11