Odkritje in opis regij CRISPR in Cas (do leta ~2002)
Uvod
Analize celotnih genomov organizmov so znanstvenikom omogočile primerjavo le teh med posameznimi organizmi. Rezultati raziskav so pokazali, da so pri velikem številu prokariontov prisotna ponavljajoča zaporedja. Ta so lahko daljša ( do 100 kbp), ki jim pogosto pripisujejo kakšno biološko pomembno funkcijo ali pa krajša, sestavljena iz le nekaj nukleotidov . Slednje delimo na zaporedna ponavljajoča zaporedja, pri katerih so si enote, ki se ponavljajo sosednje in prekinjena ponavljajoča zaporedja, pri katerih so med posameznimi ponavljajočimi se zaporedji heterogene prekinitvene sekvence različnih dolžin. Naš seminar se osredotoča na odkritje obstoja posebne družine prekinjenih ponavljajočih zaporedij, ki so jih kasneje poimenovali zaporedja CRISPR.
Prvo odkritje
Odkritje prvih ponavljajočih se zaporedij je bilo povsem naključno. Leta 1987 je skupina znanstvenikov na čelu z Yoshizumi Ishinom naredila raziskavo, pri katerem so želeli indetificirati protein, odgovoren za pretvorbo izocima alkalna fosfataza pri organizmu Escherichia coli (celice K-12). Uspelo jim je sekvencirati 1,7 kbp dolg fragment DNA v katerem se je med drugim nahajal gen iap, za katerega so sklepali, da zapisuje preiskovani protein. Tarčno DNA so najprej klonirali in prenesli v vektor M13, v katerem je potekalo sekvenciranje po Sangerjevi metodi. Med sekvenciranjem DNA fragmenta so na njegovem 3΄ koncu opazili nenavadno strukturo. Navzdol po genomu od gena iap se je nahajalo pet močno homolognih sekvenc, sestavljenih iz 29 nukleotidov, znotraj katerih je bilo palindromsko zaporedje 14 bp, med njimi pa so bile prekinitve iz 32 nukleotidov. Že nekaj let pred tem odkritjem, leta 1984, so pri raziskavi na bakterijah E. coli in Salmonella enterica opazili palindromska zaporedja, ki so jim pripisali funkcijo stabilizacije mRNA, vendar ob primerjavi niso našli nobene podobnosti med temi zaporedji in na novo odkritimi zaporedji . To odkritje je bilo tako skrivnostno, da so ga omenili celo v razpravi na koncu članka, čeprav takrat še niso razumeli njihove biološke funkcije. Znanost v času te raziskave še ni bila tako razvita in niso poznali danes razvitih metod sekvenciranja, zato je bil celoten postopek dolgotrajen. Več mesecev so potrebovali, da so natančno določili ponavljajoče zaporedje. Težave jim je povzročala predvsem sekundarna struktura, ki jo je tvorilo palindromsko zaporedje. Neverjetno je, da bi lahko z danes poznano tehnologijo npr. s polimerazno verižno reakcijo enako regijo posekvencirali v enem dnevu.
Temu odkritju je kmalu sledilo še več odkritij enakih ponavljajočih zaporedij pri različnih sevih E. coli in nekaterih ostalih bakterijah ( npr. Salmonella typhimurium in Shigela dysenteriae). Do pomembnega odkritja so leta 1993 prišli tudi nizozemski znanstveniki, ki so prekinjena ponavljajoča zaporedja našli pri preučevanju bakterije Mycobacterium tuberculosis. Prepoznali so veliko raznolikost zaporedij med posameznimi sevi bakterije in to uporabili za njihovo identifikacijo.
V prvih letih raziskovanja je bilo javno dostopnih zelo malo podatkov o sekvenciranih genomih, zato so prekinjena ponavljajoča zaporedja opazili pri relativno majhnem številu organizmov. Ob razvoju novih tehnik sekvenciranja pa je bilo teh podatkov vedno več, čemur so sledila tudi vedno večja odkritja na področju ponavljajočih prekinjenih zaporedij.
Odkritje regij CRISPR pri arhejah (1993–2000)
Pri arhejah je takšna zaporedja prvi opazil Francisco Juan Martinez Mojica, ki je kot del mikrobiološke skupine na Univerzi Alicante v Španiji raziskoval regulatorne mehanizme haloarhej in njihovo prilagajanje na spremembe v okolju. Preučevani organizem je bil Haloferax mediterranei – haloarheja, ki živi v okoljih, kjer slanost doseže tudi 20–25 %. Mojica se je pri raziskovanju usmeril na gensko še nekategorizirane regije genoma H. mediterranei, ki so bile predvidoma zaradi spremembe v slanosti okolja podvržene nekakšnim DNA-modifikacijam. Vendar pa so pri sekvenciranju in genski analizi teh regij naleteli na nepričakovan vzorec. Avtoradiogram je pokazal DNA-segmente, dolge približno 30 bp, ki se ponavljajo na konstantnih razdaljah. Po dodatnem sekvenciranju regij so odkrili prisotnost vsaj 14 skoraj popolnoma ohranjenih ponovitev, vsaka ponovitev pa je vključevala kratko obrnjeno palindromsko ponovitev. Ponavljajoči vzorci so se nahajali na nekodirajočem območju genoma, poleg ORF (»open reading frames«), ki niso bili homologni nobenemu do takrat znanemu proteinu. Poleg tega pa so pri ponavljajočih se regijah zaznali številne transkripte RNA, kar nakazuje na visoko procesirano RNA iz teh regij. Čeprav so bila takšna ponavljajoča zaporedja opažena že pri nekaterih bakterijah (Escherichia coli, Mycobacterium spp.), so bila pri tem eksperimentu prvič videna pri arhejah.
Medtem ko so za bakterijske ponovitve takrat le predvidevali o njihovi biološki funkciji, npr. regulacija sosednjih genov, so biološke funkcije TREPs (Tandem REPeats) pri arhejah tudi eksperimentalno raziskovali. TREP-zaporedja so našli v kromosomu in plazmidu H. mediterranei in sorodni haloarheji – Haloferax volcanii. Zaradi možnosti genske manipulacije so pri celicah H. volcanii raziskovali učinek prisotnosti rekombinantnega plazmida, ki je vseboval fragmente TREP. Dve hipotezi o biološki funkciji TREPs so takoj ovrgli, in sicer njihovo vlogo pri rekombinaciji DNA in regulaciji sosednjih genov. Nesmiselno bi bilo predvidevati, da bi bile tako velike genske strukture povezane zgolj z regulacijo transkripcije nekaj genov. Predpostavili pa so, da morajo TREPs igrati pomembno vlogo pri celičnem ciklu. Prisotni so namreč v največjih in najverjetneje najpomembnejših replikonih celice. Poleg tega je prisotnost dodatnih kopij TREP (vstavljene v gostujočo celico s pomočjo vektorja) povzročila zmanjšano preživetje celic in spremembo v sestavi DNA, kar podpira hipotezo, da imajo TREPs pomembno vlogo pri ločevanju replikonov. Zaradi visoke ohranjenosti TREPs med vrstami haloarhej in prisotnosti zelo podobnih struktur pri E. coli pa so lahko ugibali, da imajo TREPs univerzalno oz. podobno vlogo pri organizmih, kjer so jih odkrili.
Za dokaz zgornjih predvidevanj o biološki funkciji TREPs so bile seveda potrebne dodatne študije na haloarhejah, za katere pa Mojica ni dobil finančne podpore. Poskuse je zato moral nadaljevati na E. coli, kjer enaki eksperimenti kot prej na H. volcanii niso dali željenih rezultatov. Dodatne raziskave niso podale nobenega dokaza o vpletenosti ponavljajočih se zaporedij v ločitveni aparat, iz rezultatov pa bi lahko sklepali, da bi zaporedja lahko služila kot nekakšna mesta za kooperativno vezavo na celične strukture, npr. na citoplazemsko membrano, ali proteine, vplivali pa bi lahko tudi na strukturo DNA.
Leta 1995 je bil objavljen prvi celoten genom prostoživečega organizma, s čimer se je začela nova doba v biologiji. Pospešeno sekvenciranje je pripomoglo k nastanku dodatnih zbirk prokariontskih genomov, na podlagi česar je leta 1996 lahko nastalo prvo celovito poročilo o konstantno ponavljajočih se regijah v celotnem genomu. Do konca stoletja so podobna zaporedja odkrili še v 12 vrstah arhej in bakterij.
F. Mojica et al. (2000)
V nadaljnjih letih se je večalo število znanih genomov bakterij in arhej, kar je pospešilo raziskave o motivih zaporedij DNA. Tako je skupina znanstvenikov pod vodstvom Francisca Mojice potrdila prisotnost ponavljajočih zaporedij v prokariontih, ki so jo predstavili kot posebno družino prokariontskih zaporedij pod imenom SRSR (short regularly spaced repeats). Z analizami so ugotovili, da so SRSR prisotni znotraj genomov večine arhej ter različnih skupin bakterij in tako predstavljajo eno najbolj razširjenih družin v prokariontskih genomih. Ugotovili so, da so SRSR zaporedja znotraj enega genoma precej homogena, pojavljajo pa se tudi določene podobnosti med organizmi, ki izhajajo iz skupnega prednika ter podobnosti znotraj posameznih domen. V tej raziskavi je bilo ključno odkritje pojav kratkih palindromskih zaporedij v dodatnih organizmih in s tem vpeljava nove družine nukleotidnih zaporedij, za katero je značilno da so ločena s stalno dolgimi prekinitvenimi zaporedji. Čeprav so odkrili podobna zaporedja znotraj genomov različnih prokariontov, niso vedeli, če ima ta družina zaporedij tudi skupno funkcijo v vseh prokariontih.
Jansen et al. (2002)
Na Nizozemskem je v naslednjih letih Ruud Jansen dodatno preučeval družino SRSR. Z računalniško analizo so želeli določiti lokacije SRSR v do tedaj znanih prokariontskih genomih. Izbirali so posamezna SRSR zaporedja bakterij in arhej, ter jih primerjali s celotnimi genomi prokariontov. Primerjali so tudi prekinitvena zaporedja, ki so med SRSR, ter prišli do spoznanja, da so tako SRSR kot prekinitvena zaporedja večinoma unikatna za genom posamezne vrste. V nadaljevanju so zato iskali nove lokacije SRSR na podlagi njihovega motiva ponavljanja, ki pa je bil zanje značilen v vseh do tedaj odkritih zaporedij – kratka palindromska zaporedja alternirajo s prekinitvenimi zaporedji stalnih dolžin. Z analizami so v več organizmih odkrili tudi prisotnost daljših zaporedij na enem koncu SRSR in predpostavili, da daljše zaporedje in SRSR skupaj predstavljata eno enoto. Ta zaporedja pred SRSR so poimenovali vodilna zaporedja, ki so si glede na zaporedje baz podobna le znotraj enega genoma, vendar pa imajo nekatere splošne skupne lastnosti. Nimajo odprtega bralnega okvirja, torej ne vsebujejo zaporedja, ki bi kodiralo za proteine, poleg tega pa pogosto vsebujejo sosledje enakih nukleotidov in na splošno velik delež adenina in timina.
Ta nova odkritja so spodbudila dodatne raziskave, vendar so znanstveniki ugotovili, da so bila v preteklosti v tisku uporabljena različna poimenovanja za novo odkrit motiv ponavljanja znotraj DNA. V namen poenotenja sta zato Jansen in Mojica leta 2002 vpeljala novo ime, ki je ostalo v uporabi do danes – CRISPR (clustered regularly spaced palindromic repeats). Ob vpeljavi novega imena je Jansen s kolegi odkril tudi novo lastnost CRISPR zaporedij. S primerjavo genov ob CRISPR zaporedjih so odkrili pogosto prisotnost štirih genov, ki jih niso našli v prokariontih brez CRISPR regij. Skupino novo odkritih genov so poimenovali cas (CRISPR associated genes), posamezne gene pa od Cas1 do Cas4. V tej raziskavi še niso identificirali točne funkcije vseh cas genov, so pa predpostavili vlogi genov Cas3 in Cas4. Analiza aminokislinskih ostankov teh dveh proteinov je pokazala homolognost med Cas3 in helikazo ter med Cas4 in RecB eksonukleazo.
Znane lastnosti CRISPR zaporedij do leta 2002
Do leta 2002 so CRISPR zaporedja odkrili v več kot 40 različnih prokariontih. Znano je, da gre za kratka zaporedja dolga od 21 do 37 baznih parov, ki so ločena s prekinitvenimi zaporedji stalnih dolžin. Pred kratkim zaporedjem se nahajajo daljše zaporedje dolgo nekaj sto baznih parov, ki so ga poimenovali vodilno zaporedje in skupina genov, ki so jih poimenovali cas. V letu 2002 so torej že poznali splošno strukturo regije CRISPR, še vedno pa niso poznali izvora zaporedij ter njihove vloge v organizmu.
Viri in literatura
- Mojica, F. J., Rodriguez-Valera, F. The discovery of CRISPR in archaea and bacteria, The FEBS Journal, 2016, 283(17), 3162-9
- Mojica, F. J., Ferrer, C., Juez, G., Rodriguez-Valera, F. Long stretches of short tandem repeats are present in the largest replicons of the Archaea Haloferax mediterranei and Haloferax volcanii and could be involved in replicon partitioning, Molecular Biology (1995), 17(1), 85-93
- Ishino Y, Shinagawa H, Makino K, Amemura M, Nakata A. 1987. Nucleotide sequence of the iap gene, responsible for alkaline phosphatase isozyme conversion in Escherichia coli, and identification of the gene product. Journal of Bacteriol 169:5429 –5433
- Yoshizumi Ishino, Mart Krupovic, Patrick Forterre. 2018. History of CRISPR-Cas from Encounter with a Mysterious Repeated Sequence to Genome Editing Technology. Journal of Bacteriol 200(7): 17-58