Vzpostavitev termometra tRNA za določanje temperature optimalne rasti mikroorganizmov
Povzeto po članku: E. Cimen, S. E. Jensen, E. S. Buckler: Building a tRNA thermometer to estimate microbial adaptation to temperature. Nucleic acids Research. 2020, 48, str. 12004 - 12015.
Uvod
Življenje mikroorganizma je pogojeno s temperaturo okolja, saj ta vpliva na vse biokemijske reakcije, spontano zvijanje proteinov in katalizo metabolnih procesov. Organizmi so prilagojeni na različne temperature, zato jih lahko razvrstimo v osnovne skupine glede na temperaturo za optimalno rast; to so psihrofili, mezofili, termofili in hipertermofili. Za različne skupine mikroorganizmov je značilno, da različne temperature optimalne rasti izhajajo iz različnih prilagoditev na ravni DNA, RNA in zgradbe proteinov [1]. Osnovne značilnosti, ki vplivajo na končno prilagoditev organizma na temperaturo okolja so: delež parov GC, raba kodona, pogostost določenih aminokislin, disulfidne, ionske in hidrofobne interakcije med aminokislinami [2, 3]. Da bi bolje razumeli, kako se celične sestavine in organizem prilagodijo na okoljske temperature, se v zadnjih letih pospešeno razvijajo nevronske mreže, ki lahko na podlagi vzorcev zaporedja genoma napovejo temperaturo optimalne rasti organizma [2, 4]. S takim pristopom se je mogoče izogniti težavnim ugotavljanjem optimalne temperature rasti in pripravam kultur še nepoznanih mikroorganizmov [1]. Raziskovalna skupina pod vodstvom E. Bucklerja se je odločila razviti t.i. »termometer tRNA«. Za začetne podatke so izbrali različna zaporedja tRNA določenih vrst bakterij in arhej, ki vsebujejo dovolj vzorcev, da lahko določajo optimalno temperaturo za rast mikroorganizma [5, 6]. Termometer tRNA deluje na modelu konvolucijskih nevronskih mrež (CNN), ki lahko razvrsti in predvidi optimalno temperaturo rasti za določen organizem samo na podlagi vhodnih zaporedij tRNA. V prejšnjih raziskavah so podoben princip že poskušali izvesti na podlagi vhodnih zaporedij celotnega genoma ali drugih lastnosti genoma, zato je prednost novejšega pristopa v uporabi zgolj zaporedij za tRNA, ki predstavljajo le 0,1 % genoma, kar posledično pomeni enostavnejšo uporabo in zmanjšanje kompleksnosti nevronske mreže [4, 7].
Izbor podatkov
Za začetni set vhodnih podatkov je raziskovalna skupina pridobila zaporedja genomov 36529 vrst bakterij in 276 vrst arhej z optimalno temperaturo rasti med 4 in 103 ° C [7]. Zaporedja tRNA in njihovo lokacijo so napovedali z uporabo programa tRNAscan-SE, zaporedja rRNA pa z uporabo barrnap [8, 9]. Za vsako vrsto organizma so izbrali en genom, pri čemer so iz začetnega seta vhodnih podatkov izbrisali vse genome vrst, katerih 16S, 23S in 5S zaporedja rRNA niso mogli napovedati s programom barrnap in so jih tako označili za premalo kvalitetne. V kasnejših postopkih optimizacije seta vhodnih podatkov so ugotovili, da ima večina organizmov temperaturo optimalne rasti v mezofilnem območju, zato so morali uravnotežiti delež organizmov s temperaturo optimalne rasti iz psihrofilnih in termofilnih skupin v primerjavi z mezofilno skupino. Končni set vhodnih podatkov je zajemal zaporedja tRNA 683 vrst bakterij in 100 vrst arhej. Vsa zaporedja so pretvorili v »one-hot« kodo, pri čemer so zaporedjem, ki so bila krajša od najdaljšega, dodali ničle. Tako so poenotili dolžine vseh zaporedij [1].
Model napovedovanja
Za model napovedovanja so uporabili konvolucijske nevronske mreže, ki so v splošnem najbolj primerne za napoved pri vhodnih podatkih v obliki slike ali zaporedja baznih parov. Zgrajene so iz treh osnovnih plasti: konvolucijske, združevalne in polnopovezane plasti. Konvolucijske plasti opravijo večino zahtevnega računskega dela, delujejo na principu matematične operacije konvolucije, ki deluje na dve začetni funkciji, kot rezultat pa dobimo novo funkcijo. Vsaka konvolucijska plast ima več filtrov. Filter je sestavljen iz vhoda, ki ga sestavljajo vhodni podatki in uteži (začetni funkciji), ki se tekom učenja prilagajajo podatkom, in izhoda, ki predstavlja filtriran rezultat, ki ga imenujemo aktivacijsko polje. Na koncu se vsa aktivacijska polja seštejejo, doda se jim še začetna vrednost in dobimo rezultat. Združevalne plasti so ključne, saj zmanjšajo dimenzije izhodnih rezultatov konvolucijske plasti in s tem zmanjšajo število parametrov. Najpogosteje se uporablja združevanje z izbiro maksimalnega elementa, kar pomeni da se izmed posameznih skupin rezultatov konvolucijske plasti izbere maksimalni element, pri čemer se zavrže veliko vrednosti. To je prednost CNN, saj se nevronska mreža ob manj parametrih uči hitreje, enostavneje in z manj napakami. Polnopovezane plasti se uporabljajo pri vseh nevronskih mrežah in predstavljajo plasti, katerih nevroni so povezani z vsemi nevroni v prejšnji plasti [10]. V študiji so zastavili dva modela napovedi (Shematski prikaz modelov napovedovanja). Prvi je predstavljal binarni klasifikacijski model, ki je izmed dveh vhodnih zaporedij tRNA določil tisto zaporedje, ki pripada mikroorganizmu z višjo temperaturo optimalne rasti. Ta model je za učenje potreboval le eno izmed vseh zaporedij tRNA iz določene vrste organizma. Sestavili so klasifikator z dvema vhodoma za zaporedji tRNA, ki jima sledi konvolucijska funkcija, združevalna plast z izbiro maksimalnega elementa in dve polnopovezani plasti. Oba izhoda se združita v zadnjem nevronu, ki opravi binarno klasifikacijo in vrne zaporedje tRNA z višjo temperaturo za optimalno rast. Model se uči s testnimi podatki, pari tRNA različnih organizmov, pri čemer sta morali biti temperaturi optimalne rasti za tRNA vsaj 1 ° C narazen [1]. Drugi pa je uporabljal regresijski model CNN, ki je lahko za vhodne tRNA organizma napovedal temperaturo za optimalno rast tega mikroorganizma. Model se začne z dvema konvolucijskima funkcijama in združevalno plastjo z izbiro maksimalnega elementa. Nato sledita dve polnopovezani plasti. Za učenje modela so uporabili vhodne podatke, zaporedja tRNA, za katere so predpostavili, da so neodvisni od drugih tRNA v organizmu. Ko so dobili temperaturo optimalne rasti za vse tRNA, so temperaturo optimalne rasti za posamezen organizem izračunali kot mediano vseh napovedanih temperatur optimalne rasti na podlagi vseh tRNA organizma [1]. Dovolj natančno in pravilno delovanje modela je odvisno od številnih parametrov: velikost in število konvolucijskih plasti, število filtrov, velikost združevalne plasti, itd. Vse parametre je potrebno ustrezno optimizirati z zahtevnimi računalniškimi algoritmi [1]. Za vzpostavitev modela je bilo potrebno ločiti sete vhodnih podatkov. Odločili so se, da preizkusijo dva načina ločevanja. V prvem primeru so vhodne podatke naključno razdelili na set za trening, validacijo in testni set, in sicer so za učenje porabili 76 %, za validacijo in izboljšavo optimizacij 5 % in za test 19 % vhodnih podatkov. Celoten postopek vzpostavljanja so ponovili petkrat. V drugem primeru pa so se odločili razdeliti podatke glede na filogenetsko oddaljenost organizmov, saj so v preteklih študijah ugotovili, da so podobnosti med vhodnimi podatki (filogenetsko sorodni organizmi v istem setu za učenje) vplivali na pretirano optimistično delovanje modela. Uporabljene organizme so razvrstili v filogenetsko drevo, tega pa so naknadno razdelili na 10 podskupin, izmed katerih so jih 8 uporabili za učenje, pri čemer model ni dobil informacije o filogenetskih povezavah. Celoten postopek so ponovili petkrat [1].
Rezultati
Pri prvem modelu, ki je iz dveh vhodnih zaporedij tRNA izbral tisto z višjo temperaturo optimalne rasti, so za oba načina ločevanja vhodnih podatkov zbrali rezultate pravilnosti, ki so jih ločili po skupinah glede na razliko v temperaturah (več kot 0, 5, 10, 20 in 30 ° C). Ugotovili so, da model bolje napoveduje, če so razlike v temperaturah optimalne rasti večje. Pričakovano je model bolje napovedal, če so bili vhodni podatki naključno razdeljeni. Poleg tega pa so nepričakovano ugotovili tudi, da model bistveno bolje napoveduje, če za vhodne podatke izberemo zaporedja iz arhej tudi v primeru, ko model ni imel podatkov o filogenetskih povezavah. To je posledica bistveno večje variabilnosti v temperaturah optimalne rasti [1] (Grafični prikaz natančnosti napovedi modela za podatke, ločene naključno in glede na filogenijo). Drugi model je poskušal z uporabo regresijskega pristopa na podlagi vseh tRNA organizma napovedati temperaturo za optimalno rast tega organizma. Njegovo pravilnost so določili s standardno deviacijo in varianco. Dober model bi tako moral imeti nizko standardno deviacijo in visoko varianco. Ugotovili so, da model deluje bolje, če so podatke naključno razdelili (Odvisnost variance od naključnega ali filogenetskega ločevanja podatkov). To bi lahko pripisali tudi pretirano optimističnemu delovanju modela, ki je iz procesa treninga in testa dobil vedno enaka opažanja [1]. V nadaljevanju študije je raziskovalce zelo zanimalo, katere lastnosti in regije tRNA najbolj prispevajo k napovedovanju temperature. S statistično analizo direktne mutageneze so ugotovili, da na napoved najbolj vplivata delež GC in minimalna prosta energija zvijanja. S pregledovanjem pomembnosti vsakega nukleotida v tRNA pa so uspeli ugotoviti, da model največ informacij za napoved dobi iz zanke T in antikodonske regije (Prikaz relativne pozornosti modela na nukleotide v tRNA). Če so nukleotide v teh predelih tRNA zamenjali, je nevronska mreža napovedala temperaturo z večjo napako, iz česar so sklepali, da je zanka T preko interakcij z zanko D pomembna za tvorbo tridimenzionalne strukture tRNA in mutacije v njej vodijo v destabilizacijo tRNA in drugačno temperaturo optimalne rasti [1]. Na stabilnost tRNA vplivajo tudi posttranslacijske modifikacije, katerih mesto in vrsta modifikacije niso eksperimentalno določeni za veliko vrst mikroorganizmov, zato tega parametra, ki prav tako vpliva na temperaturo optimalne rasti, niso vključili v študijo [1].
Zaključek
Razvoj metode, ki lahko na podlagi zaporedja tRNA napove temperaturo optimalne rasti mikroorganizma, je ključnega pomena, saj predstavlja začetno informacijo za gojenje mikroorganizmov v kulturi in posledično pripomore k nadaljnjem raziskovanju odkrite vrste. Poleg tega se lahko informacije iz nevronskih mrež uporabijo za razvoj industrijskih proteinov, ki so pogosto izpostavljeni ekstremnim razmeram (npr. v pralnih praških). Da bi napoved nevronskih mrež še izboljšali, bi za učenje uporabili tudi dodatne informacije o sekundarni in terciarni strukturi tRNA ter posstranslacijskih modifikacijah tRNA, to pa bi nam omogočilo boljše in natančnejše razumevanje prilagoditev organizmov na okoljske temperature [1].
Viri
[1] E. Cimen, S. E. Jensen, E. S. Buckler: Building a tRNA thermometer to estimate microbial adaptation to temperature. Nucleic acids Research. 2020, 48, str. 12004 - 12015.
[2] D. B. Jensen, T. C. Vesth, P. F. Hallin, A. G. Pedersen, D. W. Ussery: Bayesian prediction of bacterial growth temperature range based on genome sequences. BMC Genomics, 2012, 13, S3.
[3] C. Vieille, G. J. Zeikus: Hyperthermophilic enzymes: sources, uses, and molecular mechanisms for thermostability. Microbiol. Mol. Biol. Rev.,2001, 65, str. 1 – 43.
[4] G. Li, K. S. Rabe, J. Nielsen, M. K. M. Engqvist: Machine learning applied to predicting microorganism growth temperatures and enzyme catalytic optima. ACS Synth. Biol.,2019, 8, str. 1411 – 1420.
[5] R. W. Holley, J. Apgar, G. A. Everett, J. T. Madison, M. Marquisee,S. H. Merrill, J. R. Penswick, A. Zamir: Structure of a ribonucleic acid. Science, 1965, 147, str. 1462 – 1465.
[6] Y. I. Watanabe,T. Suematsu,T. Ohtsuki: Losing the stem-loop structure from metazoan mitochondrial tRNAs and co-evolution of interacting factors. Front. Genet., 2014, 5, 109.
[7] D. B. Sauer,D. N. Wang: Predicting the optimal growth temperatures of prokaryotes using only genome derived features. Bioinformatics, 2019, 35, str. 3224 – 3231.
[8] P. P. Chan,T. M. Lowe: tRNAscan-SE: Searching for tRNA Genes in Genomic Sequences. In: Kollmar,M. (ed). Gene Prediction. Methods in Molecular Biology. Vol. 1962, Humana, 2019, str. 1 - 14.
[9] Seemann,T. (2020) barrnap 0.9: rapid ribosomal RNA prediction. (Dostopno na: https://github.com/tseemann/barrnap)
[10] J. Banko: Prepoznavanje jedi iz digitalnih slik s pomočjo konvolucijskih nevronskih mrež, 2018.