DARWINS

From Wiki FKKT
Jump to navigationJump to search

Projekt DARWINS so razvili člani skupine SJTU-Software iz Šanghaja za namen sodelovanja na tekmovanju iGEM 2023. DARWINS je programska oprema za določanje idealne termične stabilnosti (Tm) proteinov v procesu njihove usmerjene evolucije. Motivacija za projektno nalogo prihaja iz želje napovedovanja Tm proteinov Ago in njihovih mutant ter usmerjene evolucije proteina KmAgo do temperaturno bolj stabilnih proteinov za njihovo uporabo pri zaznavanju nukleinskih kislin in prepoznavanje virusov [1].

Dela so se lotili v treh stopnjah:

  1. Izuriti model za napovedovanje termične stabilnosti in njegova prilagoditev za proteine Ago in mutantne seve.
  2. Razvoj spletnega mesta za napovedovanje termične stabilnosti, ki uporabnikom omogoča, da ob predložitvi aminokislinskih zaporedij prejmejo vrednosti Tm skupaj z njihovo relativno razvrstitvijo.
  3. Uporaba modela DARWINS za podporo usmerjeni evoluciji KmAgo in pridobitev stabilnejšega in aktivnejšega KmAgo pri različnih temperaturah [1].

Proteini Ago in KmAgo

Proteini Ago so ključni proteini pri z RNA posredovani posttranskripcijski regulaciji. Pri evrakriontih se povezujejo z malimi molekulami RNA in tvorijo kompleks mRISC (angl. RNA-induced silencing complex). Proteini Ago imajo tako mnogo vlog v različnih bioloških procesih, kot npr. prepoznavanje in razgradnja virusne RNA, utišanje genov... Z uporabo proteinov Ago in tehnologijo interferenčne RNA lahko dosežemo usmerjeno utišanje genov, kar vodi v boljše poznavanje genskih funkcij in razvoj novih terapevtskih pristopov [1, 2].

Strukturo proteinov Ago v osnovi sestavljajo tri domene:

  • PAZ: prepoznava H-vezi in strukturo stebelne zanke (angl. stem-loop structure) z interakcijo z 2-3 nukleotidi na 3'-koncu molekule RNA, kar omogoča razlikovanje različnih tipov miRNA od siRNA;
  • MID: običajno na N-koncu proteina ob domeni PAZ, ohranjeni aminokislinski ostanki te domene omogočajo tvorbo H-vezi in hidrofonih interakcij s specifičnimi zaporedji na 5'-koncu RNA;
  • PIWI: tvori jo približno 350 aminokislinskih ostankov, njena 3D-struktura pa kaže značilnosti zvitja RNaze H, vsebuje endonukleazno aktivnost [1, 3].

KmAgo je programabilna univerzalna ribonukleaza Ago, ki izvira iz mezofilne bakterije Kurthia massiliensis. Čeprav učinkovito cepi večino vrst nukleinskih kislin, termična stabilnost KmAgo ni zadovoljiva. Usmerjena evolucija termične stabilnosti KmAgo lahko znatno razširi področja njene potencialne uporabe, zlasti v industrijskih procesih, ki potekajo pri visokih temperaturah. Na področjih, kot sta proizvodnja biogoriv ali industrijska encimska kataliza, izboljšana termična stabilnost KmAgo ponuja možnost delovanja v visokotemperaturnih okoljih [1, 4].

Usmerjena evolucija

Usmerjena evolucija je pomembno orodje v raziskavah molekularne biologije, njena vloga pa je simuliranje evolucijskega procesa na molekularni ravni v laboratoriju, kjer lahko z naključnimi mutacijami in rekombinacijami umetno ustvarimo veliko število mutantov. Z uporabo selekcijskega pritiska je mogoče izbrati proteine z željenimi lastnostmi in simulirati evolucijo na molekularni ravni. Splošni proces usmerjene evolucije vključuje mutiranje, (vnos naključnih mutacij v gen, ki ga je treba modificirati, npr. z error-prone PCR) izražanje (prenos spremenjenega gena v gostiteljske celice za izražanje) in presejanje ali selekcijo. Slednje običajno doseženo s hitrim določanjem optičnih lastnosti, kot so motnost, barva, fluorescenca ali kemiluminiscenca. Ker so tradicionalne metode selekcije pogosto zamudne in občutljive na okoljske dejavnike, je potrebno računalniško podprto selekcioniranje. Pri sodobnih uporabah usmerjenih evolucijskih metod je postopek presejanja omejen z zapletenimi eksperimentalnimi protokoli in velikimi časovnimi vložki. Projekt DARWINS uporablja model za napovedovanje termične stabilnosti kot orodje za presejanje, kar omogoča hitrejšo in priročnejšo selekcijo [1].

Potek izvedbe

Projekt predstavlja jezikovni model za pridobivanje značilnosti proteinskih zaporedij v podporo nadaljnjemu napovedovanju, za kar je potrebna velika količina podatkov o proteinskih zaporedjih. Uporabljeni so bili podatki o proteinih Ago, ki jih je zagotovilo podjetje Novozymes v javnem naboru podatkov na portalu Kaggle. Za pridobivanje proteinskih zaporedij za nadaljnje naloge so bili izbrani podatki v razponu dolžine 300-800 aminokislin. Po pregledu podatkov je bilo skupno 13 917 veljavnih zaporedij, ki smo jih naključno razdelili v učno in testno množico v razmerju 8:2. V sodelovanju z raziskovalno skupino profesorja Honga Lianga so bile pridobljene vrednosti Tm za 28 zaporedij mutantnih proteinov KmAgo, ki so bila eksperimentalno preverjena in so bila uporabljena za validacijo in nadaljnje delo pri usmerjeni evoluciji proteina KmAgo [1].

Prvi uporabljeni jezikovni model je bil ESM-2, proteinski jezikovni model, ki uporablja maskirano jezikovno modeliranje (MLM) za ugotavljanje aminokislinskih odvisnosti v proteinskih zaporedjih. Značilnosti proteinskih zaporedij in aminokislinske odvisnosti, pridobljene z ESM-2, se lahko uporabijo za različne nadaljnje naloge [1].

Za optimizacijo dela postopka pridobivanja proteinskih zaporedij je bil naknadno za pridobivanje značilnosti uporabljen jezikovni model TemPL. TemPL temelji na arhitekturi jezikovnega modela BERT in uporablja ogrodje modela ESM-2. Med natančnim prilagajanjem je prejel precejšnje število oznak, povezanih s temperaturo. Zato je bilo pričakovati, da bodo značilnosti proteinskih zaporedij, pridobljene z modelom TemPL, boljše od tistih z modelom ESM-2. Dejanski rezultati so se razlikovali od pričakovanj [1].

Nadaljnje delo je potekalo z razvojem orodja za napovedovanje termične stabilnosti, ki uporabnikom omogoča vnos podatkov o zaporedjih in z uporabo pridobljenih značilnosti o zaporedju za napovedovanje temperature poda optimalno Tm. Razvoj takšnega orodja vključuje kombinacijo spletnega oblikovanja v ospredju in integracijo modelov v ozadju [1].

DARWINS 2.0

Zaradi nekaterih pomankljivosti modela DARWINS 1.0, je bil ustvarjen posodobljen model DARWINS 2.0, kar je vključevalo spremembo zbirke parametrov za pridobivanje elementov in privedlo do večje matrike elementov za pridobivanje proteinskih zaporedij (izpis se je povečal iz 1280 dimenzij v različici 1.0 na 2560 dimenzij). Hkrati so bili v učno množico vključeni prehodno pridobljeni podatki iz 28 mutiranih zaporedij KmAgo. Cilj spremenjenega modela je bil podrobneje in natančneje izluščiti značilnosti proteinskih zaporedij, kar bi omogočilo boljšo učinkovitost pri napovedovanju mutacij, vključno z zaporedji, kot je KmAgo [1].

Glede na to, da je prvotna podatkovna zbirka za usposabljanje večinoma vsebovala podatke o divjem tipu proteina Ago in ni imela podpore za učenje podatkov o mutacijah, bi lahko prišlo do omejitev pri napovedovanju v zaporedje usmerjene evolucije proteinov. Za odpravljanje omenjene pomanjkljivosti, so model učili z uporabo drugačnega nabora podatkov o mutacijah. Izbran je bil nabor podatkov o mutacijah, ki je bil uporabljen pri učenju sistema PremPS. Ta nabor podatkov o mutacijah je bl najprej filtriran z izborom 3092 zaporedij z dolžino med 100 in 300 kb, nato pa so nabor zaporedij razdelili v razmerju 7:3 za učenje in testiranje [1].

DARWINS 3.0

Zaradi znatnega vpliva divjega tipa proteina na termično stabilnost mutanta je bil model DARWINS 2.0 spremenjen in preoblikovan iz regresijskega modela v binarni klasifikacijski model DARWINS 3.0. Z drugimi besedami, vnos mutiranega zaporedja v ta model vrne rezultat, ki lahko določi, ali je toplotna stabilnost mutiranega zaporedja večja ali manjša v primerjavi z divjim tipom, kar zagotavlja kakovosten vpogled v načrtovanje usmerjene evolucije [1].

Preverjanje in uporaba modelov

Med razvojem sistema je ključnega pomena, da se potrdi natančnost modelov za napovedovanje termične stabilnosti. Primerjani so bili trije glavni modeli - PremPS, FoldX in dynamut2. Ti trije modeli zagotavljajo le spletne storitve napovedovanja in ne podpirajo množičnih vnosov. Zato preizkušanje njihove učinkovitosti na večji zbirki podatkov za primerjavo ni bilo izvedljivo. Poleg tega se ti trije modeli razlikujejo po tem, kako v svojih rezultatih odražajo termično stabilnost. PremPS na primer izpisuje ddG, ki odraža, v kolikšni meri je mutant bolj ali manj termodinamsko stabilen v primerjavi z divjim tipom. Nasprotno pa modela DARWINS 1.0 in DARWINS 2.0 prikazujeta neposredne vrednosti Tm. Ob upoštevanju teh razlik je bila izvedena napoved binarne klasifikacije na 28 mutiranih zaporedjih KmAgo z uporabo omenjenih treh modelov in rezultati primerjani z modelom binarne klasifikacije, DARWINS 3.0. Prav tako je bila izvedena primerjava DARWINS 3.0 in treh omenjenih modelov z uporabo podatkov 28 izvirnih zaporedij [1].

Opazimo lahko, da je model DARWINS 3.0 v nekaterih vidikih napovedovanja v splošnem primerljiv s tremi uporabljenimi modeli. Znatno se je izboljšala stopnja priklica, kar kaže, da lahko model bolje zajame mutacije, ki povzročijo povečanje termične stabilnosti proteinskih zaporedij, s čimer se zmanjša verjetnost izpada resnično pozitivnih rezultatov. Poleg tega spletna platforma omogoča nalaganje in napovedovanje več zaporedij, kar raziskovalcem zagotavlja večjo uporabnost v primerjavi s spletnimi storitvami primerjanih treh modelov [1].

Regresijska modela DARWINS 1.0 in DARWINS 2.0 sta bila uporabljena za napovedovanje vrednosti Tm proteinskih zaporedij KmAgo po enem krogu mutacij. Cilj je bil identificirati mesta mutacij in sorodna mutirana zaporedja, ki lahko povečajo vrednosti Tm, kar omogoča vpogled v nadaljnjo evolucijo, usmerjeno v termično stabilnost. Hkrati je bila izvedena tudi vizualizacija mutacijskih mest za obstoječih 28 mutiranih zaporedij KmAgo z že znanimi eksperimentalnimi podatki. Vizualizacija je bila izvedena s pomočjo toplotnih kart, kjer lahko opazujemo razlike v napovedanih vrednostih Tm za vsako mutirano vrsto. Prav tako je mogoče identificirati položaje proteinskih zaporedij, kjer je večja verjetnost, da bodo mutacije povzročile povečanje termične stabilnosti [1].

Skupina SJTU-Software se je pri svojem delu soočila z nekaterimi izzivi, med katerimi so tudi:

  1. Natančnost napovedi vrednosti Tm proteinov s pomočjo modela je močno odvisna od kakovosti učnega niza. Za raziskovalno tarčo KmAgo so model usposobili le za natančno napovedovanje Tm KmAgo in članov iste družine proteinov.
  2. Prikazovanje proteinskih zaporedij kot struktur zahteva precejšnjo porabo pomnilnika za večjo zanesljivost.
  3. Delovanje predhodno usposobljenih modelov z visokim številom parametrov zahteva daljši čas.
  4. Vrednost Tm je le eden od kazalnikov, ki odražajo stabilnost proteinov, zato je primerjava s podobno programsko opremo otežena [1].

Literatura

[1] DARWINS. https://2023.igem.wiki/sjtu-software/index.html (pridobljeno 14. 4. 2024).

[2] Carmell, M. A., Xuan, Z., Zhang, M. Q., Hannon, G. J. The Argonaute family: tentacles that reach into RNAi, developmental control, stem cell maintenance, and tumorigenesis. Genes & development. 2002, 16(21), str. 2733–2742.

[3] Wu, J., Yang, J., Cho, W. C., Zheng, Y. Argonaute proteins: Structural features, functions and emerging roles. Journal of advanced research. 2020, 24, str. 317–324.

[4] Liu, Y., Li, W., Jiang, X., Wang, Y., Zhang, Z., Liu, Q., He, R., Chen, Q., Yang, J., Wang, L., Wang, F., Ma, L. A programmable omnipotent Argonaute nuclease from mesophilic bacteria Kurthia massiliensis. Nucleic acids research. 2021, 49(3), str. 1597–1608.