Združitev difuzijskega modela in transformerja za sintezo izboljšanih promotorjev ter napoved moči sintetičnih promotorjev z uporabo globokega učenja

From Wiki FKKT
Revision as of 08:27, 4 May 2025 by Tinkarakorosec (talk | contribs) (Created page with "Izhodiščni članek: [https://doi.org/10.1128/msystems.00183-25 Combining diffusion and transformer models for enhanced promoter synthesis and strength prediction in deep learning] == Uvod == Na področju sintezne biologije je tehnološka priprava sintetičnih promotorjev, ki prekosajo naravne, izredno pomembna. S tem optimiziramo izražanje eksogenih genov in povečamo učinkovitost metabolnih poti. Imajo tudi znatno komercialno vrednost. Raziskave kažejo, da imajo...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigationJump to search

Izhodiščni članek: Combining diffusion and transformer models for enhanced promoter synthesis and strength prediction in deep learning

Uvod

Na področju sintezne biologije je tehnološka priprava sintetičnih promotorjev, ki prekosajo naravne, izredno pomembna. S tem optimiziramo izražanje eksogenih genov in povečamo učinkovitost metabolnih poti. Imajo tudi znatno komercialno vrednost. Raziskave kažejo, da imajo nekateri sintetični promotorji večjo transkripcijsko aktivnost kot močni naravni promotorji. Težava se pojavi v kompleksnosti zaporedij, saj obstaja 4n možnih sekvenčnih kombinacij promotorjev z dolžino n. Iz tega nabora moramo na učinkovit način identificirati delujoče promotorje. Težavi se izognemo z uporabo strojnega učenja oziroma bolj natančno - globokega učenja, ki je zmožno vsestranskega učenja iz velikih naborov podatkov [1].

Globoko učenje

Strojno učenje opisuje zmožnost sistema, da se uči iz učnih podatkov in avtomatizira proces gradnje analitičnega modela ter reševanja pridruženih opravil. Globoko učenje je koncept strojnega učenja na podlagi umetnih nevronskih mrež [2], ustvarjenih po navdihu nevronov živalskega živčnega sistema. Nevron prejme torej stimulus, ga preko sintaptičnih uteži spremeni, združuje in odda dražljaj kot izhodni podatek. Nevronske mreže gradijo procesni elementi ali osnovni gradniki. Ti prejmejo podatke, jim dodajo sinaptične uteži, in jih na podlagi teh uteži združujejo ter preko aktivacijske funkcije podajo nek izhodni podatek, definiran kot funkcija funkcije [3].

Dosedajni pristopi k ustvarjanju sintetičnih promotorjev

Večino pristopov ustvarjanja sintetičnih promotorjev je dosedaj potekala na podlagi globokega generativnega modela variacijskih samokodirnikov (VAE). Model sestavljata kodirni in dekodirni del, s pomočjo katerih poteka učenje z latentimi predstavitvami podatkov. Kodirnik vhodni primer preslika v predstavitev v latentem prostoru, kjer vsaka točka predstavlja stisnjeno obliko vhodnega primera. V tem latentnem prostoru VAE zajame porazdelitev podatkov in to lahko spreminja. Dekodirni del pa obnovi podatke iz latentnih predstavitev podatkov. Kodirni del je zelo kompleksen, omejuje pa ga tudi velikost podatkovne množice. Da bi se temu izognili, so v raziskavi za načrtovanje promotorja uporabili pristop z uporabo difuzijskega modela, ki deluje s podatki modelnih bakterij kot je Escherichia coli in cianobakterije. Ta model dobro vključuje in uporablja biološke lastnosti naravnih zaporedij promotorjev, da pripravi sintetične različice. Dodatno so uporabili še transformer, da so preverili učinkovitost teh sintetičnih promotorjev, posebaj tistih z visoko zmogljivostjo [1].

Difuzijski model in transformer

Difuzijski modeli delujejo v dveh stopnjah; dodajanje in odstranjevanje šuma. V prvi stopnji se šum iterativno dodaja, da se spremeni porazdelitev podatkov. Šum se originalni podatkovni množici dodaja v korakih po Gaussovi distribuciji [1]. To pomeni, da obstaja večja verjetnost, da se šum pojavi bližje točki, ki jo spreminjamo, vseeno pa se lahko pojavi na nekem oddaljenem mestu [4]. V drugi stopnji odstranjevanja šuma pa model postopoma napove in odstrani šum, kar rekonstruira končne podatke. Model to dela na podlagi naučene pogojne porazdelitve. Pri dodajanju in odstranjevanju šuma upošteva principe markovske verige. To je, da je verjetnost prehoda v naslednje stanje odvisna le od trenutnega stanja. Preko teh dveh korakov difuzijski modeli analizirajo latentno porazdelitev lastnosti znotraj podatkov, pravilno napovejo šum in proizvedejo nove podatke, ki odražajo porazdelitev lastnosti začetnih podatkov preko odstranjevanja šuma. Transformer je arhitektura globoke nevronske mreže, sestavljena iz kodirnika in dekodirnika, ki temelji na mehanizmu pozornosti in zajema značillnosti vhodnih zaporedij [1].

Podatkovne množice in predpriprava podatkov

V raziskavi so uporabili podatkovno množico naravnih promotorjev E. coli K12 MG1655. Ta je vsebovala 11.884 vzorcev, vsak 50 nukleotidov dolg promotor s pripadajočo močjo. Večina promotorjev v tej podatkovni množici je zaporedje 50 nt navzgor od mesta začetka transkripcije [1]. Moč promotorja so določili z diferencialnim sekvenciranjem RNA (dRNA-seq) [1, 5]. Za validacijo so uporabili še podatkovno množico naravnih promotorjev cianobakterije Synechocystis sp. PCC6803. Naravne promotorje cianobakterij predstavljajo 100 nt regije navzgor od odprtega bralnega okvirja, moč pa so določili na enak način preko nivojev ekspresije z dRNA-seq. Informacije, ki jih prejme model, so torej: nukleotid, pozicija nukleotida v zaporedju, njegov naslednik (informacija o dinukleotidu) in normalizirana moč promotorja (iz dRNA-seq). Pomembno je, da morajo biti pri nevronskih mrežah podatki zvezni, saj barv, črk in podobnih podatkov računalnik namreč ne razume. Zato uporabimo enično kodiranje ali kodiranje „one-hot-encoding“, kjer vsaki vrednosti pripišemo število. Vsakemu nukleotidu so pripisali svojo številsko vrednost od 0 do 3, zaporedje teh številk poda informacijo o zaporedju nukleotidov. Dodatno so za načrtovanje promotorja obogatili učne podatke še z informacijama o nasledniku nukleotida (informacija o dinukleotidu) ter ustrezno normalizirano močjo promotorja [1].

Obdelava podatkov

Najprej so difuzijski model učili z uporabo podatkov zaporedji promotorjev, da je iz njih izluščil biološke značilnosti naravnih promotorjev in ustvarili kopico sintetičnih promotorjev. S pomočjo transformerja so nato napovedali moč sintetičnega promotorja in določili najbolj zmogljive. Transformer je kot vhodne podatke dobil zaporedja promotorjev, izhodni podatek pa so označili z močjo, določeno z dRNA-seq. Transformer med učenjem razvija razumevanje, kako si različni deli zaporedja sledijo, kje se nahajajo in kako so pomembni za dano vrednost moči promotorja. Ko prejme sintetični promotor iz difuznega modela, izvede naslednje korake: kodiranje vhoda, kjer se informacije o nukleotidu in poziciji zakodirajo v številske vdelave in hranijo strukturne lastnosti zaporedja. Sledi transformer, ki preverja in z zmožnostjo "pozornosti" določa pomembnosti posameznih delov zaporedja. Kot izhodni podatek model vrne rezultat napovedi moči promotorja [1].

Validacija

Statistične metode

V raziskavi so v namene kvatificirane ocene učnega procesa izvedli naslednje statistične in bioinformatske metode. Pearsonov korelacijski koeficient (PCC) je statistična mera lineranega odnosa med spremenjivkama X in Y. Razpon koeficienta je od -1 do 1, kjer vrednosti okoli 1 pomenijo močno pozitivno soodvisnost, -1 pa močno negativno soodvisnost. Pri globokem učenju PCC uporabljajo za oceno uspešnosti modela in kot funkcijo izgube za izboljšavo modela. Pri napovednem modelu uporabljajo PCC skupaj s srednjo kvadratno napako (MSE) za funkcijo izgube, ki nato vodita učenje modela. Pojem k-mer opisuje del zaporedja dolžine k. Računamo lahko njihovo pojavnost v celotnem zaporedju v obliki frekvence.

Določanje frekvence pojavnosti k-mer

Za izračun k-mer so uporabili drsno okno, ki zajema zaporedje dolžine k. Okno so po zaporedju zamikali po en nukleotid in za vsako zajeto podzaporedje izračunali frekvenco pojavnosti. Nato so izračunali soodvisnost frekvenc k-merov med sintetičnimi in naravnimi promotorji tekom učenja modela. S tem parametrom so ocenili natančnost sintetičnih promotorjev, da ti ohranjajo k-mere, ki se pojavljajo v naravnih promotorjev. Opazili so, da tekom prvih 200 epoh (ciklov iteracij) vrednosti sunkovito naraščajo, nato pa se stabilizirajo. Z izračunom funkcije izgube so ocenili, da ta upade po nekaj začetnih epohah in nato konvergira. Končno so na razsevnem grafikonu prikazali soodvisnost frekvence k-merov (k = 2-6) med sintetičnimi in naravnimi promotorji, izračunano s PCC. Točke so razporejene vzdolž diagonale, kar nakazuje na to, da so frekvence k-mer praktično identične med naravnimi in sintetičnimi promotorji.

Določanje frekvence pojavnosti nukleotidov na specifičnih mestih zaporedja

Frekvenco nukleotidov na specifičnih mestih zaporedja so predstavili z grafom "sequence logo". Po več epohah se pojavnost nukleotidih na določenih mestih približa frekvenci pojavnosti v naravnih promotorjih. Za validacijo so uporabili še podatkovno množico promotorjev cianobakterije in dobili podoben rezultat. S tem so dokazali prilagodljivost modela, da poišče pomembne biološke lastnosti promotorjev različnih prokariotskih organizmov.

Primerjava z VAE

Če model uporabljen v raziskavi primerjamo s prej uporabljenimi globokimi generativnimi modeli, na primer VAE modeli, opazimo, da imajo ustvarjeni promotorji boljšo mero uspešnosti kot je porazdelitev 6-mernih delov zaporedji, frekvenca pojavnosti nukleotidov na posameznem mestu v zaporedju in soodvisnosti v frekvenci pojavnosti k-merov. Poleg tega je učni proces bolj stabilen, kar odraža konsistentna konvergenca funkcije izgube ter odsotnost večjih nihanj v uspešnosti modela tekom učenja. Z dodatkom transformerja pa prekaša konvolucijske nevronske mreže v tem, da ta iz podatkov izlušči pomembne lastnosti zaporedja in ima boljšo napovedno uspešnost. Primerjali so uspešnost difuzijskih in VAE modelov. Rezulatat VAE uspešno oponaša naravne promotorje na mestih od -10 do -35, drugje v zaporedju pa je prisoten šum. Prav tako je šum prisoten pri pojavnosti k-merov. Razlog za šum je prekomerno prileganje podatkom. Rezultati difuzijskega model torej natančneje oponašajo biološke značilnosti naravnih promotorjev.

Izboljšanje uspešnosti napovedi moči promotorja

Potem, ko je difuzijski model ustvaril sintetične promotorje, so nadaljno naučili transformer, da bi ta pravilno napovedal njihovo moč. Najprej so moč napovedali s konvolucijsko nevronsko mrežo, ki je v primerjavi z vrednostimi dRNA-seq dosegel PCC vrednost 0,25. Ta vrednost nakazuje na zmerno soodvisnost med napovedamo močjo in dejansko vrednostjo preizkusne množice. Z difuzijskim modelom so dvignili PCC vrednost na 0,295. Z uvajanjem točkovnih mutacij so preizkušali vpliv sprememb nukleotidov na posameznem mestu v zaporedju. Do spremembe pri moči promotorja je prišlo pri vseh mutacijah, pričakovano pa je do največje razlike prišlo pri mutacijah okoli mest -10 in -35 [1].

Zaključek

Odkrivanje novih, močnejših promotorjev prinaša prednosti kot so izboljšana učinkovitost sinteze genov, krajši biološki procesi in zmanjšanje cene bioproizvodnje. Komplekost trenutnih metod generativnih modelov omejuje razvoj področja. Prav tako je pomembno dejstvo, da ne razumemo popolnoma, kako obdelujejo biološke podatke. Raziskava uporabi nov pristop k ustvarjanju sintetičnih promotorjev z boljšo uspešnostjo, kar spodbuja razvoj na tem področju sintezne biologije [1].

Literatura

[1] X. Lei, X. Wang, G. Chen, C. Liang, Q. Li, H. Jiang, W. Xiong: Combining diffusion and transformer models for enhanced promoter synthesis and strength prediction in deep learning. mSystems 2025, e0018325. [2] C. Janiesch, P. Zschech, K. Heinrich: Machine learning and deep learning. Electronic Markets 2021, 31, 685–695. [3] E. Guresen, G. Kayakutlu: Definition of artificial neural networks with comparison to other networks. Procedia Comput Sci 2011, 3, 426–433. [4] T. B. Farver: Concepts of Normality in Clinical Biochemistry. Clinical Biochemistry of Domestic Animals, Sixth Edition 2008, 1–25. [5] C. M. Sharma, J. Vogel: Differential RNA-seq: the approach behind and the biological insight gained. Curr Opin Microbiol 2014, 19, 97–105.