Načrtovanje genetskih programov v sesalskih celicah z uporabo računalniskega orodja GCAD
Izhodiščni članek: GCAD: A Computational Framework for Mammalian Genetic Program Computer-Aided Design
Uvod
Genetski programi v obliki bioloških vezij lahko povzročijo, da biološki sistemi (najpogosteje celice) opravljajo različne specifične biološke naloge. Nabor bioloških delov, ki se lahko uporabijo za konstrukcijo bioloških vezij, se eksponentno veča. Zaradi naraščajoče količine možnih bioloških delov in posledične nepreglednosti za ročno optimizacijo (sploh kompleksnejših) bioloških vezij se povečuje potreba po računalniških modelih in algoritmih, ki bi raziskovalcem pomagali pri zasnovi optimalnih bioloških vezij [1].
Avtorji članka izpostavljajo kritično pomanjkanje zanesljivih orodij za načrtovanje bioloških delov, specifičnih za sesalske celice, še posebej pa pomanjkanje orodij, ki bi učinkovito upoštevale populacijske razlike sesalskih celic v količini privzetih vektorjev [1]. V ta namen so avtorji članka razvili računalniško ogrodje GCAD (angl. Genetic program COmputer-Aided Design), ki temelji na knjižnici COMET (angl. COmposable Mammalian Elements of Transcription). COMET vsebuje nabor sintetičnih transkripcijskih faktorjev (synTF) in nabor računalniških orodij za načrtovanje funkcionalnih vezij [2]. GCAD uporabniku omogoča, da definira želeni biološki cilj, algoritem pa nato samostojno poišče optimalno topologijo in nabor delov, ki to funkcijo najbolje realizirajo. V sklopu članka so avtorji uporabili GCAD za načrtovanje bioloških vezij naraščajočih kompleksnosti, nato pa so izbrana vezja eksperimentalno validirali [1].
Iskanje funkcionalnih topologij
V kontekstu sintezne biologije funkcionalna topologija pomeni sestavo delujočega biološkega vezja, torej razporeditev bioloških delov in prisotnost modulatorjev izražanja. Ogrodje GCAD za iskanje optimalnih funkcionalnih topologij predstavlja genetski algoritem (GA), ki je hevristična metoda za iskanje optimalnih rešitev v ogromnem iskalnem prostoru. Genetski algoritem pa ni edina hevristična metoda. V nasprotju z determinističnimi metodami, kot je npr. mešano-številsko nelinearno programiranje [3], hevristične metode, kot npr. simulirano kaljenje (angl. simulated annealing) in genetski algoritem, temeljijo na principu iskanju zadovoljivih rešitev zaradi omejenosti metode ali zaradi premajhne dostopne računske moči. GCAD uporablja GA za iterativno izboljševanje populacije topologij. V vsakem koraku genetski algoritem konstruira generacijo potencialno funkcionalnih topologij, za katere izračuna funkcijo prilagojenosti (angl. fitness function) preko reševanja sistema navadnih diferencialnih enačb (ODE). Te enačbe opisujejo časovno kinetiko transkripcije, translacije in degradacije posameznih komponent, pri čemer uporabljajo parametre, pridobljene iz knjižnice COMET [2]. Nato algoritem izbere najboljše topologije, vanje vnese naključne mutacije (sprememba bioloških delov ali drugih parametrov) in konstruira naslednjo generacijo topologij, ki so bolj optimalne kot prejšnja. Proces se ponavlja, dokler algoritem ne doseže konvergence funkcije prilagojenosti ali vnaprej določenega števila generacij, in takrat se izvajanje zaključi. Ogrodje GCAD sicer za načrtovanje optimalnih topologij uporablja tudi druge statistične in računske metode: vzorčenje z metodo latinske hiperkocke (metoda generiranja parametrov, ki zagotavlja enakomerno pokritost eksperimentalnega prostora), globalna analiza občutljivosti (postopek, s katerim določimo, kako variacije vhodnih podatkov vplivajo na končni rezultat) in uporaba teorije grafov (preslikava konstruirane topologije biološkega vezja v obliko matrike, ki predstavlja osnovo za generiranje ustreznega sistema ODE za posamezno vezje) [1].
Načrtovanje bioloških vezij z uporabo GCAD
Proces načrtovanja z uporabo GCAD zahteva dva ključna vhodna elementa: zaželeni cilj oz. zaželeno biološko funkcijo in podatkovna zbirka okarakteriziranih bioloških delov za uporabo v sesalskih celicah iz nabora COMET. COMET poleg podatkov o vplivu transkripcijskih faktorjev in promotorjev na izražanje vsebuje tudi informacije o tem, kako naj jih GCAD obravnava za konstrukcijo optimalnih topologij [1,2]. Transkripcijski faktorji se delijo na aktivatorje (synTF-A) in represorje (synTF-R). Ti faktorji so ortogonalni, kar pomeni, da minimalno vplivajo na fiziologijo gostiteljske celice [1].
Raziskava je obsegala načrtovanje optimalnih bioloških vezij treh stopenj kompleksnosti: načrtovanje ojačevalcev (angl. Amplifier, podpoglavje 3.1), pripravljalnikov signala (angl. Signal Conditioner, podpoglavje 3.2) in generatorjev pulza (angl. Pulse Generator, podpoglavje 3.3). V primeru večobjektive optimizacije (več želenih doseženih kriterijev) so se avtorji osredotočili na iskanje Pareto-optimalnih rešitev [1]. Pareto optimalnost predstavlja nabor rešitev, kjer izboljšanje enega kriterija povzroči poslabšanje drugega. Posamezni kriteriji niso optimizirani, vendar algoritem smatra, da je optimizirana njihova kombinacija [4].
Načrtovanje ojačevalcev
Ojačevalci so biološka vezja, katerih cilj je doseči čim večje izražanje nekega gena. V tem sklopu so avtorji določili, da je promotor v vsakem trenutku bodisi aktiven (stanje ON) ali neaktiven (stanje OFF) in da je izražanje v primeru neaktivnega promotorja enako nič. V tem sklopu so iz COMET-a uporabili 12 izbranih synTF-A, 12 izbranih synTF-R (oboje v različnih količinah do 75ng) in 156 promotorjev. Iskalni prostor je tako obsegal več kot 1.6 milijona potencialnih topologij [1].
Avtorji so definirali parameter ON(rel), ki predstavlja razmerje med maksimalno ravnjo izražanja v prisotnosti synTF in osnovno ravnjo izražanja ob aktiviranem promotorju brez prisotnosti synTF. Simulacijo so najprej pognali na modelu ene celice, nato pa še na modelu 20 celic, s katerim so želeli preučiti vpliv populacijskih razlik v količini privzetega vektorja, ki vsebuje biološko vezje. V obeh primerih so uporabili 10 različnih začetnih naključnih kombinacij vhodnih parametrov (angl. seeds). Pri obeh simulacijah so za vse kombinacije vhodnih parametrov ugotovili, da topologije z najvišjim ON(rel) (okoli 63,5) vključujejo najmočnejše aktivatorje iz knjižnice: synTF-A2, A6 in A7. Dejstvo, da 20-celični model predlaga skoraj identične topologije kot enocelični model nakazuje na to, da je ogrodje GCAD pri uporabi močnih synTF-A za konstrukcijo aktivatorjev odporno na populacijski šum [1].
Načrtovanje pripravljalnikov signala
Pripravljalniki signala so kompleksnejša vezja, pri konstrukciji katerih upoštevamo, da izražanje gena ob neaktivnem promotorju ni enaka nič, kar zaradi puščanja promotorjev za realne sisteme skoraj vedno velja [1,5]. Avtorji so v ta namen vpeljali parameter FI(rel), ki predstavlja razmerje med izražanjem reporterskega gena ob aktivnem in neaktivnem promotorju ob odsotnosti synTF. Cilj pripravljalnikov signala je konstruirati vezje z čim višjo vrednostjo tako ON(rel) kot tudi FI(rel) [1].
Pri načrtovanju teh vezij GCAD ni dosegel konvergence k enotni optimalni rešitvi ne pri enoceličnem ne pri 20-celičnem modelu. Avtorji so to želeli odpraviti z uporabo metodologije odzivnih površin (multiobjektivni statistični pristop za optimizacijo parametrov), vendar kljub temu rezultati niso odražali sposobnosti GCAD za načrtovane optimalnih topologij bioloških vezij. Zaradi nezanesljivosti simulacijskih napovedi se avtorji niso odločili za eksperimentalno validacijo pripravljalnikov signala [1].
Načrtovanje generatorjev pulza
Generatorji pulza so vezja, ki ob stalnem vhodnem signalu proizvedejo le prehoden vrh izražanja; pri njihovem načrtovanju tako vpeljemo še časovno komponento. Optimizacijska cilja načrtovanja generatorjev pulza sta bila maksimizacija višine vrha (parameter PROM(ref)) in minimizacija časa do dosega vrha (parameter T(pulz)). Rezultati simulacij tako enoceličnega kot 20-celičnega modela so bili v tem sklopu še posebej zanimivi, saj je GCAD predlagal topologije, ki so vključevale synTF-A6 v kombinaciji z nekaterimi synTF-R [1].
Težava, na katero so naleteli avtorji, je bila neskladnost s prejšnjimi študijami COMET, ki so uporabljale 200-celični model in teh topologij niso prepoznale kot generatorje pulza [2]. Ob natančnejšem pregledu pa so avtorji GCAD ugotovili, da so v 20-celičnem modelu določene celice izkazovale generiranje pulza, vendar se je ta signal v večjem, 200-celičnem modelu, zaradi statističnega povprečenja izgubil [1].
Eksperimentalna validacija konstruiranih vezij
Delovanje izbranih ojačevalcev signala in generatorjev pulza so v sklopu raziskave nato želeli eksperimentalno validirati. Validacija je bila izvedena v celični liniji HEK293FT. Plazmide so iz karakteriziranih bioloških delov konstruirali z metodo Golden Gate. Transfekcijo sesalskih celic so izvedli z metodo s kalcijevim fosfatom [1].
Ojačevalci signala
Avtorji so želeli eksperimentalno validirati tako izbrane optimalne topologije vezij (ON(rel) > 63,1) kot tudi nekatere suboptimalne (ON(rel) okoli 40). Eksperimentalni rezultati so v vseh primerih potrdili ojačenje signala (ON(rel) > 1 za vsa izbrana vezja), vendar so bile absolutne vrednosti v vseh primerih manjše od 10 in tako bistveno nižje od predvidenih. Avtorji so identificirali dva glavna razloga za to neskladje. Prvi je višje dejansko bazalno izražanje promotorjev v celicah, kar zmanjša relativno razmerje ojačenja [1]. Drugi razlog pa je pojavitev utišanje transkripcije (angl. transcription squelching), ki je znan biološki pojav [1,6].
Generatorji pulza
Pri generatorjih pulza so bili eksperimentalni rezultati zelo podobni rezultatom simulacij. Zaradi zasnove eksperimenta so avtorji za validacijo izbrali vezja, za katere je bil predvideni T(pulz) med 10 in 24 ur. Prav tako so z uporabo pretočne citometrije in spremljanjem fluorescenčnega markerja EBFP uspeli populacijo celic razdeliti na celice z nizkim in visokim vnosom plazmidne DNA. Pričakovano se je izkazalo, da so vrhovi izražanja pri delu populacije, ki prevzame več DNA, višji. Ugotovili pa so tudi, da vrh izražanja (T(pulz)) ne glede na količino privzete DNA nastopi ob predvidenem času, s čimer so dokazali ustreznost GCAD za načrtovanje generatorjev pulza klub neskladju z 200-celičnim modelom [1].
Zaključek
GCAD predstavlja pomemben mejnik za avtomatizirano načrtovanje funkcionalnih sesalskih bioloških vezij. Kljub nekaterim odkritim pomanjkljivostim, predvsem pri načrtovanju pripravljalnikov signala, so rezultati vzpodbudni. Integracija genetskih algoritmov z modeliranjem in statističnim vzorčenjem heterogenosti omogoča tudi identifikacijo neintuitivnih, a funkcionalnih topologij, še posebej pri generatorjih pulza. Avtorji predlagajo nekatere načine za prihodnji razvoj, vendar izpostavljajo da je to izven obsega raziskave. Kljub vsem omejitvam GCAD postavlja temelje za razvoj zanesljivih orodij za načrtovanje sesalskih bioloških vezij [1].
Literatura
[1] K. S. Dreyer, A. V. Nguyen, G. G. Bora, L. E. Redus, H. I. Edelstein, J. J. Garcia, E. Anastasia, K. E. Dray, J. N. Leonard, N. M. Mangan: GCAD: A Computational Framework for Mammalian Genetic Program Computer-Aided Design. ACS Synth. Biol. 2026, 15, 1033–1052. DOI: 10.1021/acssynbio.5c00670
[2] P. S. Donahue, J. W. Draut, J. J. Muldoon, H. I. Edelstein, N. Bagheri, J. N. Leonard: The COMET toolkit for composing customizable genetic programs in mammalian cells. Nat Commun 2020, 11, 779. DOI: 10.1038/s41467-019-14147-5
[3] L. Huynh, J. Kececioglu, M. Köppe, I. Tagkopoulos: Automatic Design of Synthetic Gene Circuits through Mixed Integer Non-linear Programming. PLOS ONE 2012, 7, e35529. DOI: 10.1371/journal.pone.0035529
[4] K.-H. Chang: Chapter 19: Multiobjective Optimization and Advenced Topics. V: e-Design: Computer-Aided Engineering Design, 1. izd., Academic Press 2015, str. 1105–1173.
[5] L. Huang, Z. Yuan, P. Liu, T. Zhou: Effects of promoter leakage on dynamics of gene expression. BMC Syst Biol 2015, 9, 16. DOI: 10.1186/s12918-015-0157-z
[6] S. Natesan, V. M. Rivera, E. Molinari, M. Gilman: Transcriptional squelching re-examined. Nature 1997, 390, 349–350. DOI: 10.1038/37019