Kódolás adatgyűjtési projekt

A Kódolás, a DNS-elemek teljes enciklopédia formájában, 2003-ban indult együttműködési adatgyűjtési projekt, amelynek célja az emberi genom összes funkcionális elemének felsorolása volt. Az ENCODE-t az Egyesült Államok Nemzeti Humán Genom Kutató Intézetének (NHGRI) kutatói fejlesztették ki a Human Genome Project (HGP; 1990–2003) folytatásaként, amely hatalmas mennyiségű DNS-szekvencia-adatot állított elő, de nem végzett átfogó elemzést. specifikus genomiális elemek.

Az ENCODE tudósai által összegyűjtött információt úgy tervezték, hogy egyfajta útmutatóként szolgáljon, megkönnyítve az emberi genom azon alkotóelemeinek tanulmányozását, amelyek hozzájárulnak a sejtek és szövetek működéséhez, és amelyek ezért kihatással vannak az emberi egészségre és a betegségre. Fontos betekintést nyújtott az emberi evolúció és a genetika tanulmányozására is, végül olyan adatokat generálva, amelyek nemcsak arra utaltak, hogy a genom hatalmas régiói, amelyeket egyszer nem működőképesnek tekintettek, valóban funkcionálisan fontosak, hanem megkérdőjelezték a gén alapfogalmát.

Funkcionális elemek keresése

Az emberi genom funkcionális elemei, az ENCODE projektben meghatározottak szerint, tartalmazzák azokat a DNS-szegmenseket, amelyek a transzkripciós folyamat során RNS-molekulákat kódolnak, amelyek megkötik a transzkripciós faktorokként ismert szabályozó fehérjéket, vagy amelyek metilcsoportokhoz kötőhelyekkel rendelkeznek, amelyek képesek a kromatin szerkezetének módosítása (a kompakt DNS-protein szálak, amelyek kondenzálódnak, hogy kromoszómákat képezzenek). Ezek az elemek a genomiális szabályozó hálózathoz (vagy regulomhoz) tartoznak, amelynek egyik jellemzője az RNS transzkriptumok előállítása olyan génekből, amelyek információt hordoznak a fehérjék előállításához. A fehérjék végül formákat adnak a sejteknek és szöveteknek, és szabályozzák az élet szempontjából nélkülözhetetlen kémiai folyamatokat.

Amikor a HGP 2003-ban lezárult, nem volt világos, hogy az emberi genom nagy részét aktívan átírják-e protein-kódoló RNS-be, és az RNS-átírások komplexitását és funkcióját nem vizsgálták széles körben. Hasonlóképpen, más genomi tulajdonságok funkcionális relevanciája, kezdve a génexpresszió és a kromatinban lévő hisztonfehérjék módosítása közötti kapcsolatoktól az pszeudogének transzkripciós fontosságáig (az emlékezetes DNS-szekvenciák, amelyekről azt gondolják, hogy az evolúció eredményeként már élettelenné váltak). Ennek eredményeként szisztematikus megközelítésre volt szükség a funkcionális elemek elhelyezkedésének azonosításához és feltérképezéséhez, valamint az elemek fizikai kapcsolatának jellemzéséhez a regulomban. Ezeket a célokat az ENCODE tudósok fogadták el, és teljesítésük várhatóan a gének és aktivitásuk ellenőrzésének mechanizmusainak alaposabb megértéséhez vezetne.

Az ENCODE projekt felépítése

Az ENCODE két szakaszra oszlik: egy kísérleti és a technológia-fejlesztési szakaszra és a gyártási szakaszra. A kísérleti elem egy olyan kísérleti és számítási módszer kiválasztására összpontosított, amelyet az ENCODE kutatói felhasználhatnának az emberi genomot alkotó körülbelül három milliárd bázispár funkcionális elemeinek azonosítására. A hatékonyság és a hatékonyság összehasonlításának megkönnyítése érdekében különféle módszereket teszteltek ugyanazon célrégiókon, összesen 30 millió bázispárra (30 MB; az emberi genom kb. 1% -a), különféle típusú emberi sejtekben. A feltárt módszerek között szerepelnek bizonyos következő generációs DNS-szekvenálási technológiák és a genomiális csempe-tömbök (eszközök az egész tulajdonságokkal rendelkező régiók teljes genomjának szkennelésére) és más számítási módszerek (például a kromatin szerkezet elemzése). Az ENCODE technológiafejlesztési elemének alapját képezte a nagy teljesítményű (automatizált) kapacitású adatgyűjtésre képes technológiák finomítása. A leghasznosabbnak ítélt módszereket ezután méretezték a teljes genom elemzéséhez.

Az ENCODE teljes körű előállítási szakasza, amelyben a tudósok a funkcionális elemek keresését az emberi genom fennmaradó 99 százalékára terjesztették ki, 2007-ben kezdődött és 2012-ben fejeződött be. Több mint 400 tudós - a legtöbbet az NHGRI finanszírozásával - vett részt a teljes skála. Ezek a kutatók képezték az ENCODE konzorcium nagy részét, és az Egyesült Államokban működő intézményeket, ahol kutatásaikat elvégezték, ENCODE termelési központoknak nevezték ki. Az ENCODE konzorcium amellett, hogy elvégezte a funkcionális elemek leltárának készítését, kidolgozott bizonyos munkaügyi irányelveket, például a kijelölt sejtvonalak, valamint a szabványosított adatelemzési és adatszolgáltatási eszközök használatát, amelyek alapvető fontosságúak a a különböző részt vevő laboratóriumok által generált adatok.

Az ENCODE termelési központokat egy adatkoordinációs központ (DCC) támogatta, amely a kaliforniai egyetemen található, Santa Cruzban. A DCC volt a projekt fő adattárosa, közös portált biztosított a tanulmány résztvevőinek, amelyen keresztül adatokat szolgáltathattak, a kísérletekhez és az adatkészletekhez kapcsolódó metaadatokat rögzíthettek, valamint az adat-szabványosítási és ellenőrzési protokollokat dolgoztak ki. A DCC útmutatót dolgozott ki annak érdekében, hogy segítse a kutatókat, akik érdeklődtek az adatok felhasználása után, miután azokat nyilvánosan elérhetővé tették. Később a Massachusettsi Egyetemi Orvosiskola székhelyű, különálló Adatelemző Központot (DAC) bővítették a projekttel. A DAC segített az ENCODE adatok integráns elemzésében.

A Kódolás leltár

Az ENCODE kísérleti szakaszának kezdeti megállapításait 2007-ben tették közzé. Bár a projekt e szakasza elsősorban a 30 MB célszekvenciában található funkcionális elemek felsorolására irányult, az adatkészletek integrálásának és elemzésének módszereinek meghatározása érdekes megfigyelésekhez, különös tekintettel a gének szerkezetére és viselkedésére. E korai következtetéseket alátámasztják az ENCODE gyártási szakaszában gyűjtött kiegészítő adatok, amelyek eredményeit 2012-ben tették közzé. A termelési szakasz eredményei megújították a vitát a nem kódoló DNS funkcionális jelentőségéről.

A gén újradefiniálása

A 2007-ben kiadott ENCODE adatok rámutattak, hogy az emberi genomot nagymértékben lefedik RNS-átírások, amelyek közül sokat alternatív splicing útján állítanak elő (egy primer átirat szerkesztése, amelynek eredményeként a fehérje előállítása eltér attól, amelyet a transzkriptum általában kódol). Az eredmények megerősítették a korábbi jelentéseket, amelyekben a tudósok azt állították, hogy az emberi genom hatalmas transzkripciós hálózatokból áll. Ezeknek a hálózatoknak a létezése azonban elmosta a hagyományos elképzeléseket a gének és az intergenikus régiók közötti határokról (a gének közötti résekről), és ezzel megkérdőjelezi a gén, mint diszkrét fehérjekódoló egység fogalmát. A koncepciót 2012-ben ismét megkérdőjelezték, amikor az ENCODE tudósok beszámoltak arról, hogy az emberi genom 75% -át fedezheti az elsődleges RNS-átirat. Az RNS kiterjedt lefedése jelentős átfedést jelentett a szomszédos gének között.

A nem kódoló DNS funkcionális szerepe

A termelési szakasz adatai rávilágítottak arra, hogy az emberi genom 80% -a biokémiailag funkcionális az RNS- vagy kromatin-aktivitásokkal való kapcsolat eredményeként. Mivel az emberi genom nagy része nem kódoló DNS-ből áll (amit korábban némelyiknek „szemét” DNS-nek tartottak), az adatok arra utaltak, hogy ezek a régiók, amelyek nem termelnek fehérjét, és ezért feltételezték, hogy nem működnek, valójában funkcionálisan vannak ide vonatkozó. Bár az ENCODE projekten kívüli kutatók korábban ugyanezen következtetésre jutottak, az ENCODE adatok hangsúlyozták annak jelentőségét. Az önállóan és az ENCODE részeként végzett kutatás rámutatott, hogy a nem kódoló régiók fontos szerepet játszhatnak a fehérjetermelés szabályozásában, valamint a genom szerkezeti integritásának megőrzésében.