DATA-DRIVEN COMPUTATIONAL APPROACHES TO UNRAVEL AGE/SEX BIASES & CROSS-SPECIES ANALOGS OF COMPLEX TRAITS AND DISEASES By Kayla Johnson A DISSERTATION Submitted to Michigan State University in partial fulfillment of the requirements for the degree of Biochemistry and Molecular Biology – Doctor of Philosophy Computational Mathematics, Science, and Engineering – Dual Major 2022 AB AC C . , . A , , . . I - . , , / - . I .C , . This dissertation is dedicated to the inq isiti e little girl I sed to be, ho had bigger dreams than I co ld hope to li e p to b t o ld ha e been so pro d to be a scientist. Also to m parents, Carrie and Brogan Johnson, and m siblings, T ler, Paige and Solei, for being s pporti e and s ch a big part of the person I t rned o t to be. Finall , this dissertation is dedicated to m h sband, Rile Mattes, ho has gro n ith me, cheered me on, and been m best friend since e met. iii ACK LEDGE E I d i e ha a d ac edge he e e h he ed de e e a a cie i e ae e f g ad a e ch a Ce a Michiga U i e i , D. Ai Sha aa dD.D ga S a , a d a Na S h LLC, D . D adT a ia, D . Da id Hed a d a d Li da Ni . I d a i e ha c i ee e be , D . A Ra , Jia g Wa g, Da id A i, a d Cha e H g ae , f hei i e ea ch idea , fe i a de e e i ie , a d i d i he a ec f b ai i g a PhD. I ha D . Shi -Ha Shi f c ib i g idea a d feedbac c ehe i e a a d D . Ja a i Ra i f e hi a d h gh PhD. The h d ed f ab ha d ce da a f a e ei e e ha e a c ib ed ig ifica hi .I d i e ha a a a d e e e be f he K i h a ab f hei he , feedbac , a d a a Ic e ed hi . S ecifica I a ha D . Ch i Ma c f hi he he I a ea i g c de, ffe be a di g b a d, a d c i ed h gh e i e di e ai ; D . S e ha ie Hic e f ha i g he e e i ei e ei e a , i i g feedbac , a d ea i ce he i ed he ab; D . Sa ah Pe ci a f he a he a icia e ec i e a d e c age e ; Na Ha i f hi he ih aa e c i g a d g ea a ; Re Li f hi h gh f c e a d ; A e McKi f hi i i g feedbac a d i ec e ; a d Ha Y a f hi e h ia i c i i g c e e i e . Fi a , I d i e ecifica ha ad i ,D.A Ki h a ,f a a be ie i g i ee e he I d b ed e f a d b i di g a fa a ic ab f . i ABLE F C N EN CHAP ER 1: IN ROD C ION .. ...1 REFERENCE .. ... . .11 CHAP ER 2: ROB NORMALI A ION AND RAN FORMA ION ECHNIQ E FOR CON R C ING GENE COE PRE ION NE ORK FROM RNA- EQ DA A .... 15 REFERENCE .. .60 APPENDI .. ... .65 CHAP ER 3: LE ERAGING P BLIC RAN CRIP OME DA A I H MACHINE LEARNING O INFER PAN-BOD AGE- AND E - PECIFIC MOLEC LAR PHENOMENA .....87 REFERENCE .. ...122 APPENDI .. ... ...129 CHAP ER 4: DI CO ERING ANALOGO GENE , PHENO PE , AND CONDI ION ACRO H MAN AND MODEL PECIE ING MACHINE LEARNING ... .154 REFERENCE .. ...174 CHAP ER 5: MMAR , REFLEC ION , LIMI A ION , AND F RE DIREC ION .......177 REFERENCE .. ......184 CHA E 1: D C O e e Recen la ge- cale die ha e d c men ed h nd ed f gene ic a ian and hen e a cia ed ih ai di ea e and c m le ai in an eff gain a la i n-le el nde anding f h man heal h and di ea e [1 5]. The e a cia i n c n in e be ca al ged, e ealing m e cha m in kn ledge f he ela i n hi be een gen mic a ia i n, bi l gical a h a , i e h i l g , and ai a ia i n. Thi kn ledge i c i ical f im ing abili diagn e and ea c m le di ea e . In addi i n, a maj me h d f d ing a ic la face f h man di ea e i h gh he e f m del gani m , b an fe ing kn ledge gleaned f m he e gani m back h man bi l gical in igh i f en challenging [6]. The g al f hi PhD e ea ch i ide in igh in he gen mic igna e , ah a , and in e ac i n ha cha ac e i e he age/ e bia e and c - ecie anal g f c m le di ea e and ai . Thi cha e ill ide he nece a backg nd and c n e f he e e ea ch g al , f ll ed b he e i n and bjec i e f he d , and c ncl ding i h he ignificance. Bac g d In e e in eci i n medicine ha a ed e he a decade [1,7,8]. P eci i n medicine i e a ach di ea e e en i n and ea men in a a ha ake in acc n indi id al a iabili in gene ic backg nd, en i nmen al fac , and life le ch ice i h he g al f iding be e heal h c me f all indi id al . De i e hi inc ea ed in e e , e ill lack a la i n-le el nde anding f cell la mechani m and gene ic nde inning f m c m le di ea e and ai . Wi h a 1 c e e e a e de ea e ea be ee e c a a , e e a e , e e e ac a d a a , ce a e a d ca c , e ac e b ec ed c e a a ea a d ea e e e a d ea e . A e a d e ae b ca a ab e a a e bee ed a a e c de ce, e e a , a d ea e e e c e a a d d ea e [9 11], e a e c ea a e a d e e ce a e a d d ea e a e ec a e e . T a e a e a e a d e e ec e be ca ed ba c a d c ca de [12,13]. Se a bee e ec a e ec ed, d e e e a ac .A d e ea 1970 e ab ed a c a e e a a e c dd e b d de [14]. A a e e a d e e ce d ead e d c a a da a, c e a e c e a d e eb c e aea a e e ea c [15]. T e a e c ded b e 1977 F da dD Ad a (FDA) c ec e d a e c dbea e a be e c ded P a e I a d II d a .T c a e e ed 1993, e e FDA e ed da a a a c de e de e ec [16]. H e e, e Na a I e Hea dd a e e e e aea a ec ca de 2014 [12]. T a a e ea , P e de a a dc ea e e ea ed a e a-a a a 300 de ce a e ea c b ec a ed da a c ec ed e ae ce d d a a e a da a ae a d e e e e ed e a a , e a de ee c c e [17]. A - d 2016 e ca ed e a e a a de [18]. T e e c c a e a d de d e e a 2 h e a e a fe a e be i a i a e ea ch a e e i he igh di ec i ,b he e i i be d e ec e ea f eg ec . A h gh age a a bi gica a iab e ha ffe ed a e a ic e c i a e ,i i i de c ide ed i ba ic die a d c i ica ia [13]. F i a ce, de ad ae a de e e e ed i c i ica d g ia i i e f hei e e e e ai i c i f e ci i d g [19], a d ad e ce a d g ad (age 15-39) ae e i e a ici a e i ca ce c i ica ia c a ed ge chi d e a d de ad [20]. I addi i he be ha age a d e a e b h hi ica de died bi gica fac hei , a die acc f e he he , b acc i gf e ca ie d a i c ee de a di g. A e a ei ha e ha e a e i cide ce f e ha e bef e e a e, b af e ad e a e ce f e i highe i e [21]. A i i a e d i b e ed f a h a, he e e a e ce i highe i b ha gi a chi d e , b ec i e ha e i ad h d [22]. Ne die a e begi i g c e e f he ge e ic ba i ha de ie age a d e diffe e ce i ea e e e, i e f ci , he e , a d di ea e [11,23 30], b e da a i e gh if add e a di g e i ab fe a e a d a e bi g ac he e i e ife a . We a eed e e age he h d ed f h a d f e i i g ge e e e i fi e ha ha e bee ge e a ed e he a 25 ea a d de i ed i b ic e i ie [31 34]. The e a e ca e ge e e e i de h a d f c di i , i c di g diffe e age f di ea e a d de e e . I ha a ead bee e e ab i hed b e be i g [35 37] a d he g [38,39] ha i eg a i g a ge- ca e - ic da a, 3 pa ic la l an c ip ome , and combining hem i h he ca e ed p io kno ledge ha e do ha e, can lead o majo b eak h o gh in delinea ing gene f nc ion and in e ac ion in pecific biological con e . I he efo e and o ea on ha he e da a can al o be le e aged o p o ide comp ehen i e f ame o k ha ill help in gaining in igh in o age- and e - pecific molec la pa h a in a io i e a ell. The f ame o k c ea ed b comp a ional me hod ha can e ma i e amo n of an c ip omic da a and limi ed p io kno ledge p o ide al able ool fo h po he i gene a ion and d ing biological p oce e , b he e h po he e m be e pe imen all e ed fo alida ion. Man of he e e pe imen nece a o nde and cell la p oce e and gene ic in e ac ion d i ing he e p e ion of di ea e a e impo ible o pe fo m in h man , o em e model o gani m o f nc ionall cha ac e i e he e in e ac ion in i o. The ideal in i o model fo d ing a pa ic la face of h man di ea e ho ld, fo he mo pa , eplica e a h man pheno pe and ha e he gene ic nde pinning and mechani m of ac ion. Ho e e , choo ing he be pheno pe in a model o gani m o d an gi en h man di ea e o ai i diffic l d e o o incomple e kno ledge of he ela ion hip be een pheno pe , gene , and condi ion ac o pecie [40,41]. R ac The inc ea ed effo o ca alog genomic a ian and pheno pe a ocia ed ih a ide a ie of comple ai and di ea e offe an oppo ni o e hi info ma ion o info m comp a ional model . Membe of o g o p [35,42] and o he [43,44] ha e ecen l de eloped app oache fo combining la ge genomic da a collec ion ih e i ing f nc ional a ocia ion o b idge ome of he gap in o nde anding of ho 4 ge e c a a , b g ca a a , e f c , a d a a a a e e a ed eac e. K a e a de a ed e a e f e e ag g c a a de a d a ge b c a c e da a f c e - ec f c b g b g e f e- ec f c ge e e ac e ed c e ca d da e ge e , ba - ec f c a a , a d de e e a age e a ed a ec d de [42]. T d ed a g a e- ec f c ge e e ac e f e e affec ed b e d de e ab de f e ee a ge e a d a a f f e . S e f e e ed c a e a ead bee e e e a a da ed. If e- ec f c ab e e a ce e g e a e ab e de e f c a a de , e d be ab e f e b e acc ac b c a g e b g ca c e c a age a d e , c a e e be c c a fac f e a e ce a d a fe a f d ea e a e a ea e e e. H e e, a ge b ac e a d e a f b d g age- a d e - ec f c ge e e ac e d e e fac f e ce ce a ce e a d e ge e c e g fc e d ea e / a . T ef b ac e a e G ee e, K a ,W g a d ea e e ab e eg a e a c c da a b da e- ec f c ge e e ac e , e dd g c a a da a, a RNA- e da a [35]. S ce e e d a b ed, e a f RNA- e da a be g de ed b c e e a e e a c ea ed. A f Oc be 2022, e ARCHS4 [45] e c a e 620,000 a RNA- e a e . T da a c c e - ec f c f a a d be de ed. T e a d g e h ca e be b id 5 c e e i e f he e ge e RNA- e da a ha c e f a e ei e ge e a ed b i di id a ab , i h a a ge f e e ci g de h a d a i ie , a e a high- ai c i da a? The e c e e i n ne k can hen be in eg a ed in high-fideli gene in e ac i n ne k i h machine lea ning in he ame a G eene, K i hnan, W ng and c lleag e b il hei i e- ecific ne k . Figure 1.1. Missing metadata. P i f a e ( -a i ) f eigh aj h a ge e-e e i af ( -a i ) ha ack i f ai ab e age. The ec nd b acle i ha ideall e ld em l all a ailable an c i me f he m acc a e e l ing gene in e ac i n ne k, b he a maj i f b h mic a a and RNA- e am le in blic e i ie a e mi ing inf ma i n ab b h age and e (F . 1.1). Lee and c lleag e ha e dem n a ed ha i i ible edic i e f igin f m gene e e i n da a [36], and e i i e ea edic 6 .S , ca age age g be edic ed i g l he ge e e e i al e ? W , , - - .F , , , i.e. . T , ha d he e ge e ig a e ell ab age- a d e - ecific bi l gical c e ? W - , , , , . P .T , , , , [33,45]. T . A , . A , , , .S , , ca e ili e ma i e blic a ci mic da a ide if a al g am le , a d he ef e bi l gical c e a d he e i m del ecie 7 ha a e e i e h a ai a d di ea e ? Ac e a d e e ab f d e e c/e e e a c d a c e ac c e a a d d ea e a ec a ec a , ab a ae f c a e de a bac a . P e a ac e f a e a ed e e ac ec e e e a c a [46] f e c de c , c de e be f a ed e e a ae a a ed eac e e [47]. Se a c a e d e e e e c c e f e a a d e e c ee b de e d e e de c f e e e, e e d a e e e e a fa a ca e d e a a ed e f e e e a c a ed a e a e e. T ec e e e a , e de a e ed d ec ac a e ac ec e ba ed e e e f e [48 51]. H e e, a e e e e a ae a ed ac e , a , a d d ea e , e e e d d ace e a c e - ec f c ec a a . T e a ea f e ed ac e ea (ML) a e c fa e f ac be . S ec f ca , b a c e f a e c e ( a , d ea e) b a a c e f e c e a a c a , ML-ba ed e d ca a a ca ae c e - ec f c e e e e a e, c ca e be ed f d a e de a ee a e ac e, e eb ec a ca -e ae de e . R ac a I C a e 2, I add e e e : h ca e be b id c e e i e k f he e ge e RNA- e da a ha c e f a e ei e 8 gene a ed b indi id al lab , i h a ange f e encing de h and ali ie , a ell a high- ali c n i m da a? I h cha e , I e ab a e he acc a e a d b eh d b d c e e e f RNA- e da a. I e e a a a d e a f a ech e a d he c b a a e c c e e ec e da f he a d h e he e ech e . I Cha e 3, I add e e : (1) can age age ange be edic ed ing nl he gene e e i n al e ? A d (2) ha d he e gene igna e ell ab age- and e - ecific bi l gical c n e ? He e, I c a e ab 30,000 a h a a c e a d e he e f e a ach e ea g (ML) de ed c age g .Ia e ga e age- a d e -b a ed ge e g a e ea ed b he e ML de g e e e a - a da ed ge e e f de e ge ch e f e b g ca c e d ffe e age a d e g . I Cha e 4, I add e he e : can e ili e ma i e blic an c i mic da a iden if anal g am le , and he ef e bi l gical c n e and hen e ac ecie ? I h cha e I de c be eff e ML a g a c c a d ca e a d he e ac ec e ef c a edge a fe . S ca c F , e add e a ga he ea e g he e f he c g g RNA- e da a b d g c e e e . Th g e c a a b g c ea d ec f h be eg a e a c e-ba ed e he fa e . Sec d, he be f edge, e e e he f d e e f h a d f b c -a a ab e h a ge e e e f e he d f h b g ca ce e cha ge a g he fe a b h e e . Th 9 ab a a ab b a a a , a a a ab a - a - . A a , a - a - ab a aa ab a a a a ab a a a a -, -a - , e en if hose genes and pa h a s ha e ne er been f nc ionall charac eri ed. T , a a a a a ML a a a a , b a/ a a a a b a a a b a a b a . A a , a a a a b a ab a b a . W a a - a - a , a , a b a a a ab a b a a ab . I a , - a , a b a a a ab a a a a a a a a a ab a . C , a b a a a b a a a ,b b a . 10 EFE E CE 1. C, G J, A ,B ,B ,D J, . KB :A A I C C D M A . L M I . 2015 2019 A 4 ;12. A : :// . . . . / / / MC4380465/ 2. B E, C - , K, A, J, A. KB . G . 2021;53:1283 9. 3. D JC, MD, B MA, JM, B L, B -G K, . A : - .B . 2010;26:1205 10. 4. L M, K KJ, M E , KE, B E, F , .A - 60,706 . . 2016;536:285 91. 5. M A J, B E, C M, G L, H ,H E, . HG I-EBI C - (G A C ). A . 2017;45:D896 901. 6. M G , B. A :C .B . 2014;87:162 71. 7. A . E JM .M M ; 2019;381:668 76. 8. A EA. . G . G ; 2016;17:507 22. 9. C, L DA, G . - . G . G ; 2008;9:911 22. 10. K EA, D LK, BE. . G . 2018;1. 11. C E, J, K , G, ,K G, . D A EMI: E M A . JAMA I M . 2018;178:632 9. 12. C JA, C F . : IH . . 2014;509:282. 13. C, D D. A . . 2017;121:83 93. 11 14. AA. E E L B D E C *. B . 1971;5:297 307. 15. C, C. M : B A M . .A A A ; 2010;327:1571 2. 16. C .G D :H . FDA I . FDA; 2020 2022 N 14 ; A : :// . . / - / - - / - - - - - 17. BJ, KG, I. F .N B . 2014;40:1 5. 18. B JB, BJ, L J .F : - .B D . 2016;7:34. 19. H A , A, K D , - I, G D , AD. D I A C : C .A J H . 2010;100: 105 12. 20. F , B, C, M L, B JA, , . : .A H M . 2018;9:87 94. 21. H A, G D ,K AJ. D .JC B F M . AGE L M; 2012;32:2100 7. 22. JG, E C. A D .C A A . 2015;15:28. 23. G ,K . D D I I .J I . 2017;198:1782 90. 24. M EJ, C C, M , J, N -B D, E A, . - .N C . 2020;11:1 17. 25. -M E ,G -G E, C -A I, G - B. .B D . 2018;9:27. 26. MJ, J , LC, C, C KN, J, . .N C . 2015;6:8570. 27. C , C, , D, H, H, . D A A : - . N A . 2015;43:D873 8. 12 28. C AM, L , G, I, D, G AB, . I I B A A H .NE JM . M M ; 2009;360:1509 17. 29. , M. A .JM B . 2017;429:2427 37. 30. C A ,L O M, C I, G I, C JF, C A. B C . E M . 2020;31:785 99. 31. B , E, L ,E C, K IF, M, . NCBI GEO: .N A . 2013;41:D991 5. 32. K N, H E, K M, M O, A, E, . A E .N A . 2015;43:D1113 6. 33. A A, F A, G N, I H, H L, A A, .A E - .N A . 2019;47:D711 5. 34. L , H, M. A .N A . 2011;39:D19 21. 35. G C ,K A, AK, E, A, H D , . - . N G . 2015;47:569 76. 36. L ,K A, , OG. O - - . B . 2013;29:3036 44. 37. , AK, K A, A M , A, , . - .N M . 2015;12:211 4. 38. G E C ,B AN, D ,B , J, HE, .E G A .N C I . 2018 2018 J 1 ;9. A : :// . . / / 41467-018-03621-1 39. O M, M -A M, K -H , ,G ADH, C DJ, . . . 2020;369: 3066. 40. M A J. M H D M O .C . 13 2011;109:356 9. 41. A J, B C, C GA, H MO, M FC, DL. .N G . 2011;12:575 82. 42. K A, , , CL, AK, A, . G - .N N . 2016;19:1454 62. 43. MD, H E ,L ,P A, K D. M .N G . 2015;16:85 97. 44. K A, JN, G C .I N I B F G D A .C G M . 2016;4:155 62. 45. L A, D, K AB, J KM, L HJ, L, .M NA- .N C . 2018;9:1366. 46. K ,D C, BJ, B , N, M, . C - . F1000 . 2014;2:30. 47. M G KL, P J, JO, C HJ, JB, M EM. .P N A . 2010;107:6544 9. 48. L M, A L, C AG, E, M N, K , . - .N .N P G ; 2016;531:637 41. 49. H ,F M, L M, H BK, I. .N .N P G ; 2015;519:219 22. 50. C -M M, H J, D, B, C C, , .G .N . 2019;1. 51. L H- , O N, B -J .C - .B . 2010;26:2416 23. 14 CHA E 2: B MALI A I A D A F MA I ECH I E F C C I G GE E C E E I E K F M A- E DA A Bac C - - NA- 1.C , , . C - 2 5. M - 6 7. N , , - . F NA- , , , NA , . ( - ) ( - ) 15 [8]. Ma da a a a a d a f a ec e a e bee de e ed e c add e e e f e e fac . A add a ad e a ca be c de ed a c a c e e a a e a f a , c a ed af e ca c a gc ea be ee a ge e a .C e e e ae a d ca d c ae ca e d ec e ac d e be g e a ed f , ead - a e ge e e e da a. He ce, e de a e ed e d df e a c e e e eg c ec a ae e e be ea a d d eg c ea ba ed e g f e e [9,10]. T ge e , a ae a g a d a f g RNA- e da a a g ade ae a f g e c e e e g d ed e acc a e e ae f ge e-ge e c e e a be ca ef c a ea be ee ge e . H e e, e be ac ce f a a e b d g a c e e e f a a ge e-e e da a e a e bee de e ed a d c a ed f da a f c a a [11,12]. O e e a decade, c e e e a a be g e a ed e e e a c ea g a f da a f RNA- e , e e g e a ced e f e b d g a bee e a a ed a d ed f RNA- e da a, a c a ega d a a a d a f a .A g a a a a eg e a e bee de e ed f RNA- e da a, e a e bee be c a ed ec e fe a g d ffe e a ge e e e [13 17]. Ve e a bee d e fa c e e e c ae e e a eg e f a a a d e a f a (a d e c b a ) 16 RNA- , 1. T RNA- 18 . T , , . H , 10 RNA- , . F .T , , , , , . F , / . S , . T , , , . F , . 17 I , e e e e c e e e be c a g f c ed - a d be ee - a e a a a eg e a d e a f a e d f c c g acc a e c e e e f a RNA- e da a. We e ed e e be c b a f e d f d ffe e a a a d e a f a age . O a ee de f g b c b a f e d a c e e c e e e a acc a e ca e ge e a a d e-a a e ge e e a ac a a ge a e f da a e . T a e ge e a ec e da ef f e e e a e ea c g a a g e RNA- e da a a e a c a a e ea c e ee g b d a c e e e f b c a a ab e da a f e e f da a/ e eg a .T ad a , e e d ed f da a e , ge e a ed b ac a db d d a ab a e ,c e g ee e e a fac . We e e e e g e b e- a e a d e-a a e edge ab ge e f c a ea . Ba ed e e e e e a a e , e f a de c cee ec e da f a a a d e a f a c ce RNA- e c e e a a . R E a a, a a ,a a a T e a - a e a a , be ee - a e a a , a d e a f a e d (a d e c b a ) a a ge da a c ec , e a ed ge e c da a f e ec 2 da aba e [19]. Rec 2c a da a f b e Ge e-T eE e (GTE ) ec [20] a d e Se e ce Read 18 A (SRA) [21 - , , . D GTE , - . T GTE , GTE .D SRA, , , ( 12 ) , . I , 9,657 GTE 6,301 SRA 287 (Ta 2.1, A : F . A2.1; Methods), . G E A Number of samples 9,657 samples 6,301 samples Number of datasets 31 datasets 256 datasets Number of tissues 31 tissues 19 tissues Median dataset si e 197 samples 12 samples Total 15,958 samples from 37 unique tissues 2.1: . See 2.1 and for more details. A ( Methods), RNA- (. . 31 GTE 256 SRA ). W : ) - : (CPM), (TPM), (RPKM), ) 19 be ee - a e a a : a e (QNT), ed ea f M- a e (TMM), e a e (UQ); add , e e ed e a a f TMM a d UQ c ad ed h TMM fac (CTF), c ad ed h e a e fac (CUF) ha d ec ad c b he e fac b d e c ec b ba e, a d c) e a f a : e gh ed g ca e a (WTO) a d c e e h d f e a ed e (CLR). T e a ca e a e he e e h d a d he e ac , e b 36 d ffe e f c e ga be c b a f ch ce ( . 2.1). F ca , he e f he a c , e e e d d a eh d eg a f (e.g. TPM a a ) a d a c e f (e.g. TPM, h ch TPM c b ed h be ee - a e a a a d e a f a , TPM_CLR, h ch TPM a ed h CLR). The C f e h - a e a a , be ee - a e a a , e a f a , b a f ed h he h eb cac ef c . 20 F 2.1. NA- . The main i eline a e ec ed fo he o iginal GTE and SRA da a e and a la ge collec ion of da a e of diffe en i e e am led f om he GTE da a e . Th ee ke age i hin- am le no mali a ion, be een- am le no mali a ion, and ne ok an fo ma ion he e e e ed me hod choice a e highligh ed in diffe en colo . All he o he age e e com o ed of anda d elec ion, fil e ing, and da a an fo ma ion o e a ion . The coe e ion ne ok e l ing f om all he o kflo e e e al a ed ing o gold- anda d ha ca e gene ic ( i e-nai e) and i e-a a e gene f nc ional ela ion hi . Finall , all he e al a ion e l ee ed o anal e he im ac of a io a ec of he o kflo , me hod , and da a e on he acc ac of coe e ion ne ok . Abb e ia ion : CPM (Co n Pe Million), RPKM (Read Pe Kiloba e Million), TPM (T an c i Pe 1 F 2.1. (c ) Million), QNT ( an ile), TMM (T immed Mean of M- al e ), UQ (Uppe Q a ile), CTF (Co n adj ed i h TMM Fac o ), CUF (Co n adj ed i h Uppe a ile Fac o ), CLR (Con e Likelihood of Rela edne ), WTO (Weigh ed Topological O e lap). Si ce hi e ie f i e i ed, i.e. e ia i edge ab ge e e a i hi , e e a a ed he e i g c e e i e b c ai g he g d a da d f ge e f ci a eai hi . The g d a da d ee b i i ge e i e a - e ified c -a ai ecific bi gica ce e i he Ge e O g [22]. The e c ai ie ded e a a i e ic ha ai e h e he a e f c e e i ca ed i he e ef ec ge e f ci a eai hi ( ee N E i Methods a d S N i A e di ). F he , ge e ac i i ie a d i e ac i a d a ica de e di g ce e i e. He ce, ea c ea ed i e-a a e g d a da d a e he he he e i g e e e ab e eca i ae i e-a a e c e e i i addi i ge e a i e- ai e c e e i . Ti e-a a e g d a da d e e c ea ed f a a i e a ib e b b e i g he ai e g d a da d i g ge e be e e ed i a a ic a i e. Whi e a ea de he ecei e ea c e (a ROC) i f e e ed e i ae e acc ac , i d e acc f he fac ha a a f ac i f ge e ai ( f he a ib e) bi gica i e ac . I he g d a da d, hi i ba a ce i ef ec ed b he be f ega i e ( -i e ac i ) fa be i g he ii e (i e ac i ) [23]. The ef e, e ea ed e acc ac i g a ea de he eci i eca c e (a PRC), hich e ha i e he acc ac f -a ed c e e i ge e ai [24]. 22 I a, a 287 a a GTE a SRA, aa a 36 , 8,610 . La , a 2,430 a a aa a a GTE a, a , a 72,900 . Ea GTE a 20,418 a SRA a 22,084 , a a a a . Ea a a - a - a a a , a a , -a a - a a . F a , a a a - a a a SRA aa a a RNA-S , . [25], a a a a a a 2. O a a c F a 36 , F 2.2 a a GTE ( )a SRA ( ) 2 aa a a a - a a a .F A2.2 a a -a a a a ( a a a ). O a , GTE aa a a a a a SRA aa (F . 2.2, A2.2). I a a GTE a SRA a a - a a -a a a a - a CTF CUF a a . F a CLR (CTF_CLR a CUF_CLR) - GTE aa 23 . H , CL - A - . CTF_CLR CUF_CLR - A, .D C F- C F- , - G E A. MM Q - . F 2.2. O a a c . The plots sho the aggregate accurac of all coe pression net orks resulting from each individual orkflo using (a) GTE and (b) SRA datasets, evaluated based on the tissue-naive gold standard. The orkflo s (ro s) are described in terms of the 24 F 2.2. (c d) pecific me hod ed in he i hin- ample normali a ion (bl e ), be een- ample normali a ion (green ), and ne ork ran forma ion (orange ) age . The performance of each orkflo i pre en ed a bo plo ( i ho o lier ) ha mmari e he log2(a PRC/prior) of each orkflo here a PRC i he area nder he preci ion recall c r e ( ee Methods). The orkflo are ordered b heir median log2(a PRC/prior) for he GTE da a. The n mber in ide he SRA bo e indica e rank b median log2(a PRC/prior) of he orkflo for he SRA da a. A2.2 con ain he e plo ba ed on he i e-a are gold andard. T e e e b e a a e - e f d c de a - a e a a e . Ye , f a d c de - a e a a e d (CPM, RPKM, TPM) ca ef be e a a e f de e d g e c ce ade e e e, e be c ce f e be a ed e e d CLR a e. F GTE da a e , CLR ee ge e a e g ed e f a ce, e e WTO a f a a e c e a e e b e f f . F b d g e f SRA da a e , a g f c d g WTO d e c e e d eb e (a e ca e GTE da a), add g WTO a a c a f a a ef a ce. T e f f SRA e e a da d a e a e a a (QNT) a ed CLR WTO. Da a - a Ne , e d ec ed e agg ega ed e de c bed ab e f GTE a d SRA a a e b e a g e acc ac f e e f a e -da a e ba .F , e c a ed a f f eac e a d de e ed e f da a e 25 GTE SRA (F . 2.3, A2.3 2.5, ). S , (F . 2.3, A2.3 5, ). F , (F . 2.3, A2.4 ). B , GTE - (. . GTE - ), 31 ( - ; - < 0.01; F . 2.3). , CTF CTF_CLR, CUF, CUF_CLR 58%, 61%, 58% GTE , . T CTF SRA , C CUF CTF (F . 2.3, A2.3). T SRA - (A : F . A2.4, A2.5). GTE - , , CTF_CLR, CUF_CLR, CLR 28, 28, 24 , (A : F . A2.4). H , CTF_CLR CUF_CLR 57% CLR 76% . D 2 ( PRC/ ) CTF_CLR CUF_CLR (A : F . A2.2), CUF CTF 26 (A : . 2. ). CLR - G E . A , - . TPM_CLR - - , TPM TPM_CLR SRA ( . 2.3 2.3). F 2.3. Da a - a a a . (a) The hea ma h he ela i e e f ma ce f a ai f kfl ,c e di g a a d a c l m , di ec l c m a ed 27 F 2.3. ( ) each he f he GTE da a e ba ed he i e- ai e g ld a da d. The kfl al g he a e de ic ed i gc l a che i ila F 2.2. The c l i each cell ( ,c l ) e e e he i f da a e f hich he kfl al g he ha a highe l g2(a PRC/ i ) ha he kfl al g he c l .C ai ha a e a i icall ig ifica (c ec ed < 0.01) ba ed a ai ed Wilc e ae a ked i h a a e i k. F A2.3 c ai he c e di g hea a f he SRA da a e . (b a d ) Ba l h he be f i e each kfl a ig ifica l g ea e ha a he kfl f GTE a d SRA da a e . F A2.4 a d A2.5 c ai he e e f a ce l ba ed he i e-a a e g ld a da d. ( ) The able h he ig ifica kfl ac e al a i ca e al g i h he be f i e a gi e kfl ef ed a he kfl f he GTE a d SRA da a e ba ed he i e- ai e a d i e-a a e g ld a da d . The i ac f e a f ai i i i a be ee GTE a d SRA da a, b he e i di ag ee e i he e e h d. Wi h GTE , f ha i c de CLR e d be ig ifica he be f i e , hi e WTO-c ai i g f e d be he ea . N a i ge f i h WTO ig ifica ef ed a f ih i f GTE ba ed he i e-a a e g d a da d (A e di : F . A2.4). O he he ha d, CLR f ef e he SRA e , b d c i e he f ha ee ig ifica g ea e ha a he he ab e be f i e (A e di : F . A2.3 a d A2.5). WTO h ef a ce i e e ca e e e he e. Pai i g ei he CLR WTO ih a ie ai ai (QNT) ie d a ic a ef a ce i he SRA e . A ge he , he e e gge ha CTF ie d he acc a e c e e i e b a e c e a gi a d CLR ca f he i e he e i e ec ca e . 28 I ac a a c T e e a a e ed ec b f d d a e d , e a ed e e c a e c c a a c a - a e a a , be ee - a e a a , e a f a affec e ea ef a ce f a e f . T e d, f eac e d, e ca c a ed e f e a f a c de a a c a e d ef ed f ca be e a f a dd c de e e d (F . 2.4; ee Methods f de a ). F 2.4. I ac a a c . Each ba he ba , c e d g a ec f c e h d, h he f e ( -a ) ha f c d g ha a c a e h d ( -a ) ee g f ca be e ha he f . The ba c e d 29 F 2.4. ( ) ef a ce f he (a) GTE a d ( ) SRA da a e e a a ed he e- a e g d a da d. I de a e he c a f be ee - a e a a e h d fa , f a c d g CPM, RPKM, TPM e e ef beca e be a he h CTF/TMM/CUF/UQ a a . S a , CTF/TMM/CUF/UQ eh d ae c ded f h - a e a a (NO WI). 2.6 c a he e ba ba ed he e-a a e g d a da d. T a a c ea a, a f ca e (GTE a d SRA, eac e- a e a d e-a a e a da d ), a - a e a a e d e e ea ef a ce a (F . 2.4 a d A2.6). A - a e a a e d , TPM a ef be e a CPM a d RPKM. CTF a d CUF a e e be be ee - a e a a e d . T e ef a ce a e e ac e a f GTE da a e a a ed e e a da d a d f SRA da a e a a ed e a e a da d; CTF be e a CUF f SRA da a e e-a a e a da d . H e e, d be ee - a e a a ef e e , a e a CTF CUF. I c ea a f ca e a TMM, UQ, a d a e a a (QNT) a e a ef ed. Ne a f a e b d ffe e be ee GTE a d SRA da a, CLR be e c ea e f GTE , e d a e a f a f ca a e e f SRA e a d e f d a da d (F . 2.4 A2.6). I T e ea e c ded SRA da a d a SRA da a e ae e e e e a e f e e da a e ca e e a ed b e d d a 30 ab a e . Acc d g , e e da a e a c de ab e f e fac c d g a e e, a e a , be f a ed ead , a d e e. T g e e fac ac e a f c e e e de ed f e d d a da a e , ad ea e e effec f eac f e e fac (c g f e ) e acc ac e a e b e ed g d ffe e f SRA da a. T e ef e, g e a ge GTE da a e , e c ea ed a c ec f SRA- e da a e e c e e a e e ac f eac e e e a fac . F , e de e ed e e a e e (5, 6, 7, 9, 11, 13, 16, 25, a d 40) a ae e e e a e f SRA da a e . T e , f eac GTE e da a e a ea 70 a e , e a d e ec ed a e c ea e e da a e f eac a e e ( ee Methods). We e a ed a 36 f c c c e e e f eac e f e e da a e . T e e g 72,900 e ee ed e ga e e effec f a g eac e e e a fac b c g e be f e ag e f g f ca ef ed a e f ( . 2.5). I add a a e e e a ed da a, e a e a ed e effec f a e a a d be f a ed ead ( ee E e e a fac a a Methods) d ec e SRA da a b g e da a e f e e a e b ba ed eac f e e fac a d de e g e be f e ag e f a g f ca be e a a e eac b (A e d : . 2. ). 31 F 2.5. I a a aa - a a a a . Eac ea a e be f e (ce c ) eac f ( ) ef e f a a a c a e e e a fac e a e da a e a ed (c ), e e e c e e e a e e a a ed ba ed e e- a e d a da d. T e da e c d ca e f a ae f ca be e a e e f . I add , e 5 f eac c ae a ed e a , e e a . T e ea a e 2 F 2.5. ( ) op (a ) corre pond o da a e from GTE re ampling and ho e on he bo om ( ) corre pond o SRA da a e . The hea map from lef o righ ho orkflo performance b ample i e (a, ; n mber of ample ed o make he coe pre ion ne ork), ample imilari ( , ; median pearman correla ion of 50% mo ariable gene be een ample ), read co n di er i b co n ( , ; andard de ia ion of co n m acro ample ), and i e of origin ( , ). 2.7 con ain he e hea map ba ed on he i e-a are gold andard. I he GTE - e a ed da a, C F a ig ifica be e ha a he f f a e i e 5 h gh 40 he i g he ai e a da d f a e e ( . 2.5). C Fi ac e ec d, e f i g ig ifica be e ha a f he ha C F a a e i e 7 h gh 40. U i g C ( ai ai ) i i i g effec i e, e ecia a e a e i e , hi e C F CL a d C F CL i e ef a ce i h i c ea i g a e i e. I fac , he a a e f a gi e GTE i e ae ed ( 70 a e ), he e i ig ifica diffe e ce be ee C F, C F, C F CL , a d C F CL . CL i he e be f af e h e f . The he f ha a e e e a ed i he fi e a e C F Oa dC F O, a d ha a a e i e (5 7). Ba ed he i e-a a e a da d , C F CL i he effec i e f a a e i e e ce 5, he e C F a d C F a e he f (A e di : . 2. ). F he highe a e i e (25 a d 40), C F CL i b a ia be e ha a he f . The f a ed i he fi e i a e i e 5 h gh 40 a e C F CL , C F CL , CL , C F, C F, a d PM CL . C F a d C F a ef e he SRA da a e a a ed he ai e a da d, bei g he f i a fi e a e i eg ( . 2.5). 33 Pe f a ce he i e-a a e a da d i igh e a iab e, i h C , CTF, a d CUF bei g a ed i e a e i e g a d CLR, CUF_CLR, a d CTF_CLR ef i g be e i he highe a e i e g (A e di : . 2. ). Agai , i i c ea ha CTF a d CUF a e ei eh d , i h CLR i i g ef a ce i e ec ca e . Sa e i ia i a d ead c di e i a a e h i ia e h ef a e i e a a i . Whe e a a i g he GTE - e a ed da a he ai e a da d, CTF i a a a ig ifica be e ha e e he f ac a g , hi e e a a i g he i e-a a e g d a da d a CTF_CLR a he f c i e ( . 2.5, A e di : . 2. ). I b h a da d , CTF, CUF, CLR, CTF_CLR, CUF_CLR a d C a e he f c i e h i g i he fi e a . The SRA e e a a ed ei he a da d ha e CTF, CUF, a d C h i g i he h ee a ac g , i h CLR, CTF_CLR, a d CUF_CLR a i g f he he f i he fi e a ( . 2.5, A e di : . 2. ). Ti e i he fac ha h he a iabi i i e f ha a e he f , e ecia he e a a i g i e-a a e g d a da d . Thi i d e i a he fac ha i i ge ei e b i e e i he a e g , a i g ig ifica ce e diffic de ec . Ne e he e , he f f he a a e f he fac i ha e he be ea ef a ce ac a i e . I he GTE - e a ed da a, CTF i he -a ed f f e ba ed he ai e g d a da d. CUF a d C ae a a a i he fi e ig ifica 34 , CTF CLR, CUF CLR, CLR . - , CTF, CLR, CTF CLR , CTF . CUF CUF CLR - , .F SRA, (A : F . A2.1). O , CUF, CTF, C CLR, CTF CLR, CUF CLR . A - . , - . , , . I a a a a a a a S , 2 . , . H , CTF, CUF, C . , 2 SRA . 35 [25], a e RNA- e e a e c ee d ee e d a e a d a ca .T ed be 186 da a e e a ee a a a d 163 ec d be e a a ed a e-a a e a da d. U a e , GTE da a a a ab e e e.b . I e a a , e e e e e d eac e ed ca e , .e., RPKM, QNT, a d WTO - a e a a , be ee - a e a a ,a d e a a , e ec e .T ea e 14 e a ae e e e.b da a e . F 2.6. O a a a a - a . aa . The bo plots sho the aggregate acc rac of all coe pression net orks res lting from each indi id al orkflo sing SRA datasets in refine.bio, e al ated based on the tiss e-nai e gold standard. The performance of each orkflo is presented as bo plots ( itho t o tliers) that s mmari es the log2(a PRC/prior) of each orkflo , here a PRC is the area nder the precision recall c r e (see Methods). The orkflo s are ordered b their median log2(a PRC/prior). The heatmap sho s the relati e performance of pairs of orkflo s (ro s and col mns) compared to each other for the refine.bio 36 F 2.6. (c ) SRA da a e ba ed on he i e-nai e gold anda d. The colo in each cell ( o , col mn) e e en he o o ion of da a e fo hich he o kflo along he o ha a highe log2(a PRC/ io ) han he o kflo along he col mn. Com a i on ha a e a i icall ignifican (co ec ed < 0.01) ba ed on a ai ed Wilco on e a e ma ked i h an a e i k. 2.8 con ain he e lo ba ed on he i e-a a e gold anda d. I , CTF, CUF, C - . H , CUF ( . 2.6). CTF CLR, CUF CLR, CLR, . - CUF, CTF, C , CTF CLR, CUF CLR, CLR 2 ( C/ ), CTF CUF (A : . 2. ). I , NA- . - ( 2 ( C/ )). , - . , - . F , 37 ROC c (a ROC). A ba d d a a c ( 2 (a PRC/ ), c a 20% ca , a d a ROC) a a a ab a a c da d b a a :// a ab. b. /RNA _c a ac ca a a a c a ba d RNA- da a . D D a d a c a a RNA- da a, a c a b d d d a da a a a a d a a d a acc a RNA- -ba d c . H , c a a c c - d c RNA- da a a a a d a a c acc ac ( . 2.1). W d 36 -b d c b a - a a a , b - a a a ,a d a a d a d a ac d d RNA- da a GTE a d SRA. T c a a d b - a a d -a a c a a a d ca c ac b a ac a d c d a (A d : . A2.9, . A2.10). T a a d a a c ac - a a a , b - a a a ,a d a a d (a d a ) acc ac c . 38 I a - a a a W - a a a c c b c c CPM, RPKM, TPM c c ac c a ba a . A ba b c a a a a [26], a TPM a CPM, a CPM c c ba a .H , c - a ba - c c a c b a a b a .F a , a a RPKM, c c c ba a , a a a a c [13 15]. S a a a RPKM c a a a a ba a ca b c b a a c [13,27]. TPM a a a RPKM b c c a b ba . T , a acc a c a a c c a a RNA a c a [28]. TPM a a ca a a a RNA ab a c (. . a a TPM a ). T , ac a b c c a ab TPM a a RPKM a . C , a RPKM a - c a a TPM c CPM a RPKM, a ca cca a b a a - CTF a CUF. F a , c a b c ca a b ca ac a c a a a b a , TPM a b b c c a a a 39 ea de e e [29]. T b e a c de a e d ef a ce f TPM ee a e a da a e a e c a ed a d a a ed e e c c ac e e e . I a - a a a Ne , e e f ce e e ec a a be ee - a e a a ( ec e c a CTF a d CUF) ead e a e e e c e e acc ac . T e e e d a e de ed a e e e a e ac a e ec a ab e ea e,a a ec c ca f c e e a a .H e e, QNT, a be ee - a e a a e d a c ed c a a da a, ef e f RNA- e da a. T e beca e QNT f ce ed b f a e be e ac e a e, ea a eac e e a e f ced be a a c a a e a e. C e e , d e a ee ee a e d ffe e be f e e a ae e e ed de f e ca a e ac a e [8,30], a effec a f e e ace ba ed RNA- e da a beca e a a a e d a c a e a c a a da a. Ge e e e e a e d f e ce CTF CUF a a beca e e ae e c e c ded f e ca c a f ad e fac . CTF ec f ca f d a b e f e e a ae bab d ffe e a e e ed be ee a e a e e e a e c a ab e ac e e e , e CUF e e e a e e e a e ad a e . T a e b a a b a be f e e ed e e . H e e , a e- ca e c a e e ee e a f a e , e. . a a e d ffe e ce e be f e e e e ed 40 , [8]. I , CTF CUF , , . T TMM UQ, CTF CUF , .A , P , .T C - . N GTE SRA . CLR GTE , SRA .T .T SRA 12, GTE 197. O GTE 70 (A : F . A2.1). F , GTE CTF_CLR CUF_CLR (F . 2.5) - (A : F . A2.7) CLR - . F , CLR 41 ad e ed e e ba ed a e ea ed b f ed e e f e d d a e e a a a e e e e e .S , e a a a a e a e e e a be e e a e f eac ed e e a e a e d b f ed e e f eac e e, c c ea e CLR acc ac . S e , e de a e ed a a ca be ee a e a e ea d e acc a e c e e e [18,27], a d b e e e a f a CLR [31]. WTO, e e a d, e f f b GTE a d SRA da a. WTO ad e ed e e be ee e e a ba ed e e e ae c ec e a e e f e e e e . T e ef e, e CLR e e a a c ( ea a d a da d de a ) f ed e d b ad e ed e e be ee eac e e a , WTO e e e ac a , e , c e e a e , c a c b e fe ef a ce. I a be a CLR ae e effec e dea e ea -c ea ea ba , e b e a a e e ed e e e d be e c e e ed, b ca e a a a c , e e fac a eac f ec ea e ae aec ec [32,33]. T a , , e a CLR e d ef be e e-a a e d a da d a a e d a da d , ce e e a ae b e e ed (a d e ef e ed e e a, e- a e e ac ) e d be e e e ed [34]. I ac aa a a RNA- e da a a a e ca be ef f a da a a f a a ab e e a a ce ac ea a e , .e. e de e da a e eda c, beca e, 42 a , a a a [35]. A a a RNA- ( a a ) aa a a a a a a . S a a b , a a a a a RNA- aa a a ( 1, a ) ( a , )b a (. . ( + 1)). H , a a a a a a a b a a a a a b a a ( . ., 1 + 1 a 100% a a 1, b 941 + 1 a a b a ). T b a (a ) a a ( + 2 ( + 1) ) a [36]. T a a a b a a a a a a a a a a a a a . T , a a a a b a a [37]. D a a a , a a a a . H , a a b b ( b ), a a a a a a a . W a a a a a a aa a a GTE a SRA aa (A : . 2.11). I a C a a - b - a a a b a a a a . W a a 43 ef a ce d e e a a ce ab a ded b e a a f a a e ac - a e a a f e ee e ec ee e ca c a f e Pea c ea c eff c e . T e a R ac a e f d ffe e a e e a a , DESe 2 [35], ffe e da a a f a f e e c : a a ce ab a f a (VST) [38] a d e a ed a a f a ( ) [35]. B a f a ae a e a f a f ad ed c a a e d c aa ee a c e a da a-d e a e. T e e a f a c de be ee - a e effec e ba e a d a e de ed be ed c da a a a f ca c a d ffe e a e e e e . Ne e ee , e e a f a c d e be a ed c e e a a . He ce, e c a ed a , VST, a d a e c b a e a f a e d a df d a a e be a f a f c e e a a a e a a (A e d : F . A2.12 2.15). T e VST a d a ef be e e ed a e f a . T e ef e, e d ec e d e e f e e a f a DESe 2 f a e- ca e a ca b c -a a ab e RNA- e da a e f c e e a a . A- B c c c e e e f d e e da a e f b GTE a d SRA, e e e ab e e a ae f a e, e e da a e a e a a e, ee e e da a e de f e d a ae b d ffe ec ca a d b ca fac . A ee e a a ef a ce be ee GTE a d 44 SRA a a, a a a c b -a a a a , a a c ac aa a a a . Ba a , a c a b c RNA- aa P a S a a c a : I c a a a ab , CTF CUF a a a. T c b a c a a ac . B , CTF b c a c . E a a (C ) a a c ,a a a a a b a a a ab c c a aa . I aa a a ab a - a a a , TPM c a a . Da a CPM a RPKM ca b a c TPM. TPM CPM a RPKM a c a ab a c . A a a , a a ( a ) a ca c a c P a c a c c . I aa a a a 40 a , CLR a a c a . CLR a a c a ca a ac a a c c a . QNT a WTO a c c b a , a ca ,a b . T ab ac a a a a a a a a RNA- aa , a a 45 a a ab a b a R Ma . T b a a b a :// a ab. b. /RNA _ . P a a ca a G a , a a b a a a a a a b ab aa a a a . F a , a a a a a a , . . a b a a a b a a , RNA- aa a a a a a a [39,40]. S a SVD-ba , ( ) a .H , a b a a a a b a a a a [41], a a a - - - aa b a ab ( . . SRA). F a a a a a a a aaa b a b a a . F a , b a a ; a b a b a a a b ba a a b - - a [42]. A a a a a b a a. S a a a a b a [43,44], a a - 46 aa a b c [45,46]. F a , a a a c a b b c b c -c RNA- a a, c a a c a [47] a ca a aa b c a . C W a a b c a a a a aa a a a a a ac acc ac c b RNA- aa . Ba , a a a c c c a b c a a a b c . S c ca , C a TMM Fac (CTF) a C a U a Fac (CUF) a a c c c c acc ac ,a CLR a ca c a acc ac c ca . A GTE , SRA, a GTE a aa , ba - a a -a a a a , a a c a a a ab a a c a b a a :// a ab. b. /RNA _c . R ac ca b a a a c a a a a a c c c a a ba RNA- aa . A c c a a a ab a :// b.c / a ab/RNA _c [55], a c a ac ca c a c aa 47 .F a ,a a a a ab a :// . /10.5281/ .5510567 [56]. M D C R a b SRA a GTE aa a 2 a aba [19] a aa . R 2 a a a Ra -RNA, a a a aa . W ba SRA aa a a a aa a a a a a a . T a a ( ) a a a a aa a ( aa ). I a a a , a aa a a a a a 543 a a SRA a a .W a a a a ab GTE a a, a a a 9,657 a 31 . P A a a , a 2 a a a a - a . E a a , , a a , , aa a aa a a a a a , 341 SRA a a .N , a - a a a a ( ) a a a a ( RNA, a RNA, a - ), a b aa a a a . 48 A da a e a ad a a e e ed de c e a a e a ed d e d be e a e . Re a e a ad a ea 5 e aae e e e e 256 da a e . F a , e e ed e e e e e ac e b ad b e e a dd a e a ea e ead e a e ead a ea 20% e a e a ea e da a e . T e ed 22,084 e e e SRA e a d 20,418 e e e GTE e . O e e ae e a e a ed, ea a c da a a be ee a ea c ee a e da a. Ca c a c Rec 2 e a ed e e a ba e a c e e e. We c e ed e e a e e e c b d d e e ba e a e e e c b e a e a e ead e e a e a d acc ed a ed-e d ead a e b e d d b a ac . R .b da a c c a d c T e a ae e RNA-Se da a ce ed d ee ead a e a d c a ca e d , e a c ed a a SRA da a e a ec 2 da a c a be da a e e.b . I e ca e , e e a e a ec 2 da a e a a a ab e e e e.b da aba e. I e be a e d ed e da a e e a 5 a e , e dd e a da a e c c a e . T ced e b e a be ab e e e.b da a e 188, c (120/188) c a ed a e a e a ee ed e ec 2 da a e . T e e da a e ee d aded e e.b a 49 a a . B a aa . a a E a 93 a a a E a 96, a . a a a . T a ( E a 96 a aR R a a [25], 2 a a. O a a a , a a a a a a 2 aa . W - a a a W - a a a a a a a a a a . H , (CPM), a (TPM), a a a (RPKM) - a a a a a [28,48]. N a RPKM a a a Fa P K a M (FPKM), FPKM a a a a - RNA- a a a a a a a a a .W a a - a FPKM, RPKM a . T a a a RNA- a a a a a a / a a . CPM a ( ) a a a a a a a . TPM a RPKM a a a a a . Ea a a , 50 a a d ad d . TPM d d c b ( b) a c c a d b a b a c a , ac a d a a a b a c . T aa d RPKM c c c ac c a b ad a b c c . B - a a a B - a a a a ac a a a c a d a ca b acc a c a d ac . W d a (QNT), d a M- a (TMM) [49], a d a (UQ) a a [13]. I add , d c ad d ca C ad d TMM Fac (CTF) a d C ad d U a Fac (CUF). Q a a a a a b - a a a c a a a . A d RNA- da a, QNT c d b a a b ac a ac a .W d a a a c , CPM, TPM, a d RPKM c C ac a a a ab B c d c , c a a a d c b d B ad a [50]. TMM a ac a b d a b a a d c ca a a b ca ac , . . d a d, b ca c a a ca ac ad ac a .I b , ac a c a d a c c a . A c a a d c a da a ba d ab a d - d-c a a c a d (b 51 de a , 5% ab e e a d 30% - d-c a e) a d e - d-c a e e e a e e e ae ed ca c a e a e ca ac e - e e e ce a e . UQ a a e e a e -c e e a d ca c a e a ca ac eac a e ac e 75% a e ec a e a e . I b TMM a d UQ, e ca ac ae ade e be e e ae ed ad e ba e eac a e. T e e ad ed b a e ae e ed ace e a ba e a ca c a e e de ca CPM. We ed e ed eR ac a e [51] ca c a e TMM a d UQ ca ac . T e e ac eea ed CTF a d CUF, e ec e , ee e e ed a ad eac e ec e e a e. G We c e ee RNA e e e ( RNA ( e -c d ), cRNA, a e e RNA) a e ae e c e e e ed c e e a a a d e ead a e a a d de ca ed c [52,53]. T e e c ded e e e ( RNA ) a e a e c a d a da d a ee e e c a a ab e e e e e . T ee e, e a be ee e e e e e a e a de e a a e. D T A a a a da d ced e e RNA- e da a, a e e ec ed a a ce e ea e ec [35]. A e d c added e e e c be e a e . We e e eb c ac e (a ) a a , c de ed a ee e ea be ea dc c e e 52 . T [36,37 . W (VST) [38 ( ) [35 DES 2R . T GTE SRA , GTE . N A P D a S C++ [54 . T . W P - , - - - [7,55 . S S , P S GTE SRA , - (A : F . A2.16). N W , (WTO) [9 (CLR) [10 , 53 a ec f e c ec e a c e e e . T e e e a dea f WTO c ea e e ed e e be ee e e a a aea be f e e b e d ed e e be ee e e a a ae c ec ed e d ffe e e f e e e e . A ed e e e e a e a ed e ed be ee e a d e. CLR e e e ed e f eac e e a ( , ) ba ed d ffe e e a e f a ed e ea e a f ec ec e e a da c ec e e ( e e f e e e e e ). F a ce, CLR e a ed e be ee e e f e ed e e c a ed a f e e c ec f b e e . WTO a e e ed e TO f c e e d e TO ac a e [56] a d CLR a e e ed e D 2D f c eS C++ b a . N T e a f c e e e ca e e f c a ea be ee e e e ce a c e f e a da a e . T e ef e, e e a a ed e acc ac f eac c e e e b c a d a da d , e e e e e e c ( e- a e) f c a ea a d e e e e e e-a a e e e f c a ea . We a e b ed e e d a da d b be a e f a a - e ec ed Ge e O B ca P ce (GOBP) e [55,57] a e e dee ed be ec f c e be c f de a a e e c -a a ed e c d be c de ed f c a e a ed a e e e a f - ( ee S N A e d ). S ec f ca , c a ee c de e e f e e/ e G ee ed c ed be a a ed 54 GOBP T, a b c a a b Ga T? T ,a a a c -a a a c c GOBP a a a a a .W a a ba a (GO c c : EXP, IDA, IPI, IMP, IGI, TAS) c a c (IC). W c - a a a ba (GO c c : IEP) a c c a c a c - ac - a a . W a c a a a a c b ca a a , . ., a a a b c a a ba .T b c a, a a a ba ac a a a c ca ac a - ac , c , a c a . T a , a c /a / a . F , a c -a a a c c b ac a a a a ( ba ac b a a a c a a ; c ; - a <0.05). W a a a c -a a a c c b c -a a c a a GOBP , c a b a c a a .A a a c a . W b a a a A ee c Se C++ b a . W c a -a a a a a a a b b b a a a ba b c ca 55 a a c a .W ba -a a TISSUES 2.0 a aba K c a [58]. T c a c a c a a a a a b U P KB. F a ,a a a a a -a a a a b a .N a b a , a c . O a a c a a a 50 a a , 24 -a a - a a . W c ca c c a a -a a a a , a a a a b ac a a a . W DChec e c Se C++ ba c a ac c ac - a a a b , a , a , a a a a a . T b ca c a a a c - ca c (a PRC) a c ac a ac a . S c c a a - a a a a , a a PRC c a c c a ab ac . T , ac a PRC b a PRC a a c , a ac a a a a a a c a a a ab - - c a . 56 T S a N A c a a ) c a a a a , ) a a a a a ( c - [59,60]) a a ,a ) ca c a a a c . Workflo comparison and anal sis b par s T a c a ca a , a a W c a c a a PRC c ac a c a b . A ca c a - a , a c c B a -H c b c a ca FDR 0.01 a b ca . F , ac a c b a c c a a . S , ac c a a c a a , ac a a ca c a a c a a c a a b ca a a a c . A b - a a a a TMM, UQ, CTF, CUF, a c CPM, TPM, RPKM a c a b - a a a a b c a ac ba a b a a .F a a , TMM, UQ, CTF, CUF c a a - a a a . 57 GTE T a - c d da a a a a a da a SRA, c a (5, 6, 7, 9, 11, 13, 16, 25, a d 40) ba d d b SRA da a a . T , ac GTE da a a a 70 a , a d a d a da a ac a , a a c a 10 da a a ac GTE da a .O c a c c d a d a a d ac GTEX- a d da a a a d ab . E I add da a (. . b a ), a c c c d a da a c d a d d a b a a da a a a a b a d ad . W da a a d ac GTE - a d da a a d a SRA da a . S c SRA da a a a d a a a a , a b da a , da a ac a a a . W d a a a da a a da a a c a b a a 50% a ab GTE ca a d GTE da a , da a a c a b a a 50% a ab ac d d a da a ca SRA . R ad c d ca c a d b c ac a a da a a d a a da d d a . Ba d ac a a 58 a a d ead c d e e d ded e da a e f e g f e a e e a g ca e c ec a eac g c a ed da a e a a e e .F e ea a , ec d de e e g f ca ce SRA e a ad a ea 15 da a e . 59 EFE E CE 1. D , , G A, F L, M D, P J. G - .B B . 2018;19:575 92. 2. A DJ, K I ,B AJ. - , - . BMC B . 2004;5:18. 3. E MB, P ,B PO, B D. C - .P N A .N A ; 1998;95:14863 8. 4. E, F N, K D, A. A .N G . 2004;36:1090 8. 5. C AE, DM. - .N G . 2004;5:11 22. 6. B, H .AG F G C -E N A . A G M B .D G ; 2005; 4. 7. , AK, K A, A M , A, , . - .N M . 2015;12:211 4. 8. E C, H J, DM. - NA- .B B . 2017;19:776 92. 9. N K, G ,A E, L. D . P N A . 2009;106:22358 63. 10. F JJ, H B, J ,M I, J, C G, . L - M E C E P . PL B . 2007;5. 11. A, B ,M ,B KA, H, H, . - .B . O A ; 2005;21:1112 20. 12. L K, K, L C, C A. C : . B .O A ; 2007;23: 282 8. 60 13. B JH, E, H KD, D .E NA- . BMC B . 2010;11:94. 14. M E, F , ,B M, M. C NA- .C I B . 2013;6. 15. D M-A, A, A J, H -A C, J M, N, . A I - NA .B B . A ; 2013;14:671 83. 16. - J, A, H L, G K, K K, F M, . I N M NA- D A . B M I . 2015. 17. A -A F, L ,F BL. C - . L NE. L ; 2018;13: 0206312. 18. B , ,G J. G NA- - : .B . 2015;31:2123 30. 19. C - L, N A, K K, E E, MA, H KD, . NA- 2. N B . 2017;35:319 21. 20. L J, J, M, , L E, , . G - E (G E ) .N G .N G ; 2013;45:580 5. 21. L , H, M. A .N A . 2011;39:D19 21. 22. A M, B CA, B JA, B D, B H, C JM, .G : .N G . 2000;25:25 9. 23. , M. - I M I C E B C I D . L NE. 2015;10. 24. D J, G M. - C . 23 I C M L .N ,N , A: A C M ; 2006. . 233 40. 25. G C , H D, J ,L ,M D , , . . . 61 . . 26. O A, MJ. NA- .B D . 2009;4:14. 27. H J, , L, M G KM. C O L G C N M NA- D . . A B ; 2017;175:568 83. 28. G ,K K, L J. M NA NA- : KM . B . 2012;131:281 5. 29. , , .M KM M . NA. 2020; .074922.120. 30. H C, I A. N ?G ; 2014 D . 31. C EJ, G ,K ED. O C N M N I . BMC B . 2010;11:454. 32. ,H C, H KD. C - - .G ; 2020 F . 33. F M, .D .B .O A ; 2019;35:55 61. 34. D, E ,B CB, .A A E G D . LO C B . 2009;5: 1000598. 35. L MI, H ,A .M NA- DE 2. G B . 2014;15:550. 36. J NL. F C G M . B . O ,B ; 1949;36:149 76. 37. H MM, B OJ, J, ,B JA, N . .N M .N G ; 2012;9:473 6. 38. A ,H .D . G B . 2010;11: 106. 39. D, N J, ,D .N NA- .N B .N G ; 2014; 62 32:896 902. 40. , C, J AE, MC, B A, L J .A - .G B . 2019;20:94. 41. J AE, H ,K J, D ,C JG, M K D, . . BMC B . 2015;16:372. 42. M , J, H ,C M. D : .B . 2021 A ; 37(7): 984 991. 43. ,C J, H MK, M C MN. - .B B . 2021; 22(1):127 139. 44. F M, . .G . 2020;30:849 59. 45. C M, A, B ,H J, G J. E - - .G B . 2016;17:101. 46. H BD, C M, F ,G J. M C -E B . B ; 2020. 47. B, , C, E ,H I. A NA- .N C . 2019;10:1 11. 48. M A, BA, M C K, L, B. M NA- .N M .N G ; 2008;5:621 8. 49. MD, A. A NA- .G B . 2010;11: 25. 50. B BM, I A, M, .A . B . 2003;19:185 93. 51. MD, M C DJ, GK. : B .B . 2010;26:139 40. 52. G M, G MG, G M, C. C NA- .N M .N 63 G ; 2011;8:469 77. 53. ,L GG, L BE, L , H ,K D .C A- . B . 2011;27: 383 91. 54. H C, ,C D, G. .B . 2008;24:1559 61. 55. G C ,K A, AK, E, A, H D , . - . G . 2015;47:569 76. 56. G D , A, F ,A E, K. : .B CB . 2018 2018 5 ;19. 57. CL, B D ,H A, H C, G. F : .B CG . 2006;7:187. 58. , A, C, G J, J LJ. I E 2.0: .D JB D C . 2018. 59. C ,A A. A G C .B B . 2012;13:536 46. 60. , ,D , L. A A - A- . C L . 2013;56:134 42. 61. J KA, K A. A .G . :// . / / A (2021). 62. J KA, K A. C 31 G E 256 A A- . . :// . / /5510567#. 1I H J (2021). 64 APPENDIX F A2.1. R 2 aa . (a) The barplot sho s the n mber of e periments from each tiss e in the SRA data. The heatmap on the right sho s the n mber of projects/e periments that ha e a partic lar sample si e for each tiss e. ( ) The barplot sho s the n mber of samples for each GTE tiss e. In the barplots, bl e bars indicate tiss es for hich e ere able to create a tiss e-a are gold standard. Tiss es ith gra bars ere e al ated on the tiss e-nai e standard onl . 5 F A2.2. O a a a -a a a a . The plo ho he aggrega e acc rac of all coe pre ion ne ork re l ing from each indi id al orkflo ing (a) GTE and ( ) SRA da a e , e al a ed ba ed on he i e-a are gold andard. The orkflo (ro ) are de cribed in erm of he pecific me hod ed in he i hin- ample normali a ion (bl e ), be een- ample normali a ion (green ), and ne ork ran forma ion (orange ) age . The performance of each orkflo i pre en ed a bo plo ( i ho o lier ) ha mmari e he log2(a PRC/prior) of each orkflo here a PRC i he area nder he preci ion recall c r e ( ee Methods). The orkflo are ordered b heir median log2(a PRC/prior) for he GTE da a. The n mber in ide he SRA bo e indica e rank b median log2(a PRC/prior) of he orkflo for he SRA da a. F 2.2 con ain he e performance plo ba ed on he i e-nai e gold andard. 66 F A2.3. D - A - . The hea ma h he ela i e e f ma ce f a ai f kfl , c e di g a a d a c l m , di ec l c m a ed each he f he SRA da a e ba ed he i e- ai e g ld a da d. The c l i each cell ( ,c l m ) e e e he i f da a e f hich he kfl al g he ha a highe l g2(a PRC/ i ) ha he kfl al g he c l m . C m ai ha a e a i icall ig ifica (c ec ed < 0.01) ba ed a ai ed Wilc e ae ma ked i h a a e i k. 2.3 c ai he c e di g hea ma f GTE da a e . 6 F A2.4. Da a - a c a a c GTE a SRA aa ba -a a a a . (a) The hea a h he e a i e e f a ce f a ai f f , c e di g a a d a c , di ec c a ed each he f he GTE da a e ba ed he i e-a a e g d a da d. The c i each ce ( ,c ) e e e he i f da a e f hich he f a g he ha a highe g2(a PRC/ i ) ha he f a g he c .C ai ha a e a i ica ig ifica (c ec ed < 0.01) ba ed a ai ed Wi c e ae a ed i h a a e i . 2.5 c ai he c e di g hea a f he SRA da a e . (b a d c) Ba h he be f i e each f a ig ifica g ea e ha a he f f GTE ( ef ) a d SRA ( igh ) da a e . Fig e 2.3 a d A2.3 c ai he e ef a ce ba ed he i e- ai e g d a da d. 6 F A2.5. D - A - . The hea ma h he ela i e e f ma ce f a ai f kfl , c e di g a a d a c l m , di ec l c m a ed each he f he SRA da a e ba ed he i e-a a e g ld a da d. The c l i each cell ( ,c l m ) e e e he i f da a e f hich he kfl al g he ha a highe l g2(a PRC/ i ) ha he kfl al g he c l m . C m ai ha a e a i icall ig ifica (c ec ed < 0.01) ba ed a ai ed Wilc e ae ma ked i h a a e i k. 2.4 c ai he c e di g hea ma f GTE da a e . 6 F A2.6. I - . Each ba i he ba ,c e di g a ecific e h d, h he i f i e ( -a i ) ha kf i c di g ha a ic a e h d ( -a i ) e e ig ifica be e ha he kf . The ba c e d ef a ce f he ( ) GTE a d ( ) SRA da a e e a a ed he i e- ai e g d a da d. I de ake he c ai f be ee - a e ai ai e h d fai , kf i c di g CPM, RPKM, TPM e e ef beca e i i ib e ai he i h TMM UQ a i a i . Si i a , TMM a d UQ e h d ae i c ded f i hi - a e ai ai (NO WI). 2.4 c ai he e ba ba ed he i e- ai e g d a da d. 0 F A2.7. I - - . Each hea map ho he n mbe of ime (cell colo ) each o kflo ( o ) o pe fo m o he o kflo a a pa ic la e pe imen al fac o pe aining o he inp da a e i a ied (col mn ), hen he e l ing coe p e ion ne o k a e e al a ed ba ed on he i e-nai e gold anda d. The da ke colo indica e o kflo ha a e ignifican l be e han he mo o he o kflo . In addi ion, he op 5 o kflo in each col mn a e ma ked i h hei ank, i h ie gi en minim m ank. The hea map on he op ( ) co e pond o da a e f om GTE e ampling and ho e on he bo om ( ) co e pond o SRA da a e . The hea map f om lef o igh ho o kflo pe fo mance b ample i e ( , ; n mbe of ample ed o make he coe p e ion ne o k), ample imila i ( , ; median pea man co ela ion of 50% mo a iable gene be een ample ), lib a i e di e i b co n ( , ; anda d de ia ion of co n m ac o ample ), and i e of o igin ( , ). 2.5 con ain he e hea map ba ed on he i e-nai e gold anda d. 1 F A2.8. O - . - . The bo lo ho he agg ega e acc ac of all coe e ion ne o k e l ing f om each indi id al o kflo ing SRA da a e in efine.bio, e al a ed ba ed on he i e-a a e gold anda d. The e fo mance of each o kflo i e en ed a bo lo ( i ho o lie ) ha mma i e he log2(a PRC/ io ) of each o kflo he e a PRC i he a ea nde he eci ion ecall c e ( ee Methods). The o kflo a e o de ed b hei median log2(a PRC/ io ). The hea ma ho he ela i e e fo mance of ai of o kflo (o and col mn ) di ec l com a ed o each o he fo he efine.bio SRA da a e ba ed on he i e-a a e gold anda d. The colo in each cell ( o , col mn) e e en he o o ion of da a e fo hich he o kflo along he o ha a highe log2(a PRC/ io ) han he o kflo along he col mn. Com a i on ha a e a i icall ignifican (co ec ed < 0.01) ba ed on a ai ed Wilco on e a e ma ked i h an a e i k. 2.6 con ain he e lo ba ed on he i e-nai e gold anda d. 2 F A2.9. G - - - . The hea a h he be f ( ) ge e ( ) edge ha a e ha ed be ee a g e e-a a e g d a da d d ded b he a be f ge e edge he a e f he e-a a e g d a da d . Ba ed he hea a , he f ha ed ge e a d edge be ee e a ed e a a d he ef e each e-a a e g d a da d e a a g a e d ffe e e f b g ca ea h . 3 F A2.10. - - . Each densi plo for he ( ) GTE and ( ) SRA da ase s sho s he dis rib ion of log2(a PRC/prior) across all orkflo s and da ase s hen e al a ing based on he iss e-nai e gold s andard ( -a is) s. he iss e-a are gold s andard ( -a is). These dis rib ions sho ha coe pression ne orks cap re iss e-a are gene in erac ions and emphasi es he impor ance of e al a ing coe pression ne orks sing iss e-a are gold s andards. 4 F A2.11. O - . The plo ho he aggrega e acc rac of all coe pre ion ne ork re l ing from he op en indi id al orkflo ing ( ) GTE and ( ) SRA da a e i h (bl e) and i ho (gra ) he a inh ran forma ion, e al a ed ba ed on he i e-nai e gold andard. The orkflo (ro ) are de cribed in erm of he pecific me hod ed in he i hin- ample normali a ion, be een- ample normali a ion, and ne ork ran forma ion age . The performance of each orkflo i pre en ed a bo plo ( i ho o lier ) ha mmari e he log2(a PRC/prior) of each orkflo here a PRC i he area nder he preci ion recall c r e ( ee Methods). The orkflo are ordered b heir median log2(a PRC/prior) in each panel. 5 F A2.12. P - . The h he agg ega e acc ac f a c e e i e e i g f i g ( ) GTE a d ( ) SRA da a e i h diffe e da a a f ai ad ge e c ai ed i h he e a f ai e h d , e a a ed ba ed he i e- ai e g d a da d. The f ( ) a e c bi a i f ecific da a a f ai ( hade f g a ) a d e a f ai . The e f a ce f each f i e e ed a b ( ih ie ) ha a i e he g2(a PRC/ i ) f each f he e a PRC i he a ea de he eci i eca c e ( ee Methods). The f a e de ed b hei edia g2(a PRC/ i ) i each a e . The hea a he igh h he e a i e e f a ce f a ai f f ,c e di g a a d a c , di ec c a ed each he f he GTE ( ) a d SRA ( ) da a e ba ed he i e- ai e g d a da d. The c i each ce ( ,c ) e e e he i f da a e f hich he f a g he ha a highe g2(a PRC/ i ) ha he f a g he c . C ai ha a e a i ica ig ifica (c ec ed < 0.01) ba ed a ai ed Wi c e ae a ed i h a a e i . The i a ge GTE da a e (adi e_ i e, b d, b d_ e e , b ai , e hag , a d i ) ae c ide ed i hi e a a i beca e f he c ide ab e a f c i g i e e i ed e g a f ai a ge da a e . CL a d C ig ifica ef ed a he eh d GTE da a e . F SRA da a e , C ef ed ig ifica be e ha a he f , a d CL a d Ob h ef ed ig ifica be e ha a f i c a i g VST g. 6 F A2.13. - . The h he agg ega e acc ac f a c e e i e e i g f i g ( ) GTE a d ( ) SRA da a e i h diffe e da a a f ai adj ge e c ai ed i h he e a f ai e h d , e a a ed ba ed he i e-a a e g d a da d. The f ( ) a e c bi a i f ecific da a a f ai ( hade f g a ) a d e a f ai . The e f a ce f each f i e e ed a b ( ih ie ) ha a i e he g2(a PRC/ i ) f each f he e a PRC i he a ea de he eci i eca c e ( ee Methods). The f a e de ed b hei edia g2(a PRC/ i ) i each a e . The hea a he igh h he e a i e e f a ce f a ai f f ,c e di g a a d a c , di ec c a ed each he f he GTE ( ) a d SRA ( ) da a e ba ed he i e-a a e g d a da d. The c i each ce ( ,c ) e e e he i f da a e f hich he f a g he ha a highe g2(a PRC/ i ) ha he f a g he c . C ai ha a e a i ica ig ifica (c ec ed < 0.01) ba ed a ai ed Wi c e ae a ed i h a a e i . The a ge GTE da a e (adi e_ i e, b d, b ai , a d i ) a e c ide ed i hi e a a i beca e f he c ide ab e a fc i g i e e i ed e g a f ai a ge da a e . Fe e c ai be ee f a e a i ica ig ifica he e a a ed he i e-a a e g d a da d, b C a d C e ai ef i g eh d f b h GTE a d SRA da a e . 77 F A2.14. - . The plo ho he agg ega e acc ac of all coe p e ion ne o k e l ing f om each indi id al o kflo ing ( ) GTE and ( ) SRA da a e , e al a ed ba ed on he i e-nai e gold anda d. The o kflo ( o ) a e de c ibed in e m of he pecific me hod ed in he i hin- ample no mali a ion, be een- ample no mali a ion, da a an fo ma ion, and ne o k an fo ma ion age . The pe fo mance of each o kflo i p e en ed a bo plo ( i ho o lie ) ha mma i e he log2(a PRC/p io ) of each o kflo he e a PRC i he a ea nde he p eci ion ecall c e ( ee Methods). The o kflo a e o de ed b hei median log2(a PRC/p io ) fo each panel. The i la ge GTE da a e (adipo e_ i e, blood, blood_ e el, b ain, e ophag , and kin) a e no con ide ed in hi e al a ion beca e of he con ide able amo n of comp ing ime e i ed o e log an fo ma ion on la ge da a e . 7 F A2.15. - . The plo ho he aggrega e acc rac of all coe pre ion ne ork re l ing from each indi id al orkflo ing ( ) GTE and ( ) SRA da a e , e al a ed ba ed on he i e-a are gold andard. The orkflo (ro ) are de cribed in erm of he pecific me hod ed in he i hin- ample normali a ion, be een- ample normali a ion, da a ran forma ion, and ne ork ran forma ion age . The performance of each orkflo i pre en ed a bo plo ( i ho o lier ) ha mmari e he log2(a PRC/prior) of each orkflo here a PRC i he area nder he preci ion recall c r e ( ee Methods). The orkflo are ordered b heir median log2(a PRC/prior) in each panel. 7 F A2.16. - . The lo ho he agg ega e acc ac of all coe e ion ne o k e l ing f om he o en indi id al o kflo ing Pea on (bl e) o S ea man (g a ) co ela ion o b ild he ne o k ing ( , ) GTE and ( , ) SRA da a e , e al a ed ba ed on he i e-nai e gold anda d. The o kflo ( o ) a e de c ibed in e m of he ecific me hod ed in he i hin- am le no mali a ion, be een- am le no mali a ion, and ne o k an fo ma ion age . The e fo mance of each o kflo i e en ed a bo lo ( i ho o lie ) ha mma i e he log2(a PRC/ io ) ( , ) o he log2( 20 / io ) ( , ) of each o kflo he e a PRC i he a ea nde he eci ion ecall c e and 20 i he eci ion a 20% ecall ( ee Methods). The o kflo ae o de ed b hei median log2(a PRC/ io ) in each anel. Pea on co ela ion clea l ield be e e fo mance in all ca e fo he SRA da a (i.e. da a e icall gene a ed b indi id al e ea ch lab ). Pea on al o all ield be e e l fo he GTE da a a ell, and mo e o hen con ide ing he acc ac of he o - co ing edge (e al a ed ing 20 ). 0 S a N Ra a c a a a T e def f e e e c e a c c a a ec e e a a g e acc ac f a e , c d g a c e e e . O c ce a d de g f g d- g GO b g ca ce a a ba ed a be f fac c d g: A) a de a c e e GO c -a a , B) e a ca f c e e e f f c ed c , a d C) e e a e de a a e e ab ed e e g a d f GO-ba ed g d- . A) P de c e e GO c -a a . F e c ce f g - g ge e-e e ec e , de a e a c e e be ee ge e ca be d c e a d acc a e ed e a a e ge e f c a d e [1, 2]. A be f e de a ee c e ed e c e e c -a a e a d a e a c e e ed ge e a e g e be a c a c - eg a ed a d a e f e f c a e a ed eac e b e f a g a e a e b g ca ce g ca a [3, 4]. B) C e e c ed d e e c . Ge e f c ed c a d ge e d e de ec ae e a a d c a ca f c e e e . T e e a ca a e ba ed e fac a f c a - e a ed ge e a g ( .e. e be f a ec f c b g ca a a ce ) e d be c e e ed eac e g - g ge e-e e da a e . B e g a ca , c e e e a e f e bee cce f ed e ea e ed c ge e f c a d a a e be [5]. F e, c e e e ae fe e ed de f f c a d e ( .e. e e a a / ce e ) b c e g e e a d ef g GO-ba ed f c a e c e eac c e f ge e [6]. T e ef e, a e e f e a ed d ea e e c a ca , ec e e a a e e acc ac f e e gc e e e ba ed e ab eca a e ge e f c a ea . C) S e GO-ba ed d- e e c a ea . S ce f c a - e a ed ge e e d be c e e ed eac e (A) a d c e e e ae e ed fe ge e f c a d a a / ce e be (B), e ea ed a d be a ae e a ae e 81 a a a a a a a a a -a a GO a (GOBP). H , a a - a a a ( a a ) GO BP a a a a .F a , G O a a a a a .F , a a a a -a a a - . T , a a a a a a a a GOBP. F , a GOBP a a . F [7], 607 GOBP . T a a a a a ( a / a a ) a : T , a : / G a a GO T, a a a G a T? . O a a a a a a a -a a a a a a a a a a a . S a , a a a a ( a a ) a a a .S , a a a 75 a GOBP a a . T , a a a a a , a a: 1. T a -a a a a 2. T a -a a a a ( ; - a <0.05) 3. Ea a a a a a a a G a a a -a a a ( 1) a a a a a . T ( 2) a a a a a ( a a a ) a a a . R a a a a a a a a a a a a . T a GOBP- a a a a a a a a a a , a a a a a a a a a a [8]. B , a a a a a a a a a a , a a ,a a ,a 82 a a a a d a a . Ca a a c c c c .U a GOBP a a a a d da aba c a ba ad a a a c ca a b a a a ( a d b KEGG a a [9]). A a , d a c c c c ( b b a a d ) d d b ca c c (F 3, [8]). F a , a a c da d a da d c d a a b d d ca a d c d a a b a .T c d , c a a a a a d ac ac a a a d ac ac . I a , d d- c ( . ., d a da d) ba d : ab d b a ab c c b c a d c a c -a a ; a ca c d a c ; a d c d a a c a - a d a d a d a ba d a a a c c GOBP. O a a c W a c d ab a c a d a da d c cc d ac a a a da a . F a , a d c a d a da d ba d c -b d b a a c ac ( C IP-S ). H , ca b d a c ac d c a d ca c a ac b a c ac a d a d d ca c - a (c ) b a . T a a a a b a a c a a d TF-b d -ba d d a da d ad a d a c a b a d a a d a c , ad , a , da a a . W a a d c a a d a da d ba d c -a a d - c c GO b ca c . H , a a a a da a c a d a da d a a a d a . A a d a d - da a c c d- c [9]. H , dd c - da a a a d ab : d da a a c d c a a a 83 a a - ca b c ab a a c c . T , a a c c a -a a ab - aa c a a . RNA- a c ca c c a a ca ac c a a .T c ca c a ac b a c c a c (GC c , , a c a b c , c) a a b a RNA/cDNA a ba ( RNA A+ a c , c a c , c c , c). A ac ca a ca c a a c a , , c a ca . A , - c a c [10]. A c a , a a a a a c a c ca b a , c c .T , ca a b , a a b aa a c a aa a b a a c ca b a . I , c c b b a a b a b RNA- a ( 15,000) 35 a 200 a a a c b a a a . I b a c ab c c aa - a c a c a a c aa a a a a, a R c 2 a a a a ab a a . C , b a , - a , a aa - RNA- aa a c aa GTE a a a a a c c a a -c a a ca c ( R c 2) a a a a ab a a . F , - a a a a ab , c a a b a a a . T - a c a acc ac c c .S , ca , c c a - a ac a a aa . E ca c c a a - b a ac a , - c b a a c ab a ca b a ca . T a a, a ca , b ab a a - a a c a (a a [9]). T b c a, a a b ab a a a c a b 0 a 1. T a a a a a a a c c a a a a . A c b D c c , a -c a a ba ( b a a - b -c 84 a a ) a a a a a a a . S a a a a a a a a a . E a a c a a T a a a a a a a a a a ( ) a a a a ( a ), a a -a a GOBP ( a ). T , a a a ( a RNA- aa a a a ) a a a a a : a a a (. . a ) a a a a a a ? W a a a a a a a - a a a : 1. W a a a a . 2. T , a a a , a a , a , a ,a a a . a. G a a a a a a , . F a a a a ( . ., ) a (TP). . N a a a a ( . ., a ) a a (FP). . G a a a a a , . F a a a a ( . ., ) a a a (FN). . N a a a a ( . ., a ) a a (TN). . T TP, FP, FN, a TN a a a a (= TP / ( TP + FP ) ) a a (= TP / ( TP + FN ) ) a a . 3. A a a a a a a a - a . 4. F a , a a (a PRC) a a 20% a ( 20 ) a a a a a a a a a . 85 EFE E CE 1. E MB, P ,B PO, B D. C - . PNA 1998. 2. E, F N, K D, .A .N G 2004. 3. A DJ, K I , B AJ. - , - . BMC B 2004. 4. C AE DM. - . N 2004. 5. , AK, K A, A M , A, ,C DC, G C , B LA, K N, C M, L K OG. - . N M 2015. 6. B, H . A G F G C -E N A . A G M B .D G ; 2005;4. 7. G C , K A, AK, E, A, H D , ,H BM, E, C, C DI, F G GA, D K, G OG. - .N G 2015. 8. M CL, B D , H MA, H C OG. F : . BMC G 2006. 9. M C MN A A. A G C .B B 2012. 10. , ,D , . NA NA - NA- . C L , 2013, 56: 134 142. 86 CHA E 3: LE E AGING BLIC AN C I ME DA A I H MACHINE LEA NING INFE AN-B D AGE- AND E - ECIFIC M LEC LA HEN MENA Bac - - 1 2 5. , - - . , , 6. , 2 8 , 7.A , 8, 9, 10 , 11 . ( . ., , , ). A , 12,13 . , , - . , 87 [12] GWAS [14]. A - - - 25 NCBI GEO [15] EBI A E [16,17]. T , , , , , [18,19]. A - . O - - 2016 M [20] 22 - 2,500 15 (Fig. 3.1b). P , - 2015 [21] GTE [22] . A , , 1,641 RNA- 40 175 . GTE 17,000 948 - . G [23] GTE GEO - 14 . G P [24] 88 - 6 GTEX 2017, 2019 - (SAGD) - ( ) 2,828 21 . L N [25 GTE , , , - 12 . I 2020, L -R [26 GTE . F , GTE 2020. E - , GTE , . GTE , M . T G , SAGD, 50-50 .M , SAGD , GTE . E - .O - 27 , , 400 P M [27 2007. A H [28 488 20 75 89 a e. A a e a c d a e-b a ed e e e e a c ed ce e a d a e ed c [28 33] a d e ce a [27,28,32,34,35] a d/ de e e [36] d ee a e e .T de W e e e e ad ed e de , e e a bee d e d a e a e -de e de a e, e ec a a d e c a ec ca , ee e de ce a e ce e a [32,37] a d de e e [38] ca e -de e de d e e ce . T e e a e a e be c a ac e e e- ec c e e eac e a d d ee a e . H e e, ee ae a a eed be add e ed. F , e e de b c e ee e da a a e c ed a e e , e e ad e e,b ae de ea e a e a d e d e e ce a e a e e. Sec d, e da a ed e e de ( e GTE ) e ea a d ad a d de d d a .T d, e a b a e ac a a e ea d e ec c a e a e e a a e ca e a e be d e. We a e e e ed e ce a , b ec a ce e a cc a ec c a e a e a e a . I e a a a e b d da a a c - e a ea da a e - e- ec c a . T e a de e ea e d ed a d b c -a a ab e e e e e e ad e a a e a d e e ada a e , c e , d a ed. E ec a beca e a e a d e a e bee ca de d ed, e a a e e a e ae a c a ed a a e a d e a . Sa e de c a d c a a e a e b ed ee e a d a aea a ed a e abe 90 a ae a f a ea d ec e def ed a , f e. ., d , ad , fa ( .e., e a c a ed a e a e ), a d ff c f e ea c e ea a e e e da a e . I d , e e e e a e eff c a ac e e a e- a d e -b a ed e e ac ee e a fe a f b c a c e .F , e a a c a ed e a e e - a d a e-a a ed b c a c e da a e c a ea 30,000 b , a a c a a a d RNA- e a e f a e f e . Sec d, fe a -b d ec a ce e ac ed b a e a d e , e ed e e a c e a d e abe ca c a e a e- a f ed e -b a ed e e a e a d e - a f ed a e- - ec f c e e a e . T d, e e e a a a d a ca da a a da aba e , e a c a ed a e e a e/ e e e a e d ed f b ed ca e e c d b ca ce e / a a , e e , a , a d d ea e . We a e a e abe , e e a e , a d a c a ed b ed ca e e a a ab e a G H b e . T e e e ce e ab e ce d e - ec f c ea a d d ea e ec a a a e f fe. R C a a a e da a e f a a e- a d e -a a ed a c e T c a ac e e a e- a d e - ec f c e e e e a e , ef d aded a a a ab e a c a a da a Ge e E e O b (GEO) [39] ea ed e a e af a da a RNA- e da a a a ab e ef e.b [40]. We ed e e ac d aded a e de c f GEO a d e Se e ce Read A c e (SRA) [41] a e a abe f e aSRA c ea e a e f 91 a c a ca d a a d a . W ad a a d d c a acc ac a a d ab , a a a a a b , a a a . O a a a c a a a b a a a d c a -a d - c c c a c a a a a b . I add a da a d ab , da c c da a, a , c b a , d a , a d c .C d d d c a Y ac Xc [42], a ab ab c b a c [43 45], a dc a a [46]. O a a d d d a ba d ac ac a a [1]. T a a a b a a d da a dd a a a d d a (F . 3.1 , F . A3.1) a d a b ba d ad a b d, b a , a , ,a d (F . A3.2). A ba d b c d d, a a - -b a d a d d b c a a , c c a a ca c a d a c d . F a , a a d d db a a -d a d [21,24,26], b c GTE c d [47] d d b a c c c . P -C a a d c a c d a a a c c c c d a ca d a da a [35]. O a a dc , 92 G E ( ) 48 . N , , , .H , (< 0) - . 93 F 3.1. W a d da a. (a) D G E O . RNA- , .A SRA .T .F , 4 F 3.1. ( ) , . (b) . NA- , NA- .( ) ( ) ( ). A - a - a W a - a - ab a aa a - a -b a . I a a a RNA- a a, a a a a - a , a a a , b a a b a aa F a a Ma a . Ba a a a a a a - aa a ba a a F a Ma a (F . 3.2a; Me d ). O 19 a a ba a a a 0.8 a a a a a RNA- aa a a X Y (F . 3.2 ). A b a a - [12], a a -b a . T F a -b a IS , a X a a , a SI , a RNA IS . T a , ANOS1, b a Ma -b a a a a a a X . M a ANOS1 a b a a a a Ka a S [49]. 95 - , . E 0.8 , - - LG 4 , ( . A3.3). O - . F 3.2. S ba a a . (a ) D - X ( ) KDM5D ( ) . (b) T ( ) 0.8 ( ) RNA- . , . RNA- , 0.65 96 (F . 3.3). 0.8 , , 4 - (D P9, CD99, HOC2, MA CA1) . F - KDM6A, . F - - EIF1A , P DP, F . .I , - (F . 3.3), F - (26), . . ; - . 97 F 3.3. N b -b a a a .T (a ) F - ( )M - .T (b) F - ( )M - . Age g edic i n a ified b e N , ac , aa ca a ab a b a - a a -b a . W a a a ac a b a a c a a , ac , RNA- (Fig. 3.4) a c a a (Fig. 3.5) a a aa . W a a c- a c a a ba a c c b c a .E aa a a 98 a a a a - c c a (F . A3.4). Ac a a , ML ba RNA- c a a (F . 3.4 , , F . 3.5 , ). I b c , a a a aa a ,a c b b b a a c c a a a (F . 3.4 a 3.5). F 3.4. NA- .T a a , , a a a 99 F 3.4. ( ) A- (a ) F ( ) . C A- ( )F ( ) . I , ( . 3.4 , , . 3.5 , ). 3.4 3.5 C ( C) 3 ( ) . C . , ( ) .H , C , - . , 2 ( C/ ) ( . 3.5-8). - .N , C. , NA- , ( . 3.4 , , . 3.5 , , . 3.5-8). 0-2 NA- , ( . 3.4 , , 100 F . 3.1c). I , , (F . A3.9). F , 45 60 . (F . 3.5b, , F . 3.1c) , - . E , (F . 3.10). , - ( ) , (F . A3.11-16). - - ( Di c i ). , (F . A3.17-21). A , , , .F , , . . C , - A- , . 101 F 3.5. S a a a a a . , , (a ) F ( ) M . C (b) F ( )M . F a , e c -a e- e a a (Fig. 3.4 a d 3.5) a de ae a e a e de ca e e c ca ea be ee a e . We a ed a e e ec e b d d a a e ca e e 102 . T , , - . E . A - - , ( ) - ( ) . D , (F g. 3.6). T RNA- - . A , , F (F g. A3.22) F 3.6. P a c a a a a a a . B a ROC a RNA- a a a F a a Ma a , b , ab ,a a a a a ( ). 103 S - a da -b a d We def ed e - a f ed a e-b a ed e e e a e b c e e a ee a ed a e e e c e d de a ea f e f d ac e f d be ee e c a a a d RNA- e de , a - e a e e e e a f d, f a . T e dd e a e a ea e be f a e-b a ed e e a e a e (F . 3.7, (F . 3.4a,c, F . 3.5a,c)). Ac a a e b e e , e be f a e-b a ed e e f eac c e e d c eae e a be f e e ec e. S a e d ae e e e a e - e ed e e f de eac e (F . A3.23). I a , ac a a e , 6,488 e e a e a e-b a ed Fe a e de a d 6,975 e e ae a e-b a ed Ma e de , b 2,838 f e e e aec be ee e . T e a a f e e a e-b a ed e e a e b a ed ea e e e (5,447 Fe a e ; 5,734 Ma e ). I eac e , ab 1,000 e e a e a e-b a ed a e , a d 100 ee a e , a d ab 10 f f e a e . Ta e e e e d ef a ce f ed c de , e e e e a eac a e a a d c e e a e a d a de e e a d a ce e a e e - ec f c d ffe e ce de ec ab e a e da a e . 104 F 3.7. N a - a a a a . T - - (a ) F ( )M . E c ed e e e a e e e a e- a f ed e a e A - .T ( ) , [50 , [51 , [52,53 , [54 , [55 . F , - 105 a ba a a a , a a a ab aa F a Ma a ( a) a a a a (S Me d ). W a a a a a a ( . ., ) a a a ( Me d ). W a a a a a a a a G a (2016) [23], SAGD (2019) [56], a GTE (2020) [47] a a a a . O a , a b .T a GTE a , a [0-2] a (F . A3.24). H , a a GTE , a ab a a -b a a 2. A a a a a a ba a a a a a a a a aa b a . H , a a a a a a a a . A a a a a b a a a a a . N ab a a -b a a a a a a a a [57,58]. W a a - a (F . 3.8 ) a a- a (F . 3.8 ) b a b F a -b a a a . N ab 106 c de e < 0 a d (2-8] age g . A e a e d ca be b e ed e e c e f e d ea e ( . 3.8 ) a d e e e ( . 3.8 ). C e e de [59,60], e a e ge e f B ce , T ce , a d d ce e d be Fe a e-b a ed e g a e ( . 3.8 , ), aga e e ce f e < 0 a d (2-8] age g ,a d e (60-70] age g f B ce . We a b e e a e d ce e d a e Ma e-b a ed e c e e ge age g (c e a e d [60]) a d Fe a e-b a ed e c e de age g . F e, e f d a e ab c ce e be Ma e-b a ed age- a f ed e g a e , c e f d g f a e d [23] ( . A3.25). T ge e , e ee c e e d ca e e e a f g a e e ga e e d ffe e ce f - e ce e c a e e e a d e ab c ce e , a g c e d g d ea e ec a d ffe e age f e a fe a . 107 F 3.8. E a - a - a a . F - - - . H (a ) ( Methods) - G 108 F 3.8. ( ) (b) ( Methods) - GO , ( ) - , ( ) , ( ) - , () , ( ) - . E c ed e e e a e e e e - a f ed a e a e I , . , - - . H , , , ( Me d ). , - , , , , ( Me d ). (F . 3.9a,b) (F . 3.9 , ) . A - - , F , 61 . I , F- B , 60,62 . , 109 c a b a a , c a b d d [63 65]. T , a a a a d c a b d - c c c a a dd . F 3.9. E a - - a a a . A - - . H GO (a ) F ( )M GO ( )F ( )M .E S +0.8 0.8 . 110 D A , .I , . F , - - - , . , - - . - - - . - - , , . Se and age g edic i n f m gene e e i n , .A , (Fig. A3.2). B , , , , . , - - .H , - - 35,47 . - 111 age [29]. Re a d K a [33] ece c a ed e e a d ffe e e- ec f c a d ac - e ge e e e a fea e f e e -ba ed age ed c de g da a f GTE . T e e a a ac - e ge e e de ed f e e ac a GTE e a e a ef a ce ed c g d ffe e a e e ed ge e f a g e e. W e a g e e a d ed c g age a e, e ac - e fea e e a e . We e ed age g ed c g b d a e da a e a d f d a ed c ef a ce dec ea ed age g (F . A3.11-16). C b ed e f e de , f d g gge a age g a- - e a e e c d g e e f e e . I de e g e -b a ed ge e , ef d a b e g b d a e d e ea gf c a ge e e (F . A3.3). I add e ba e , da a e a ce a a d ea e b a e d e ee d ffe e ce e c de ce f d ea e d ffe e age a d e g ,a g e e d be d ed. T e Na a I e f Hea fec d ea e , b a d de , a d ca ce a a g -f ded d ea e e ea c ece ea [66]. A e ec ed, e e d ea e a e a a ge be f e a e da a e . Age g ed c a e d ff c e dd e age g (F . 3.4b,d, F . 3.5b,d, F . A3.5-8). T g, a e e a fac , fe e, a d ag g beg c b e e e e ge e e e age g ,a g ea a d f [67]. T a ef ec ed e a be ee age g de (F . A3.17-21). T e e e a be ee e g age g de a de age g , e ec a e c a g ac e e a d ec ge . T e 112 d a b RNA- a d c a a d d c ca d c c d a d c d a c a b RNA- a d c a a . N , d a a d a d ac c , b a a a a b ca c a d a a , c ca b c a c b c . E ichme fe e ime al ge e e i age a d e ig a e O a - a d - a d a - a d b F a -b a d (Fig. 3.8). F a a d c a a Ma a d c b c a d c b a d a [58,68]. T c a d c b d, a F a acc 80% a d a cc c [57,58]. A a d a cd c a a c b , b a c a d a a a ba a d Ma a c a d a a d a a d a , a d Ha ' ad F a a c [69]. T a - a d d b F a -b a d a b c a d d c . O a - a d -b a d a ab ca a - b d d c c c .A d d d a a d 20 35 a d a F a a a b a d B c [59]. A d c d c d b M a d c a a a d d a a d 22 93 a d a Ma - c c d c B c a a 65 [60]. T d 113 a f d a d ce a d T ce a be e ab da Fe a e , e a e e e fa e d a ad f d a e T ce ec f ca be e Fe a e [70]. T e e ce e ae ec Fe a e-b a ed a e- a f ed e -b a ed a e (F . 3.8 , ). O e e a d, e e e ed M e e a d a f d e d ea e ce ( a c a c e ) be e ab da Ma e [60] (F . 3.8 , ). We b e e Ma e-b a e e a e .A e e, a e c c da ce e -b a e b e ed e e de , e a e be e ce e d e a -b d e -b a ed ce e a d d ea e ec a . We ed e ea a a d a ed ce dea ce e a c a ed c ea a e e - a f ed a e-b a ed a e , c ae e be a c a ed e ce f a [61] (F . 3.9a, ). P e e a f NF- a aB a a d e a e e a f c e a a c a ed c ea a e e Ma e a e (F . 3.9 ). T e e b e a ae c e de a NF- a aB a e a ce [62] a d a ada e ef c dec ea e a e, e ec a e [60]. O e ce e a c a ed dec ea a e a e de e e a ce e a d c a e fb a a (F . 9 , ). Se e a de a e a c a ed c ea ed a e e c a e e e a d e e a d c ea ed d e a f ec a e e [63 65]. T e e b ca - ea f a e a ca e f e e da a-d e a e f e a ec a ce e e a ed a a d de e e . 114 A a ab da a a d c de W a 30,000 a - a -a a a a a a a a a a ab aG H b a a a b . O - -b a a a -b a a a a a b a a b a ab b a b a a a b b a a . T a a a a a a - a -b a a a , -a a -b a a ,a / a a a a a a a , , , a , a a a a a a a . F a , a a a ab a a a ab a b a b a a a a a b a a . M Da a c ec W a a a a aa G E O b (GEO) [15] a a CEL . D a a , aa a A G 133 2.0 A . T CEL ba b a , a a a , a a a RMA [71] ba CDF [72] a b E ID . W a Sa [73] a 115 a RNA- a a a ab .b [40] a a 50% c . T Sa -ca c a TPM a a RNA- a a a a . W a c a a a b a , a a 18,478 . C a a ea d e abe A a ab c a c a a a RNA- aa ac b a a a a c a . F c a a a a, a a c c a a GEO a ac a a ca a a a a .W a a c c - ac ab b a a c a a ab a c c a ab a .F RNA- a a, a aSRA [74] 1.8 a a ca a a a a . W [75] c a acc aa S c R a Ac (SRA) [41] ac a aSRA .b . W a a c c ab a b a a c ba SRA. B c a a a RNA- a c a a a a a a a , a ca RNA- , a a a b a (. . c c ). E a a c c , a ,a a . A e- a ed e -b a ed e e S -b a aa c a a a RNA- a a. W ac a a, a ac - c ac a a . 116 . F , - F 0.2. E , .E F M . B ( ) F M , F - . 0 1. I , 1 F ( F ), 0 ( F ), 0.5 . - . F - (F g. 3.2, F g. A3.3), F - 1 M - . 1 𝑇 𝑒𝑃 𝑖 𝑖 𝑒 𝑇 𝑒 𝑁𝑒𝑔𝑎 𝑖 𝑒 𝑏𝑎 𝑎 𝑐𝑒𝑑 𝑎𝑐𝑐 𝑎𝑐 2 𝑇 𝑒𝑃 𝑖 𝑖 𝑒 𝐹𝑎 𝑒 𝑁𝑒𝑔𝑎 𝑖 𝑒 𝑇 𝑒 𝑁𝑒𝑔𝑎 𝑖 𝑒 𝐹𝑎 𝑒 𝑃 𝑖 𝑖 𝑒 1 𝑇 𝑒 𝐹𝑒 𝑎 𝑒 𝑇 𝑒 𝑀𝑎 𝑒 𝐹𝑒 𝑎 𝑒‒𝑏𝑖𝑎 𝑒 𝑖𝑐 2 𝑇 𝑒 𝐹𝑒 𝑎 𝑒 𝐹𝑎 𝑒 𝑀𝑎 𝑒 𝑇 𝑒 𝑀𝑎 𝑒 𝐹𝑎 𝑒 𝐹𝑒 𝑎 𝑒 L gi ic eg e i del 117 Se a a e f c a a a d RNA- e da a, eac e , f eac age g , e a ed a e- - e g c eg e de a ea c e e a . RNA- e da a a a a f ed b e ca g a ed. I e e e / ec g c b a , ee f d f a e a e e e c ea ed f c - a da b a g g e e da a e a a e, g b a g g e ee a ge e a g da a e eac f e ee f d a a e a e e be f a e a d da a e a e a a b e ac a f d . I RNA- e da a, 145 fe a a e ee added b ed c g e a e e f a c ea e e be f a e a be ab e f 3-f d c a da . Se a ed c ed ba ed 15 ge e e 0.9 ba a ced acc ac e aa g Fe a e a d Ma e a e a ee e c ff. O a e e ag ee e a ea 13 f e 15 ge e e e abe ed e ed c ed e a d e abe ed e . T c ea e e - a f ed age g a e b d a e , ea g ed e 3 a ge da a e f eac age g e f ee e f d a gc ce ee f da a e ge e f ee a ac f c ac age g .T e e eac e f d ad a ea e da a e a ea 5 a e f a g e age g , e e c ded age g e g da a ee e d b c a a a d RNA- e da a. T e e a g da a e ee ed a g f a ee e f d . T e f d e a d age g d b f a de ae F g e A3.4 a d A3.10. C a f he ge e e f e ch e a a Ge e e f e e d ffe e a e e d e , GTE , SAGD, a d G a, ee d aded f e e e a da a e e ec e b ca . We ed a ge e dec a ed g f ca b e a f a def ed g e ad 118 . B P (E P, IDA, IPI, IMP, IGI, A , IC) G O 50 G O B P (GOBP) . GOBP 10 200 . H M I 52,53 :// . . / / / / .9606. . . M I M 76 . M 10 . P M G I 77 (MGI) :// . . . / / /MGI G P . . MGI :// . . . / / /HOM M H . M P O 78 . G A A 51 3 :// . . /#: : =P %20 %20 %3A-, A LA 20191115,-. . %0AE MAGMA :// . . /#: : = A LA 20191115 P. 25 .C I 55 : :// . /I A / - / / / DB . . 119 E ich e a al i I , . F , - - F - ( 1 +1 2 1) , . , . 100,000 . - - A- F - . A- ( ). F - , - - .A (3 A- ,3 ), - , 3 , A- M . ( ). F , +5 5 , . 𝑍𝑚𝑖𝑐 𝑜𝑎 𝑎 𝑍𝑅𝑁𝐴 𝑒𝑞 𝑆 𝑜 𝑓𝑓𝑒 ' 𝑍 2 120 F ea a e e e a e e e e e / e , e ac a e [79] a ed da ed da e e .T e e d d ca d a e e e / e ee a e ca e a a a e a ea e a e e e . T e e a e ca e e e e a e e d ca ded e . 121 EFE E CE 1. O C, L DA, G . - .N G .N P G ; 2008;9:911 22. 2. C JA, C F .P : NIH .N N . 2014;509:282. 3. C, D D. A . P . 2017;121:83 93. 4. H AP, A, K D , - I, G D , AD. D I O A C :P O P P C .A JP H . 2010;100: 105 12. 5. F , B, P C, M L, B JA, , .P : .A H M . 2018;9:87 94. 6. H A, G D ,K AJ. D .JC B F M . AGE P L M; 2012;32:2100 7. 7. JG, E C. A D .C A A . 2015;15:28. 8. C AM, L , G, I, D, G AB, .I I B A A H .NE JM . M M ; 2009;360:1509 17. 9. B E, C - O, K, A, P J, A. KB .N G . 2021;53:1283 9. 10. C A ,L O M, C I, G I, C JF, C A. B C . E M . 2020;31:785 99. 11. C E, J, K , G, ,K G, . D O A EMI: E M A . JAMA I M . 2018;178:632 9. 12. K EA, D LK, BE. .N G . 2019;20:173 90. 13. ,F P, M, G F. P : .I JB M . AGE P L M; 2019;34:3 5. 122 14. ,D BA, N D, B A. G A :A . C . 2019;177:200 20. 15. B , E, L ,E C, K IF, M, . NCBI GE : -- .N A . 2013;41:D991-995. 16. K N, H E, K M, M , A, E, . A E .N A . 2015;43:D1113 6. 17. A A, F A, G N, I H, H L, A A, .A E - .N A . 2019;47:D711 5. 18. G C ,K A, AK, E, A, H D , . - . N G . 2015;47:569 76. 19. K A, , , CL, AK, A, . G - .N N . 2016;19:1454 62. 20. M B ,B -M ,B ,B J, C , C, . L G E M -A - , -B G E H .F G . 2016;7:183. 21. M M, F G, F, D L D ,M J, M, . . . 2015;348:660 5. 22. L J, J, M, , L E, , . G - E (G E ) .N G .N G ; 2013;45:580 5. 23. G , , , G, G, C .I - .B B . 2018;19:188 98. 24. G M, . - . BMC B . 2017;15:7. 25. N ,G AK, H JF, G ML, M N, DC. C , , - . .A A A ; 2019;365: 7317. 26. L - CM, C C- , K ML, JN, A ,F M, . D G E N 29 H 123 .C . 2020;31:107795. 27. M J ,C J, C GM. M - - .B . 2009;25:875 81. 28. H G, G J, L, L, H G, , .G - M H A .M C . E ; 2013;49:359 67. 29. F, J, L H, L , ,L , .I H A G E F M .F G I . 2020 2022 N 11 ;11. A : :// . . / /10.3389/ .2020.01025 30. B ,F M. A .N M .N G ; 2022;19:969 75. 31. F JG, , HH, ,I A, MN, . .G B . 2018;19:221. 32. MN, J AA. M , , .A C . 2021;20: 13280. 33. ,K F. NAA C :A - . LO ONE. L ; 2020;15: 0237006. 34. MJ, J , LC, C, C KN, J, . .N C . 2015;6:8570. 35. -C D, C A, M, H B , H AC, M J, .C . BMC G . 2021;22:184. 36. C -M M, H J, D, B, C C, , .G .N . 2019;1. 37. H ,J J. . L . 10: 63425. 38. M JE, EJ. D : .D . 2021;148: 199750. 39. E ,D M, L AE. G E O : NCBI .N A . 2002;30:207 10. 124 40. G C , H D, J ,L ,M D , , . . I . . . 2021 13 . A : :// . . 41. L , H, M. A .N A . 2011;39:D19 21. 42. J, ,C , ,M ,L L, .F - - . L . 6: 28070. 43. K G, D JM. C . . 2012;2:1 5. 44. G J- , ,G MM. C C C L . JNCI J N C I . 2013;105:452 8. 45. F E, C A, A B. L - . BMC B . 2021;22:168. 46. C -D A, G, A I, D HG, K A, M L AF, .C !A - .I J C . 2010;127:1 8. 47. M, M -A M, K -H , ,G ADH, C DJ, . . . 2020;369: 3066. 48. , C, ,L ,H A, M G, .I DNA . 2018 2018 J 1;A : :// . / / /10.1101/327890 49. G CI, F F, B ,C F, L MC. E AN 1 .H . 2017;32:704 11. 50. A M, B CA, B JA, B D, B H, C JM, .G : .N G . 2000;25:25 9. 51. L , D, L C, B, , , .G A A : .N A . 2022; 924. 52. M M JA, K , NL, B J ,B C, B M, . N F : M I .G . 2016;203:1491 5. 53. KA, H NL, G M, M N, D, B M, . M I 2019: .N A . 2020;48:D704 15. 125 54. E J . G I ( GI) :G ,G , B K L . ILA J. 2017;58:17 41. 55. I A, G AK, A .F - - - - . C . G ; 2022;13:1246. 56. - , -A, C- , L C-J, L -H, D- , . AGD: - . A . 2019;47:D835 40. 57. CC. . I . G ; 2001;2:777 80. 58. K L, F KL. . I . G ; 2016;16:626 38. 59. A ,C - ,C - , E , , C , .G .C I . 2012;272:214 9. 60. EJ, C C, , J, -B D, E A, . - . C . 2020;11:1 17. 61. J. .A . 2015;23:90 100. 62. G -G A, A J , A, C L. F- B A A - D :L G .C . D I ; 2021;10:1906. 63. C B, J, J J, , HA, B C, .C H :A E A .JB E I . 2015 2022 12 ;137. A : :// . /10.1115/1.4029430 64. J, CD, CL, D ,H K, L, . A - - . JCI I . 5: 137519. 65. , ,L , A C. A - .B . 2002;31:1 7. 66. I H . ( ) I . . . . . 2022 2022 16 . A : :// . . / / - #/ 67. D, E ,F -F, D ,K , C. H 126 H A :E C A . JA G . 2021;69:678 87. 68. G - C, B , G, G - B. H , , . A C .J & , ; 2015;14:309 21. 69. A D A D ? I . 2022 16 . A : :// . . / / - / - - - - - - - - 70. C, D F, J ,H A, B , A, . D I CD4+ C A A A : -E A . E. ; 2013;8: 71498. 71. C ,B B ,I A. F ( A). B E . 2010;11:242 53. 72. D , ,B AD, G, A B, J EG, .E / G C . A . 2005;33: 175. 73. ,D G, I, I A, C. - . . G ; 2017;14:417 9. 74. B ,D A, D C . A: - A .B . 2017;33:2914 23. 75. G - , H (J ), ,B A . I . ; 2022 2022 6. . 2022.05.18.492548. A : :// . . / /10.1101/2022.05.18.492548 2 76. A, A, ,F JE, H H, D , . : , I . ; 2022 2022 6 . . 2022.04.13.22273750. A : :// . . / /10.1101/2022.04.13.22273750 3 77. B JA, E J , JA, JE, C ,B CJ. G D ( GD)-2017: . A . 2017;45:D723 9. 78. C ,E J . : . I B . 127 2009;1:390 9. 79. , M, B A. : . BMC B . 2022;23:293. 128 APPENDIX F A3.1. N a a aa a a a . N (a) RNA- ( ) .N ( ) RNA- ( ) . 129 F A3.2. N a a .N (a) RNA- ( ) . 130 F A3.3. M - a a a a a . ( ) 0.8 ( ) A- . 1 1 F A3.4. F a a . (a) RNA- (b) . ( ) RNA- ( ) . 132 F A3.5. NA- F .T a a a a a 2(a PRC/ ) a RNA- a 3 a F a a a a ab a a a a a ab a . 1 F e A3.6. Pe f a ce f RNA- e Ma e a e a e ed c de . T a a a a a 2(a PRC/ ) a RNA- a 3 a Ma a a a ab a a a a a ab a . 134 F A3.7. P a a a F a a a . 2( C/ ) 3 F . 135 F A3.8. P M . 2( C/ ) 3 M . 136 F e A3.9. N be f e a e a e a ROC e f a ce f a e de . C NA- F M . 137 F A3.10. F a a a . (a) RNA- ( ) . ( ) RNA- ( ) . 138 F e A3.11. S e a d e f a ce f RNA- e a e a e ed c de b d a e . T a ba b , ,a a a b a a a a RNA- b a (a ) F a a (b) Ma . T a a a a ROC a RNA- a a a ab a a a a a ab a (c ) F a a (d) Ma . 139 F A3.12. S . , , ( ) F ( ) M . C ( )F ( )M . 140 F e A3.13. Pe f a ce f RNA- e Fe a e a e a e ed c de f b d a e . T a a a a a 2(a PRC/ ) a RNA- a 3 a F a b a a a ab a a a a a ab a . 1 1 F A3.14. P a c RNA- Ma a a dc d b d a .T a a a a a 2 (a PRC/ ) a RNA- a 3 a Ma b a a a ab a a a a a ab a . 142 F A3.15. P F . 2 ( C/ ) 3 F . 143 F A3.16. M . 2 ( C/ ) 3 M . 1 A3.17. C A- . RNA- F M . . 145 F A3.18. C . F M . . 146 F A3.19. C F . A- ( ) (M ) F . . 147 F A3.20. C . NA- ( ) (M ) M . . 148 F A3.21. C F .T RNA- M . T . 149 F A3.22. P a a a a a a a a a . B a ROC a a RNA- a a a F a a Ma a ,b , ab ,a a a a a a ( ). 150 F A3.23. N - .( )T - F - .( )T - - M . 1 1 A3.24. E - - . F a - a Ma - a . H a a ( )G a , ( ) SAGD a ( ) GTE . 152 A3.25. E - - . F - - - . ( ) - G , ( ) , ( ) . 153 CHAP E 4: DI CO E ING ANALOGO GENE , PHENO PE , AND CONDI ION AC O H MAN AND MODEL PECIE ING MACHINE LEA NING Bac M de a ae c ed e ae de ec a a d d c e ea e c e f a c e a a d d ea e . H e e, a a de a e bee e e be fa f de [1] f a b a d e e e ae c f a b [2,3]. W e e a a a de a d de e de e d d ea e/ a a d ec e , a c a f c , e a , a d d ffe e ce ed da c e [4 6] ca ca e e ec ed d e e ce b ca ce e a d e e . D de e e f be e ed a a de bef e e ae a ed e e P a e I c ca a , a d de ca be e ec a c . A ece d f de e e a d ca d da e e e P a eI e e d f 2011 2020 f d e e d fa a be ab 8% [7]. I a e ca e f d a e, c d a ed c e ec e a e ca ed e a fa e a d e e dea a c ca a ,e e a c e d e a e e ed a a de [8]. T ae e d e eed f e d a ca e e a a f f c a e f e ec e a e. C e be de ec e e c ec e e e a c d c ea e d ff c . Ge e c bac d, e, de e e a a e, a d e e a fac a e a c ca c de a . T e dea a a de f d a ec f c a ec f a b d d a e de ed e e b e de ec a ec a d a be a a a b e. C e 154 c ai a eh d ha a e a ed he e ac ecie e e a ic i ia i f he ic de c i i [9], c ide he be f ha ed h g ge e ha a e a a ed each he e [10]. Se a ic i i a i e h d ig e he ge e ic c e f he ai a d he e c ee b de e di g he e de c i i f he he e, hi e eh d ha e h g ge e e a fai i a ca e d e i c eek edge f he ge e a cia ed iha gi e ai he e. H e e , he e a e e e a i i b ic -a ai ab e a ci e ac i e de ga i a dh a ha he ec e he e cha e ge f de c i i e i f ai a d i c ee k edge. S ecifica , he e da a ca be e e aged fi d e e i fi e ha a e ab e i ic he a ci ic a d ca e f a gi e ai , di ea e, ea e e e ca ed i a h a a e, hich h d ead fi di g he idea e ei e a e i gf d i g he h a bi edica c e fi ee . Ma e i die ha e ed ge e e e i fi e ake c ai ac ecie [11]. The e die ica e diffe e ia e e i [12 14] e i ia i e ic e ab ee e i [15] ide if a a g a e .H e e, a c e i e , ai , a d di ea e ha e ha ed e e i d e [16 18]. He ce, a he i ia c e ac ecie , e e dea e a ec a fea e b j h e ha a e ecific he c e f i ee . A e i ed ea i g a ach a ide a achi e ea i g c a ifie ih ii ee a e f he e e i fi e f a a ic a c e , a , a di ea e, ha eed be c a ed ih ega i e e a e f fi e f he ( e a ed) di ea e . The c a ifie i he ab e a a ica ea c e - ecific fea e f 155 he e e i da a, hich ca he be ed ic a e f he ecie i hich he c e - ecific ge e a e high e e ed. I hi d e de e a da a-d i e eh d i ii e a ci e , a d edic e ei e a e i g i de ga i f d i g a ic a face fh a bi g a d di ea e. R C ge e fea e e ac ecie The fi cha e ge i ai i g achi e ea i g de a e f a ci e i e ecie a e edic i i a he i ha diffe e ecie d ha e he a e e f ge e . The ef e, a c e f fea e be ch e ha a de i ab e ea he eigh f he fea e i e ecie a d edic i g fea e i he he . The ea ie eh d b e a c e f ge e ac ecie i e ai j h e ha a e e- - e h g f each he . O e- - e h g ae ge e i h a di ec e i a eai hi e he ge e i he he ecie [19]. H e e , a a ge i f ge e ae a f a e- - e h g eai hi i a gi e ai f ecie . S , i g e- - e h g i edia e i d ce a i he a fi f ai f a ci e ha ca be ed f hi a . The ef e, i c ea e he be f ge e i f i g he de , e de e ed a fea e e c ea ed b a f c bi i g he e e i f ge e i hi h g g (OG ) i each ecie . O e i b a e agi g he e e i f a ge e i he OG a d he he i b e ai i g he a i e e i a e f a ge e i he OG. We e he a e eh d c bi e e e i f ge e ha be g he a e bi gica ce (f Ge e O g ; GO [20]). We e GO bi gica ce e acc f ca e he e, i he a e bi gica c e , he 156 a ef ci al d le (bi l gical ce e )ae e bed b ia diffe e e be ge e i diffe e ecie . F he , e i die ha e e ed i c ea ed ef a ce i ge e e e i cla ifica i a k b g i g ge e e e i i ah a e e i [21,22]. The a i ale f c bi i g ge e e e i i hi g b a e agi g a d b e ai i g he a i i ha hile he a e age i a g d e e e ai f all ge e i a gi e g ,i i b i c le e k ledge ab hich ge e a e a f hich g i a ecie . Thi ield fi e fea e e f e al a i : e- - e h l g (O e O e), h l g g a e aged (OG -a g), OG a i (OG - a ), GO bi l gical ce e a e aged (GO-a g), a d GO bi l gical ce e a i (GO- a ). Ti e-labeled a le f l i le ecie Al h gh g al i a a ide a ie f a al g bi l gical c e ac ecie , i i diffic l e a icall e al a e he e a i g i e e bi l gical c e ba ed a la ge g ld a da d. The c e f hich e gh a le i f ai i a ailable a d ea il c a able ac l i le ecie i ha f a le i e- f- igi . The ef e, e fi a all c a ed i e label f h a , e, a d eb afi h RNA- e a le (Fig. 4.1). We ch e he i c i e bl d, b ai , hea , i e i e, li e , a d a ac all h ee ecie ba ed e i i g e l ha ee b e e l e ified a all e e acc ac . 157 Fig e 4.1. N mbe f am le i each i e ac ecie . The n mbe of am le in h man, mo e, and eb afi h fo each of i i e . P f f c nce ih i i e U c a d - ab d a c , a da c d ac a c ac a a d d ac d a dc d a a c a d a a c .W a d a b d d c d c - d a c d - ab d a : , ,a d a .W dd b b d a a c b ac OG a d GO c a a c a c , a ac OG GO a d d c d a a ac c . 158 U , - ( . 4.2). 3 , , GO - . GO- GO- . 6 , ( . 4.2). P , , GO OG- . I , O O . GO- OG - OG - , GO- . O , , . 159 Fig e 4.2. Pe f a ce f i e cla ifica i del i g each fea e e b il ac h ee a d i ecie . T b c a c (L 2P = 2 (a PRC/ )) ac a a ac c a a c c ( a , , ba )a c ( a , , ba , , , a ) a a c (c c )a a c . I a , a a a a a a a a a .W a a a a a a a a a (F . 4.3, a a ). W a - , a a a a (F . 4.3, - a a ). A a , - a a a a a , a a a a a a a ( a ). T a - a -a a a GO- a . T 160 fea e e ba ed (O e O e, OG -a , a d OG - a ) ef ed a eac e a e ac ec e e ce a fe ca e . Fig e 4.3. Pe f ma ce f i e cla ifica i m del ac i e a d ai / e ecie . T ba a (L 2P = 2 (a PRC/ )) a a a a a (T a ) a a a (T ). T a a a 5- a a a a a a . 161 P a c a a d d d Tho gh e ob e ed good e fo mance in mo fea e e in mo e ing , he i i e e began ih blood, b ain, hea , in e ine, li e , and o a a e di a a e, making fo an ea ie cla ifica ion oblem com a ed o ha e ill enco n e ih eal da a f om blic da aba e . The efo e, e ne e anded he h man i e label ing man all c a ed an c i ome f om he Ti eNe da aba e [23]. The e label inc ea ed he n mbe of am le f om o o iginal i e in h man b a lea 2.5 ime , and added nine o he i e o e al a e e fo mance i h and e a nega i e e am le in aining (F . 4.4). We al o man all c a ed am le di ea e label fo 47 di ea e along i h a man heal h /con ol am le a o ible in h man da a e . 162 F 4.4. E a ab a a ab . (a) N mbe f am le i all c mm i e ac ecie i h added Ti eNe label f h ma . (b) N mbe f h ma am le ih i e label af e e a i . (c) N mbe f h ma am le a a ed each di ea e. 163 W , , , - (Fig. 4.5). T - ( 0) . T , - - . Fig e 4.5. Pe f ma ce f i e cla ifica i m del e i a d e a ded label . T b a (L 2P = 2 (a PRC/ )) a a a a a a a ab ( F . 4.4) a a a a ( )a a . W , (Fig. 4.6). H , .U , , GO- 164 fea e e . The e a e e e a a ce g he e a ded e abe . M ea d eb af h e ca f ca de ffe ed e ef a ce a h a e , h e ha a d ef a ce ch e fe ha he e abe e. Fig e 4.6. Pe f a ce f i e ca ifica i de ac i e a d ai / e ecie i g he e a ded e f i e abe . T ba c a c (L 2P = 2 (a PRC/ )) ac ca ca a a c (T a c )a a c a c (T c ) a ab ( F . 165 F 4.6. (c ) 4.4). The media e f ma ce al e f m 5-f ld c alida i i l ed f m del ha e e ai ed a d e ed i he ame ecie . I a a e e e f ca e ef a ce f c - ec e ca f ca e abe e a e a e , ec b ed a e ac ec e a e ca f ca de a d ade ed c e e d- ec e ( . 4.7). T a cce f e e e . T e de ef a ce d be a d ( e ) a a e a e, b a ca e e ef a ce ee be a e ed a e a e f e c b ed a ec e d d a ef a ce e e ec e . 166 Fig e 4.7. Pe f a ce f c bi ed- ecie i e ca ifica i de ac i e i g he e a ded e f i e abe . T (L 2P = 2 ( PRC/ )) - (T ) ( F . 4.4). T 5- . 167 Finall , e ained cla ifica ion model fo 47 h man di ea e . Wi hin h man ample , he e model pe fo m ell ac o he boa d, i h ome ho ing e emel acc a e pe fo mance ( . 4.8). Since e do no ha e di ea e label fo animal model , e ed he e model o make p edic ion on all o he ample and man all in pec ed he op- anked ample . De pi e e cellen pe fo mance in h man , c o - pecie p edic ion a e ill poo e en in he be model . Man op- anked ample do no ha e a ecogni able connec ion o he di ea e, b o e i he n mbe of ingle cell ample ha a e a igned high p obabili ie b he di ea e model. All of o c a ed label a e b lk an c ip omic ample , o he model doe no ain on ingle cell da a. Fig e 4.8. Pe f ma ce f di ea e cla ifica i m del i h ma am le . T ba a a (L 2P = 2 (a PRC/ )) 5- a a a a a a a a a a . 168 D Ge e e e i ,c e e i , a d eg a i ha e bee h a ih ecie , age, e , i e, he ic, a d e e i e a fac [5,24 28]. We de e a e i ed achi e ea i g a ach a i ia a ci e ac ecie , h fi di g a e i diffe e ecie ha a e f ci a a a g ba ed hei e e i fi e . Ma e i die ha e c a ed e e i fi e ac ecie i g diffe e ia e e i a d i ia i e ic [12 15], h e e, da a-d i e eh da ide ge e e e i fi e a ii ee a e a dc a he i h ega i e e a e ha i ia a ci ic a d ca e a e i i i ed ba ed fea e ha a e ecific he ai /c e fi ee . We e e ab e b ai e i i g ei i a e f a i g a e f c e di g i e ac ecie , b eh d i eed i g be b a d acc a e. O e i edia e a ea f i e e i he i e f he i e abe e. Whe e e a ded i c de e h a i e , ef a ce f he h a i e ca ifica i de i c ea ed ig ifica he aki g edic i f h a a e (Fig. 4.3, 4.6). C - ecie edic i i h ed a ig ifica dec ea e, b i i ike ha he i i e i h abe ed e a e i ea d eb afi h (b d, b ai , hea , i e i e, i e , a d a ) ae idi g e gh bi gica c e di i g i h i e i h a i h highe bi gica i ia i a g he 15 ha a e abe ed. Pe f a ce f l i- ecie ge e fea e e We e ed fi e fea e e f a i ga a g a e ac ecie : e- - e h g (O e O e), h g g a e aged (OG -a g), OG a i 169 (OG - a ), Ge e O g [20] (GO) bi gica ce e a e aged (GO-a g), a d GO bi gica ce e a i (GO- a ). We a e ed b i di g he e fi e fea e e f c ai ac 3 ecie (h a , e, a d eb afi h) a d 6 ecie (h a , e, eb afi h, f , , ea ). A h gh e fea e ae he i g fea e c 6 ecie c a ed 3 ecie , i igh e ef a ce, gge i g ha he c e ed fea e e e a a a ge i f edic i e. Whe ca if i g a e i hi he a e ecie , he fi e fea e e (O e O e, OG -a g, OG - a , GO-a g, GO- a ) ge e a ef e i ia ac i e i each ecie . H e e, he a i gc - ecie edic i , fea e e ba ed h g e d ef i ia each he , b ef GO fea e e . Thi a be d e i c ee edge f hich ge e i each ecie a e a i ecific bi gica ce e .O h g i ba ed e e ce i i a i , a d a f he ecie e c ide ha e e e ced ge e , i i i e ha hi e f eai hi i ec e e. F d c F a c ai a e ec i e, die f a e f ci a edge a fe be ee ecie a a ge e c a ifica i be he ei a a ach i de e ed i i i e ge e i e ecie ba ed da a i a he . O he g ha e e bedded ge e / ei ac ecie i he a e ec ace [29] de e i ed h g ge e ha a e i e be f ci a i i a ba ed he i i a i f hei e eighb h d [30]. O ab g ha had ece cce i c bi i g he e idea f ge e c a ifica i ac ecie b e beddi g hei 170 .W . A a ab aaa W . W , , (. . ) .W , - . Me d RNA- aa W TPM , , RNA- ARCHS4 [31] 8. T E [32]. W 50% . C a a a ab W TAGGER UBERON . W , 171 . L , ( ) T N 23 . W SRA 33 1.8 ARCHS4. S . C ea i g a c fea e e ac ecie f a eca ifica i I , . W : - - (O O ), (OG ) (OG - ), OG (OG - ), G O 20 (GO) (GO- ), GO (GO- ). W 0.5 WORMHOLE 34 GO 5-300 .A . B , TPM . F - - , .F OG - , OG. F OG - , OG . F GO- , GO GO- . I 172 label fo , e al o e ed c ea ing fea e e i h fea e go common o i ecie (h man, mo e, eb afi h, fl , o m, and ea ). Sa eca ifica i de We ained a one- - e logi ic eg e ion model i h an l2 enal fo each i eo di ea e. Ti e model e e ained in each of h man, mo e, and eb afi h da a, b di ea e label a e onl fo h man am le , o all di ea e model a e ained on h man da a. T aining da a a anda d caled, and hi caling a a lied o he e da a. Each i e cla ifica ion model a ained on all am le in a gi en ecie and ed o make edic ion on am le f om o he ecie . Pe fo mance a e al a ed on c a ed label . We al o e fo med 5-fold c o - alida ion i hin ecie fo each i e and di ea e, o ge an idea of ho ell i e and di ea e an c i ome co ld be cla ified i hin a ecie . Pe fo mance ho n in fig e i he median e fo mance al e of 5 fold c o alida ion e l . The e ce ion i ha hen e a e com a ing i e edic ion i hin a ecie o i e edic ion i h aining on o ecie and e ing in he hi d, edic ion e fo mance i hin ecie i ba ed on an 80/20 ain/ e li . 173 EFE E CE 1. K, M .G . N A . 2015;112:1167 72. 2. B D, B F, L EA. C .B . 2012;89:187 95. 3. C, N ,H M, F M, H M, K H, . : 142 J .J . 2013;38:581 98. 4. B MF, J, M ,B AA, G N , C. N -4 . N A A. 2008;105:6421 6. 5. D ,D D, J E ,G ,D ,M I KD, . - .N G .N G ; 2007;39:730 2. 6. K M ,B A, EJ, E MJ. A L N H .N . N G ; 1987;326:295 8. 7. D, C D, M A, L F ,H M, C , .C D C F 2011 2020 I .A : :/// / /D /2021%20C %20D %20 %20 %202011-2020%20 17. 8. A H. GN1412: F D D .J J . 2010;2:332 6. 9. K ,D C, BJ, B , N, M, . C - . F1000 . 2014;2:30. 10. M G KL, J, J ,C HJ, JB, M EM. . N A . 2010;107:6544 9. 11. B A, G ,G .C .N G . 2017;18:425 40. 12. L M, A L, C AG, E, M N, K , . 174 - .N .N P G ; 2016;531:637 41. 13. H ,F M, L M, H BK, I. .N .N P G ; 2015;519:219 22. 14. C -M M, H J, D, B, C C, , .G .N . 2019;1. 15. L H- , O N, B -J .C - .B . 2010;26:2416 23. 16. A D, , ,N M. : .JG . 2018;97:795 806. 17. P E, K D, B A, M . C - N 35 H . PL C B . 2015;11: 1004220. 18. -E ,J .D : - . BMC M G . 2017;10:59. 19. - M, D C, G NM. I OMA: A . F1000 . 2020;9:27. 20. A M, B CA, B JA, B D, B H, C JM, .G O : .N G . 2000;25:25 9. 21. M, E, O. C N : - - KEGG . P JC . 2021;7: 336. 22. -L MP, K HC, E MD. P : . BMC B . 2019;20:543. 23. L C- , L H-D, D C, G , J. N : NA- .N A . 2022;50:D710 8. 24. G C ,K A, AK, E, A, H D , . - . N G . 2015;47:569 76. 175 25. O M, M -A M, K -H , ,G ADH, C DJ, . . . 2020;369: 3066. 26. A D, J ,I E, D A, M L, L CD, . .G . 2020;30:1379 92. 27. L - CM, C C- , K ML, P JN, A ,F M, . D G E N 29 H .C . 2020;31:107795. 28. I H, G J, A A, C - ,O J, L M A, .A .E G . 2015;72:50 6. 29. F J, C A, F I, L , ,C M, .F - . N A . 2019;47: 51. 30. C MD, OG. A F A C H . PLO C B . 2011;7: 1001074. 31. L A, D, K AB, J KM, L HJ, L, .M NA- .N C . 2018;9:1366. 32. M D, O J, P KD, .E G : - NCBI. N A . 2007;35:D26 31. 33. B MN, D A, D CN. M A: - A . . 2016;090506. 34. GL, M JM, K, DO, K . O MHOLE: N L D O P M L . PL C B . 2016;12: 1005182. 176 CHAP E 5: MMA , EFLEC ION , LIMI A ION , AND F E DI EC ION S a T , , / - . T .I - . B ,I . Ref ec a d a A , , (ML), .B , ) , ) , ) . E , ML . 177 B d RNA- c I C a e 2, I add e e e : h ca e be b d c e e e f he e ge e RNA- e da a ha c e f a e e e ge e a ed b d d a ab , h a a ge f e e c g de h a d a e ,a e a h gh- a c da a? I c a e , I e ab a e e acc a e a d b e d b d c e e e f RNA- e da a. I e e a a a d e a f a ec e a d e c b a a e c c e e ec e da f e a d e e e ec e . We a f g a d eff eg d a da d e ed a g d , .e. c e e ed a d -c e e ed ge e a ( ee C a e 2 A e d : e e a e). B ef , e c a ed a f ge e a ee f c a e a ed ba ed e e e a e de ce e Ge e O g [1], b ee e ca ef e ec f c e e g de e e e e ge e a . We ee e a ca ef ab def g a f ge e a ae e be c e e ed ga e e f a a c a ed e f e Ge e O g . I e, e e ge e a a e ad e g f c a f a ab a ba ed e b g ca ce e e a a e , e ae e e e e be f c a e a ed. T a c e a a g ce a a a e c e e de e e a ae e e fc e e ed a d -c e e ed ge e a e e [2 4]. De e e a f ca e e b d g d a da d, ba ed f c a a a a ae e- ec f c. We ed acc f e-ba ed effec b b e g g a g d a da d ge e a g e f ge e 178 b d d a ,b - d a - c c c [5]. I add , a a d a c a dc a [6 8], b c a a c a d b d b ca ac . Age a d e ec f c I C a 3, I add : (1) can age o age g o p be p edic ed ing onl he gene e p e ion al e ? A d (2) ha do he e gene igna e ell abo age- and e - pecific biological con e ? H , I c a ab 30,000 a a a c dc a a d a a - a d -b a d a . I a a - a da d d c b ca c d a a d . I a a d a a ca c a a a d ab c a a da a c d a a - a d -b a d . T c d c , a , d a ,a d c da a. I d , ab a a a c d a a - ca da a a - a d - ab d a ,b a c d d b c da aba .H , a d a a /d a ab , a d a ba d a a d b d ac a d a . W c a a , I c d a a a c a (SLE), c ad c a b a a 7 10 1 SLE cd c [9,10]. T a a d a a c c a a a d , a d a a ba c a a c c dd c d a a d d .T a ca c ab ( a ) 179 ge age g . The be f ca ce -a cia ed da a e i each age g ee ghl c ela e i h he al be f a le i he g . Thi i ha d belie e e e h gh ca ce i cide ce i c ea e i h age [11], d e he fac ha d f ca ce i ge e all ell-f ded [12]. The e a ha e a effec he ge e ig a e a d b e e e ich e c e I calc la ed f e e i e all -de i ed ge e e a cia ed ih ai bi l gical ce e , cell e , he e ,a de eciall di ea e . I ld e ec i ha e a g ea e effec age- a ified e ig a e ,d e de i i g he f he TPM e e i di ib i ac fe ale a d ale a le f each ge e b i g achi e lea i g de i e he e - a ified age ig a e . Machi e lea i g ha e b e i ed e eg la i a i . De i e he e e ial bia e a d li i a i , e ca ed a be f e age- a d e -bia ed ig a e , a d l k f ad elf a d he b ildi g hi k. C ecie a al g I Cha e 4, I add e he e i : can e ili e ma blic an c i mic da a iden if anal g am le , and he ef e bi l gical c n e and hen e ac ecie ? I hi cha e , I de c ibe eff e achi e lea i g i a i g a ci ic la d ca e a d he e ac ecie i e f ci al k ledge a fe . Th fa , e ha e l ee l ke a cce i a i g a al g a le ac ecie , b g ill c i e e e eh d f aki g hi g al ible ( ee C ecie a le cla ifica i i F e di ec i n ). H e e,i he ce I lea ed a l ab a la i g f ci al k ledge ac ecie , del ga i 180 b g , b c -a a ab e e e e a da a, a d da aba e c a g f a d d a e ec e . The e a f e de a d g f c - ec e b g , b he e a e a a e c g dea a d eff c ad a c g he f e d a eb . F d c A e- a d e - ec f c e e e ac e The h d e a ha a d he g d b d age- a d e - ec f c ge e e ac e . G ee e, K h a , W g a d ea b he f ge e- ca e e- ec f c f c a e ac e [13] a d a f - d , K h a e a e e ab e h ha g a ba - ec f c ge e e ed c e ca d da e ge e , b a - ec f c ah a , a d de e e a age e a ed a ec d de a e acc a e ha g a ge e a (i.e. e- ec f c) d ffe e e- ec f c e [14]. E e a , g a e- ec f c ge e e ac e f he e affec ed b he d de e ab a e he e ed c . I a d ea ha f a g e- ec f c acc e he e e a ed c e a e ab e a e, acc gf he b g ca c e ch a age a d e h df he e acc ac . The c g ha h e he d de e ed he eh d eg a e a c e e e e h gh-f de e- ec f c e , he d d h c a a da a, RNA- e da a. Ve e had bee d e e a ae b a d acc a e a a a d e a f a eh d b d c e e e f RNA- e da a, I add e ed h e Cha e 2. 181 W e a a c e ed, e e a b ac e a a e a b c -a a ab e c a a a d RNA- e a e e eed b d e e e ae a c a ed a ea d e a . I C a e 3, I a a c a ed ea 30,000 b , a a a e abe ed e a d a e ac e a e a . F e,I ed a a e ca be ed c ed e ee e .S , e ca c e de e e e de e acc a e e ed c a e a e a d a e a e abe . Se ea ed c ba ed e e X a d Y c e e e . B d , e ea e, e e e e e- a ed ML de e a e- a d e abe e >150,000 a b c a c e a d e e ae e e e a e- a d e - ec c e e- ca e e e e a d e e e e d e e a c a ed d ea e a e a d a e d e e ce . C ecie a le cla ifica i O e a de ac a a a e ac ec e ee a a cce , b e a e d c ed e d e e c e e a ce. A a ac e e cce ca e e ac ec e : ace a e e d ee ec e e a e c a ace a d e a ML de a e e e c ac ec e . I e ea e, e a a ac a eca ca . O g i g C e e be e ab a e a ead a ed b d e c e ed d e a . T e a e, e , e, a d d ea e abe I a e c a ed a e e e e e a e be ed e ec . Re L d ea e 182 anno a ion o de elop me hod ha can a oma icall iden if bg o p of con a ing di ea e- ele an ample i hin an c ip ome da a e . The i e and di ea e label ill con in e o be ed o p e acc a e me hod o ma ch analogo an c ip ome , and h biological con e and pheno pe ac o pecie . Hao Y an i b ilding coe p e ion ne o k in m l iple pecie i h RNA- e da a ing he ecommenda ion I de eloped in Chap e 2 fo ob o kflo o do o. He i al o e ending hi o k in o b ilding pa ien - pecific ne o k . S ephanie Hicke i ing age and e label , along i h be p ac ice fo ne o k b ilding e abli hed in hi di e a ion, fo in eg a ion of coe p e ion ne o k b il ing b lk and ingle-cell da a o compa e gene in e ac ion in diffe en egion of he b ain in m l iple age and e go p . 183 EFE E CE 1. A ,B CA, B JA, B D, B H, C J , .G : . G . 2000;25:25 9. 2. I D, K ,B D, ,H , . A- .B . 2012;28:1592 7. 3. B , ,G J. G A- - : .B . 2015;31:2123 30. 4. , C, J AE, C, B A, L J .A - .G B . 2019;20:94. 5. A, K ,G ADH, J B, G C, D IC, .C - - .G . 2017;27:1843 58. 6. H JG, , G, H . - - . . 2021;11:18758. 7. I H, G J, A A, C - , J, L A, .A .E G . 2015;72:50 6. 8. ,F G, F, D L D , J, , . . . 2015;348:660 5. 9. E, , A, C, A F, . - .A I . 2016;52:205 12. 10. C ,K A, F J, GD, G A, L , . : 1,000 . E L E . (B ). 1993;72:113 24. 11. C KA, ,F A , H, H J, L, .A , 1: .C I . 2022 16 ; / . A : :// . . / / /10.1002/ .34479 12. I H . ( ) I . . . . . 2022 2022 16 . A : :// . . / / - #/ 184 13. G CS, K A, W AK, R E, RA, H DS, . U - . N G . 2015;47:569 76. 14. K A, R, Y V, T CL, W AK, T A, . G - .N N . 2016;19:1454 62. 185