モチーフaがある要素(TSS-logic or DE-logic)にenrichされている確率、とは
The cis-Regulatory Atlas of the Mouse Immune System - ScienceDirectより。
ここで言うモチーフaはある転写因子Aが結合する、特定のDNA配列を指す配列のこと。補足資料から例を上げるとENSMUSG00000018678_LINE317_Sp2_I
という名前のモチーフにはSp2
という転写因子が結合する。
また、この文献中では15600の遺伝子が、TSS-logic、DE-logic、unexplained-logicの3種類に分類されている。
知りたいのはモチーフaあるいは転写因子AがTSS-logicな遺伝子、DE-logicな遺伝子、あるいはunexplained-logicな遺伝子のどれに多く関連して分布しているかということ。ある遺伝子Xで多く見られる場合、Motif a is enriched in gene X.
といい、逆をdepletedという。
例えば15600遺伝子をモチーフaとTSS-logic geneについて分類してみると、
Motif a | Non-a motif | sum | |
---|---|---|---|
TSS-logic | 1000 | 13000 | 14000 |
Non-TSS(DE + unexplained) | 200 | 1440 | 1640 |
sum | 1200 | 14400 | 15600 |
これを見ると、モチーフaはNon-TSSの方に多い。fisher検定をすると
> mx=matrix(c(1000, 13000, 200, 1440), nrow=2, byrow=T) > # 両側検定 two-sided test > fisher.test(mx) # # Fisher's Exact Test for Count Data # # data: mx # p-value = 9.334e-12 # alternative hypothesis: true odds ratio is not equal to 1 # 95 percent confidence interval: # 0.4706303 0.6541615 # sample estimates: # odds ratio # 0.5538925 > # 片側検定(depletion) > fisher.test(mx, alternative='l') # # Fisher's Exact Test for Count Data # # data: mx # p-value = 6.17e-12 # alternative hypothesis: true odds ratio is less than 1 # 95 percent confidence interval: # 0.00000 0.63699 # sample estimates: # odds ratio # 0.5538925 > # 片側検定(enrithment) > fisher.test(mx, alternative='g') # # Fisher's Exact Test for Count Data # # data: mx # p-value = 1 # alternative hypothesis: true odds ratio is greater than 1 # 95 percent confidence interval: # 0.4826541 Inf # sample estimates: # odds ratio # 0.5538925
でp-value of motif a to be enriched in TSS-logic gene
は1ということになり、そのような仮説は採用されない。
このモチーフによってTSS-logicな遺伝子の発現が増える場合enhancer、減る場合repressorということになると思われる。
- 参考文献
- fisher検定: フィッシャーの直接確率検定
- Enrichment analysis: Meng's Notes: Simple Enrichment Test -- calculate hypergeometric p-values in R
* ところで、遺伝子配列に何か情報を対応付けるのはannotationというが、タンパク質に(特に相関のある)遺伝子配列を対応付けるのはenrichmentというのはなぜか。
アノテーションはタンパク質にもするとのコメントを頂きました。また追記します。 次世代シーケンサが求める機械学習