tak0kadaの医学メモ

発声練習、生存確認用。

数理統計関連は 何でもノート

モチーフaがある要素(TSS-logic or DE-logic)にenrichされている確率、とは

The cis-Regulatory Atlas of the Mouse Immune System - ScienceDirectより。

ここで言うモチーフaはある転写因子Aが結合する、特定のDNA配列を指す配列のこと。補足資料から例を上げるとENSMUSG00000018678_LINE317_Sp2_Iという名前のモチーフにはSp2という転写因子が結合する。

また、この文献中では15600の遺伝子が、TSS-logic、DE-logic、unexplained-logicの3種類に分類されている。

知りたいのはモチーフaあるいは転写因子AがTSS-logicな遺伝子、DE-logicな遺伝子、あるいはunexplained-logicな遺伝子のどれに多く関連して分布しているかということ。ある遺伝子Xで多く見られる場合、Motif a is enriched in gene X.といい、逆をdepletedという。

例えば15600遺伝子をモチーフaとTSS-logic geneについて分類してみると、

Motif a Non-a motif sum
TSS-logic 1000 13000 14000
Non-TSS(DE + unexplained) 200 1440 1640
sum 1200 14400 15600

これを見ると、モチーフaはNon-TSSの方に多い。fisher検定をすると

> mx=matrix(c(1000, 13000, 200, 1440), nrow=2, byrow=T)

> # 両側検定 two-sided test
> fisher.test(mx)
#
#         Fisher's Exact Test for Count Data
# 
# data:  mx
# p-value = 9.334e-12
# alternative hypothesis: true odds ratio is not equal to 1
# 95 percent confidence interval:
#  0.4706303 0.6541615
# sample estimates:
# odds ratio 
#  0.5538925 

> # 片側検定(depletion)
> fisher.test(mx, alternative='l')
#
#         Fisher's Exact Test for Count Data
#
# data:  mx
# p-value = 6.17e-12
# alternative hypothesis: true odds ratio is less than 1
# 95 percent confidence interval:
#  0.00000 0.63699
# sample estimates:
# odds ratio 
#  0.5538925 

> # 片側検定(enrithment)
> fisher.test(mx, alternative='g')
#
#        Fisher's Exact Test for Count Data
#
# data:  mx
# p-value = 1
# alternative hypothesis: true odds ratio is greater than 1
# 95 percent confidence interval:
#  0.4826541       Inf
# sample estimates:
# odds ratio 
#  0.5538925 

p-value of motif a to be enriched in TSS-logic geneは1ということになり、そのような仮説は採用されない。

このモチーフによってTSS-logicな遺伝子の発現が増える場合enhancer、減る場合repressorということになると思われる。

* ところで、遺伝子配列に何か情報を対応付けるのはannotationというが、タンパク質に(特に相関のある)遺伝子配列を対応付けるのはenrichmentというのはなぜか。

アノテーションはタンパク質にもするとのコメントを頂きました。また追記します。 次世代シーケンサが求める機械学習