たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

統計/確率論の記号表記

確率と密度関数

前提として、点確率と確率密度関数は一般に一致しない。
連続確率変数について、常に probability(x=x_i) == 0 だが PDF(x=x_i) は非ゼロを取りうる。
離散確率変数については、probability(x=x_i) == PMF(x=x_i) が常に成立する。

なので確率を p_X(・) 表記し密度関数を f_X(・) とすれば誤解が無い。

ところで離散確率変数では点確率に関して p_X(・) == f_X(・) が常に成立しているので、分ける意味がそもそもない。
そして連続確率変数では点確率に関して p_X(・) == 0 が常に成立しているので、p_X(・) を点確率向けに書くことがほぼ無い。
つまり区間を扱わない限り、p_X(・)f_X(・) が同時に現れて表記上混同するケースはほとんどない。
むしろ f_X(・) が単なる関数なのかPDFなのか迷う方が多い。

ということで、表記をoverrideしてPDFおよびPMFp_X(・) で表記するケースがしばしばある。特に統計学

確率と確率変数

確率変数X(区間の場合有り)には確率が割り当てられている。

確率変数がまず存在しそこから確率を取り出すとみた場合、この「操作」を p(・) と表記できる。
つまり probability_of_X = p(X) で表現される。
確率変数Yに対応する確率を取り出す場合は同じ操作をおこなうので probability_of_Y = p(Y) で表現される。
違いをもつのは確率変数であって、同じ操作 p をおこなうため表記が一貫している。

一方、確率変数でなく確率分布を主としてみた場合、分布 p_X(・) は値(確率変数)を値(区間確率)に飛ばす関数と見做せる。
違う関数は違う表記がなされるので、probability_of_X = p_X(X) であるし probability_of_Y = p_Y(Y) となる。

前者の場合、変数を変数以上のもの(普段は値の箱だが操作 p を介すると別の値が湧き出る)として扱っている。
変数としてはちょっと気持ちが悪い側面がある一方、分布 p_X(・) に変数 X しか入らないケースであれば冗長な表現を避けられる。

後者の場合、厳密性がある。ほかに解釈のしようがない。
ゆえに分布間で値を取りまわす場合の表記が明確になる。
たとえば真の分布 p_X(・) をモデル分布 p_M(・) で近似する際の尤度を考える。
標本は真の分布から得られるので x ~ p_X(・) であり、これをモデルに食わせて尤度を出すので L = p_M(x) となる。
もし p_X(・)p_M(・)p(・) で表記していたら、何が何だかわからなくなる(p(x) は真の分布の尤度? モデル分布の尤度?)。

これは確率変数を主とみる立場の欠点を示している。
確率変数に確率が含まれているという立場をとると、p_M(X) がおかしな操作に見える。
「Xが確率を持っているのに p_M(・) が確率を与えてきてる」と見えるから。
実際はそうで、「現行のモデル分布でこの値が得られる確率はいかほど?」というのが(θ givenな状態での)モデル尤度 p_M(x) の意味。
確率変数主体でみるとこの手の操作の理解を阻む可能性がある。

ただ条件付確率とか考え始めると表記が大変なことになる。
「pX|Y(X|Y)」 でさえ冗長な感じは否めない。
なので分布を主体で捉え、かつ混同が起きないなら表記上pの後ろを取っ払うのが現実的。そしてそういう記法が多い。