確率と密度関数
前提として、点確率と確率密度関数は一般に一致しない。
連続確率変数について、常に probability(x=x_i) == 0 だが PDF(x=x_i) は非ゼロを取りうる。
離散確率変数については、probability(x=x_i) == PMF(x=x_i) が常に成立する。
なので確率を p_X(・)
表記し密度関数を f_X(・)
とすれば誤解が無い。
ところで離散確率変数では点確率に関して p_X(・) == f_X(・)
が常に成立しているので、分ける意味がそもそもない。
そして連続確率変数では点確率に関して p_X(・) == 0
が常に成立しているので、p_X(・)
を点確率向けに書くことがほぼ無い。
つまり区間を扱わない限り、p_X(・)
と f_X(・)
が同時に現れて表記上混同するケースはほとんどない。
むしろ f_X(・)
が単なる関数なのかPDFなのか迷う方が多い。
ということで、表記をoverrideしてPDFおよびPMFを p_X(・)
で表記するケースがしばしばある。特に統計学。
確率と確率変数
確率変数X(区間の場合有り)には確率が割り当てられている。
確率変数がまず存在しそこから確率を取り出すとみた場合、この「操作」を p(・)
と表記できる。
つまり probability_of_X = p(X)
で表現される。
確率変数Yに対応する確率を取り出す場合は同じ操作をおこなうので probability_of_Y = p(Y)
で表現される。
違いをもつのは確率変数であって、同じ操作 p
をおこなうため表記が一貫している。
一方、確率変数でなく確率分布を主としてみた場合、分布 p_X(・)
は値(確率変数)を値(区間確率)に飛ばす関数と見做せる。
違う関数は違う表記がなされるので、probability_of_X = p_X(X)
であるし probability_of_Y = p_Y(Y)
となる。
前者の場合、変数を変数以上のもの(普段は値の箱だが操作 p
を介すると別の値が湧き出る)として扱っている。
変数としてはちょっと気持ちが悪い側面がある一方、分布 p_X(・)
に変数 X
しか入らないケースであれば冗長な表現を避けられる。
後者の場合、厳密性がある。ほかに解釈のしようがない。
ゆえに分布間で値を取りまわす場合の表記が明確になる。
たとえば真の分布 p_X(・)
をモデル分布 p_M(・)
で近似する際の尤度を考える。
標本は真の分布から得られるので x ~ p_X(・)
であり、これをモデルに食わせて尤度を出すので L = p_M(x)
となる。
もし p_X(・)
と p_M(・)
を p(・)
で表記していたら、何が何だかわからなくなる(p(x)
は真の分布の尤度? モデル分布の尤度?)。
これは確率変数を主とみる立場の欠点を示している。
確率変数に確率が含まれているという立場をとると、p_M(X)
がおかしな操作に見える。
「Xが確率を持っているのに p_M(・)
が確率を与えてきてる」と見えるから。
実際はそうで、「現行のモデル分布でこの値が得られる確率はいかほど?」というのが(θ givenな状態での)モデル尤度 p_M(x)
の意味。
確率変数主体でみるとこの手の操作の理解を阻む可能性がある。
ただ条件付確率とか考え始めると表記が大変なことになる。
「pX|Y(X|Y)」 でさえ冗長な感じは否めない。
なので分布を主体で捉え、かつ混同が起きないなら表記上pの後ろを取っ払うのが現実的。そしてそういう記法が多い。