たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

Gated Activation Unit; tanh出力をsigmoidでゲーティング

Gated Activation Unit は活性化関数/ユニットの一種.
output = tanh(Wfilter ∗ input) ⦿ σ(Wgate ∗ input)
tanh(conv(input))で非線形変換した出力に対し、sigmoid(conv'(input)) で出てくる 0~1 を用いたGatingをかけているとみなせる.

Gated PixelRNNにおいて、LSTMのゲートから着想を得て開発 ( Gated Convolutional Layer).
WaveNetではGated Activation Unitと呼称されている.

現代的に見ればattentionに近しいものを感じる.
Attentionだと全域を見るが、こっちはGating weight計算もConvでするので局所を見てAttentionを決めてる (MLP Attentionにもそんな感じのあった気がする. パッチ化関連?).

関連する先行研究はhighway networks, grid LSTM (arXiv:1507.01526), neural GPUs (arXiv:1511.08228) など