Posts Tagged ‘統計’
PRMLの1~5章をとても荒めに理解した
一応NNについて書いている5章まで読んだ。いつも、章の後半がきつい。ベイジアンっぽくなるからというより集中力が切れてるからのような。
とりあえず、理解した(というか頭に残っている)流れはとても荒いけど、過程大切なので書く:
- 統計的に機械学習を考えるときは、尤度
の最大化として考えようね。(1章)
を正規分布とすると、二乗誤差を誤差関数とみて最小化と等価だね。これが回帰!(1,3,5章)
を正規分布とすると正規化項に。(1,5章)
を多項分布とすると、クロスエントロピー(またはKLダイバージェンス)を誤差関数とみて最小化と等価だね。これがクラス分類!(4,5章)
もうちょっと細かく思い出そうとすると、本を開いて読み直してしまいそうだ。全部確率分布で統一的に理解できる、という感覚に慣れてきたので今のところは満足(しちゃだめだけどw)。全然ベイジアンしてねー。笑
softmax関数を出力層に使ったNNで誤差関数をKLダイバージェンスにする論文に出会い、なぜって思った時の疑問が解消されたのはうれしかった。
ラボに戻ったら、誤差関数変えてNN作ってみたりしたい。
実家居る間に、EMとかもやりたい。
卒論概要書かいてな(ry
十分統計量が少しわかった気がするのでメモ
PRML読んでて出て来たけど、詳しく説明されてない(気がする)ので分からなかった。ベイズのあたりも分からないので、現実逃避(笑)のために調べてみた。当たり前すぎる事ばかりで晒すのが恥ずかしい気もするw
十分統計量について分かった事:
- (パラメトリックな)確率分布を仮定している。
- その分布の確率変数のみを引数にとる関数である。
- この関数さえ分かれば、確率分布を再構成出来る。
十分統計量「確率変数のみを引数にとる関数」であれば何でも良い(例えば定数倍もOK)。名前から何か不変量かと思っていたけど、ようするに関数なんだなこれは。
求めた十分統計量から確率分布のパラメタへの変換があれば、以下の順番で確率分布を再構成出来る。
- サンプルから十分統計量を求める。
- さっきの言い方と少し矛盾。十分統計量はサンプルを引数にとる関数なので。サンプルに対する十分統計量とでも言うべき?
- パラメタを求める。(普通はパラメタ=十分統計量)
- 確率分布が出来た!
という感じか。関数だから、確率分布のパラメタを決めるために引数(=サンプル)を取る必要がある。ふむ。自然だ。
参考:
- Math 466/566 – Theory of Statistics の Some notes on sufficient statistics (PDF)
- これを読んでなんとなく分かった。
- factorization theorem載ってるけど証明なし。
- http://en.wikipedia.org/wiki/Sufficiency_(statistics)
- 証明載ってる!と思って読んだが全然分からなかったw
- 十分統計量とかのメモ – Seeking for my unique color.
- ほかにも検索するといっぱいでてくる: 「十分統計量」の検索結果 、 「*[理論統計学] 十分統計量」の検索結果
「情報理論の基礎 新版」を読んだ
情報幾何とか簡単に学べる本見つけたので読んでみた読後の感想とかを書いてみる.
途中つまらなくなったり式足りないだろ適当だろw,な所は飛ばしたから理解していない部分多いけど.
まずは章別の感想:
- 第1章 はじめに
- まあ普通かな.と思いきや,確率モデルの分類が良い感じ.
- 第2章 情報理論の基礎事項
- 0と1の符号からの導入.KL情報量まで.
- 復号化の話とかは知らなかったので少し新鮮.(そんなに驚く内容は無かった.)
- 終始具体的に考える.最後に公理を言うけど,理論的な枠組みを構築するようなことはしないのでこっちも身構えずに「ふ~んそうなんだ」と軽い感じで読める.(全章そんな感じ.)
- 第3章 情報幾何の考え方
- 情報幾何の導入の流れ:
- KL情報量
- → ピタゴラスの定理
- → m-測地線,e-測地線
- → m-平坦,e-平坦
- → 直交葉層化
- の,雰囲気(だけw)分かる.
- でも,これだけ簡単な話だけで以下の章を説明してしまうというのは凄いと思った.
- 情報幾何の導入の流れ:
- 第4章 符号化と種々の情報量
- 符号化とか面白く無いし飛ばそうかな,と思ったら意外と面白かったw
- タイプと漸近等分割性,相互情報量と通信路容量,FM/AMの話とか
- K-meansについてはもうちょっと書いて欲しかった.
- 式や説明が足りない感じがしたので色々補いながら読んだ.
- 今のレベルで読んで分かるのはこの章までだったのかもw
- 符号化とか面白く無いし飛ばそうかな,と思ったら意外と面白かったw
- 第5章 モデル選択
- Fisher情報量とかCramer-Raoの不等式とか復習できるな!とか思いながら読んだ.
- しかし,意外と統計について身についてないことに気づく.
- 不偏推定量って何?な状態になってたし.(やばいだろw)
- テキストとか手元に無かったのでひとり小一時間考えてぼんやり理解した.
- 結果,AICとかほとんど分からなかった.
- バネにしよう.
- 第6章 混合モデルとアルゴリズムの幾何学的理解
- 楽しみにしていた章.
- 前章の分からなかった感を引きずり,ボーっとしながら読む.
- EMアルゴリズムとかなんとなくは分かったw
- でも,
- 「実際の応用問題を上手く解こうと思って考えたアルゴリズム」
- が
- 「実は情報幾何の枠組みで何で上手く行くか分かる」
- という話の展開は興奮した!
- バネにしよう!
理解したことまとめ:
- 情報幾何の必要性
- 統計や機械学習の分野でアルゴリズムの正当性を言うには,それが収束することを示さなければならない.
- 収束を説明するには,その対象を点としてとらえて,しかもその距離が定義されてなければならない.
- しかし,その距離はパラメタに対して非線形になってしまう.
- そこで微分幾何!
- 微分幾何は非線形な距離,つまり曲がった空間を扱うための学問.
- ...という流れ.
- 情報量とかについての(感覚的な)理解
- 情報量
は 符号長
- エントロピーは情報量の平均値(期待値)
,つまり符号の平均的な長さ.
- 本当は,「理想的な」平均的な長さ.
- 要素の種類は
個.
- エントロピーから,すべての要素の種類はだいたい
個だと見積もることが出来る.
- 当たり前のことだけど,情報量は符号長だ!という具体的な対応付けを意識できたのは嬉しいかもしれない.
- 情報量
前々から情報幾何は学びたかったのでその必要性についてはなんとなくは理解してたつもりだったけど,今なら言葉に出来る.そう思えるようになったのは結構大きい.あとは情報量についてちょっと血の通った認識が出来るようになったこと.
さて,統計もっと頑張るか.