ナンクル力学系

学んだ事を書き連ねていこう。

Posts Tagged ‘統計

PRMLの1~5章をとても荒めに理解した

leave a comment »

一応NNについて書いている5章まで読んだ。いつも、章の後半がきつい。ベイジアンっぽくなるからというより集中力が切れてるからのような。

とりあえず、理解した(というか頭に残っている)流れはとても荒いけど、過程大切なので書く:

  • 統計的に機械学習を考えるときは、尤度p(w|x,t) \propto p(t|x,w) p(w) の最大化として考えようね。(1章)
  • p(t|x,w) を正規分布とすると、二乗誤差を誤差関数とみて最小化と等価だね。これが回帰!(1,3,5章)
  • p(w)を正規分布とすると正規化項に。(1,5章)
  • p(t|x,w)を多項分布とすると、クロスエントロピー(またはKLダイバージェンス)を誤差関数とみて最小化と等価だね。これがクラス分類!(4,5章)

もうちょっと細かく思い出そうとすると、本を開いて読み直してしまいそうだ。全部確率分布で統一的に理解できる、という感覚に慣れてきたので今のところは満足(しちゃだめだけどw)。全然ベイジアンしてねー。笑

softmax関数を出力層に使ったNNで誤差関数をKLダイバージェンスにする論文に出会い、なぜって思った時の疑問が解消されたのはうれしかった。

ラボに戻ったら、誤差関数変えてNN作ってみたりしたい。

実家居る間に、EMとかもやりたい。

卒論概要書かいてな(ry

Advertisements

Written by tkf

December 29, 2008 at 9:39 pm

Posted in 数学

Tagged with , ,

十分統計量が少しわかった気がするのでメモ

leave a comment »

PRML読んでて出て来たけど、詳しく説明されてない(気がする)ので分からなかった。ベイズのあたりも分からないので、現実逃避(笑)のために調べてみた。当たり前すぎる事ばかりで晒すのが恥ずかしい気もするw

十分統計量について分かった事:

  • (パラメトリックな)確率分布を仮定している。
  • その分布の確率変数のみを引数にとる関数である。
  • この関数さえ分かれば、確率分布を再構成出来る。

十分統計量「確率変数のみを引数にとる関数」であれば何でも良い(例えば定数倍もOK)。名前から何か不変量かと思っていたけど、ようするに関数なんだなこれは。

求めた十分統計量から確率分布のパラメタへの変換があれば、以下の順番で確率分布を再構成出来る。

  • サンプルから十分統計量を求める。
    • さっきの言い方と少し矛盾。十分統計量はサンプルを引数にとる関数なので。サンプルに対する十分統計量とでも言うべき?
  • パラメタを求める。(普通はパラメタ=十分統計量)
  • 確率分布が出来た!

という感じか。関数だから、確率分布のパラメタを決めるために引数(=サンプル)を取る必要がある。ふむ。自然だ。

参考:

Written by tkf

December 26, 2008 at 6:10 pm

Posted in 数学

Tagged with

「情報理論の基礎 新版」を読んだ

with 3 comments

情報幾何とか簡単に学べる本見つけたので読んでみた読後の感想とかを書いてみる.

途中つまらなくなったり式足りないだろ適当だろw,な所は飛ばしたから理解していない部分多いけど.

まずは章別の感想:

  • 第1章 はじめに
    • まあ普通かな.と思いきや,確率モデルの分類が良い感じ.
  • 第2章 情報理論の基礎事項
    • 0と1の符号からの導入.KL情報量まで.
    • 復号化の話とかは知らなかったので少し新鮮.(そんなに驚く内容は無かった.)
    • 終始具体的に考える.最後に公理を言うけど,理論的な枠組みを構築するようなことはしないのでこっちも身構えずに「ふ~んそうなんだ」と軽い感じで読める.(全章そんな感じ.)
  • 第3章 情報幾何の考え方
    • 情報幾何の導入の流れ:
      • KL情報量
      • → ピタゴラスの定理
      • → m-測地線e-測地線
      • → m-平坦e-平坦
      • → 直交葉層化
    • の,雰囲気(だけw)分かる.
    • でも,これだけ簡単な話だけで以下の章を説明してしまうというのは凄いと思った.
  • 第4章 符号化と種々の情報量
    • 符号化とか面白く無いし飛ばそうかな,と思ったら意外と面白かったw
      • タイプ漸近等分割性相互情報量通信路容量,FM/AMの話とか
    • K-meansについてはもうちょっと書いて欲しかった.
    • 式や説明が足りない感じがしたので色々補いながら読んだ.
    • 今のレベルで読んで分かるのはこの章までだったのかもw
  • 第5章 モデル選択
    • Fisher情報量とかCramer-Raoの不等式とか復習できるな!とか思いながら読んだ.
    • しかし,意外と統計について身についてないことに気づく.
      • 不偏推定量って何?な状態になってたし.(やばいだろw)
      • テキストとか手元に無かったのでひとり小一時間考えてぼんやり理解した.
    • 結果,AICとかほとんど分からなかった.
    • バネにしよう.
  • 第6章 混合モデルとアルゴリズムの幾何学的理解
    • 楽しみにしていた章.
    • 前章の分からなかった感を引きずり,ボーっとしながら読む.
    • EMアルゴリズムとかなんとなくは分かったw
    • でも,
      • 「実際の応用問題を上手く解こうと思って考えたアルゴリズム」
      • 「実は情報幾何の枠組みで何で上手く行くか分かる」
      • という話の展開は興奮した!
    • バネにしよう!

理解したことまとめ:

  • 情報幾何の必要性
    • 統計や機械学習の分野でアルゴリズムの正当性を言うには,それが収束することを示さなければならない.
    • 収束を説明するには,その対象を点としてとらえて,しかもその距離が定義されてなければならない.
    • しかし,その距離はパラメタに対して非線形になってしまう.
    • そこで微分幾何!
      • 微分幾何は非線形な距離,つまり曲がった空間を扱うための学問.
    • ...という流れ.
  • 情報量とかについての(感覚的な)理解
    • 情報量\log_2 \frac{1}{P}符号長l
    • エントロピー情報量の平均値(期待値) H(X) = \sum P_i \log_2 \frac{1}{P_i},つまり符号の平均的な長さ
      • 本当は,「理想的な」平均的な長さ.
    • 要素の種類は2^{l} = 2^{\log_2 \frac{1}{P}} 個.
    • エントロピーから,すべての要素の種類はだいたい2^{H(X)}個だと見積もることが出来る.
    • 当たり前のことだけど,情報量は符号長だ!という具体的な対応付けを意識できたのは嬉しいかもしれない.

前々から情報幾何は学びたかったのでその必要性についてはなんとなくは理解してたつもりだったけど,今なら言葉に出来る.そう思えるようになったのは結構大きい.あとは情報量についてちょっと血の通った認識が出来るようになったこと.

さて,統計もっと頑張るか.

Written by tkf

October 25, 2008 at 9:16 pm

Posted in 数学

Tagged with ,

プログラミングのための確率統計(仮)がやばい

leave a comment »

確率・統計の良い本は無いかと調べてたら見つけた本(の未完成版)、プログラミングのための確率統計(仮)の第I部を読み終えた(かなりとばしたけどw)。数学の知識は大学一年生前期くらいで大丈夫なんじゃないかと思えるくらい。

数学のプロをめざさない方に向けた確率・統計の解説.

らしいんだけど、それでも数学に誠実さを忘れない感じが全面に現れてて良いと思う。

ルベーグ積分・測度論から真面目に確率論へ入るには数学の素養が無い人にも、そういう基礎の部分を固めずにちゃんとした話が出来て良い。それに、普通の教科書にはないけど上手い授業をする先生なら言ってくれそうなことが盛りだくさんなので、確率・統計を一人で勉強する人が最初にこの本を読むのは上手い選択だと思う。

本文中でちらほら、

正確に説明するためには測度論が必要となってしまいます。我慢できなければ本気の数学書にあたってください

とか

このあたりを詰めるには、測度論や「(\Omega, {\cal F}, P){\cal F}」に深入りする必要があります

とか

詳しくは測度論を勉強して、

とか出てくるので、気になる人はムカッとなってそわそわしてきて、測度論やるときのモチベーションになるはず!

難点は、イメージを焼き付けようとがんばってるために説明が濃いこと。異常なくらいに。だから、少し数式になれてる人だうざったくなるかもしれない。FAQや脚注が紙面の半分くらいを占める感じなので、そこを飛ばすとかそもそも本文を飛ばすとかすると良いかも。

前著の「プログラミングのための線形代数」も良い本だったけど、やはり同じく「プログラミングのための〜」という枕詞に意味はなさそうw

追記

内容は素晴らしいのですが、あくまで執筆途中なのでそこを気をつけて読む必要があります。気づいたことは:

  • 節のタイトルが適当なんじゃないか、という部分がある。
  • 流れの構成がここ先に書いて不自然になったから次はここ直す予定なんじゃないか、的な部分が残っている。
    (具体的には、条件付き確率の所。導入がかぶってる、もしくはつながりを説明しきれてない気がする。)
  • 何ページを参照、とかがずれてる場合がある。

くらいかな。あとは、目次にあって期待してるとまだ書いてない章があったりw。↑のリスト、的外れなこと言ってるかもしれないので注意。あくまで学習途中の人間の感想なので。

早く本が出ると良いんだけどね。

Written by tkf

October 11, 2008 at 9:51 pm

Posted in 数学

Tagged with , ,