2007/1/22 とりあえず近況
- 相変わらず、EMっぽいやつが、ちゃんとEMになっているかがわからない。
- とりあえずNIPS読む会
- ICML読む会に引き続き。 今回は「速く解けるMDPのクラス」をよむ。
- マルコフ決定過程とは、状態i から状態j への遷移確率がアクションaに依存して決まるような「環境」と、各状態を訪れたときに発生する「コスト」が与えられたときに、「将来にわたって発生するコストが最小になるようなアクション」を決定するような問題。
- 通常、value iterationとかpolicy iterationとかよばれる方法によって、「状態の評価値」と「各状態でとるべきアクション」を交互に推定するようなやりかたになる。
- この論文では、状態i から状態j への遷移確率が pij = pij exp(uij) のようにして、コントロールできない確率pij と、連続値アクションuijによって決まるようなMDPを考えると、value iterationとかpolicy iterationとかナシで、固有値問題一発で解けるもよう。
なんかカッコイイぞ。
- shortest pathも解けたりする。
- 普通の離散入力のMDPも、コレで近似できたりする。
- とりあえずGoogleAnalyticsいれてみた。
ちなみに、このサイトの掲載内容は私自身の見解であり、必ずしもIBMの立場、戦略、意見を代表するものではありません