もどる
(か)研究日記 (~2004年)
- 2004/11/18 ICDE論文
- 降って沸いた(心の師匠1からのタナボタ)ICDEのInvited Paperに、いまだ成仏させられてなかったネットワークの問題検出の話を書く。
- ネットワークで繋がれた分散システム、例えばフツーの3段構成HTTPサーバ、アプリケーションサーバ、DBサーバの間のやりとりをキャプチャして、誰が誰に、いつからいつまで、どんなリクエストをしたか、を抽出し、それらの包含関係から、リクエスト間の依存関係の確率モデルをつくる。
- 依存関係の時間変動から、異常を検出(このへんは井手モデルを流用)
- 普段、徹夜なんてしない(というか、できない)けど昼間はお仕事だったので、やむなく徹夜…40時間も起きたのって初めて。合宿めいてて、ちょっと楽しかった。
- で、今朝、来て見たら、締切延びてたよ…。
- 2004/10/29 McDiarmid bound (?)
- Chernoff boundやHoeffding boundのもっと一般的なやつのようだ。n個の独立な確率変数X1,...,Xnの関数f(X1,...,Xn)のある実現値が、その平均からε以上の差である確率は、εについて指数的に小さくなる、というもの。
- これを使うとfeatureをサンプリングしてカーネルを計算してみたり、kernel alignmentしてみたりしても良かったりする。
- なんか昔、VFDTというオンライン決定木の話を読んだときに、相互情報量とかに対してChernoff
boundをつかってて、おいおい、そんなのに使っていいの?って変な感じがしたのだが、コレだと思えばいいのか。
- 2004/10/26 ベキ乗則はどうやって導かれるの?
- preferential attachmentから、どうやってベキ乗則が導かれるか気になっていたので、読んでみる。
- 意外に簡単に導かれる
- 各ノードが現在のリンク数に比例した確率で、新しいリンクを獲得するモデルを仮定=preferential
attachment
- 各ノードの持つリンクの期待値を微分方程式で書いて解くと、各ノードの持つリンクの期待値は、そのノードがネットワークに投入されてからの経過時間にのみ依存することがわかる
- ノードはコンスタントに投入されると仮定すると、投入からの経過時間が、ある区間でのコンスタントな分布としてかける
- ということで、とある時間における、あるノードがリンクをk本もつ確率が求まる。これが、ベキ分布になってる
- どのようにmean fieldなのかは僕にはわかりません…
- 2004/10/10 MさんがIさんから紹介されたバラバシ本
- 読み物としてコレやコレ並に面白かった。
- インターネットや、社会ネットワーク、食物連鎖などの世の中の多くのネットワークはランダムネットワークではなくスケールフリーネットワークらしい
- ランダムネットワーク
- ノードの繋がるリンク数はポアソン分布に従う
- 生成過程としては、新しくノードを付け加えたときに、既存のノードに対してランダムに辺をつけることでできる
- ノードをランダムに省いていくと、あるときばらばらになる
- スケールフリーネットワーク
- ノードの繋がるリンク数はベキ分布に従う
- 生成過程としては、新しくノードを付け加えたときに、既存のノードに対して、それらのリンク数に比例した確率で辺をつける
- ノードをランダムに省いていっても、連結したまま。但し、ハブ(非常に多くのリンクをもったノード)を選択的に省くと一気に崩壊する
- データ解析手法研究者の今後の生き延び方のひとつとして「コンサルに使える道具づくり」があると思っているのだが、そういうところにかなり関係しそうだし、手法的にも興味はあるけど、果たしてこの上に自分が何かを積めるかは謎
- やはりスケールフリー+カーネル?
- preferential attachmentを取り入れた文法ってあるのかな?それに対するパーザとかどうだろう?
- 2004/10/6 誤ベイズ
- いままで、変分ベイズを使ってるときって、prior(のハイパーパラメータ)はgivenでやっているとおもってたんだけど、よく考えたらposteriorの最良の近似を求めようとしてるってことは、priorのハイパーパラメータも込みで最適化しようとしてたのか…。
- 2004/9/30 最近のメモからまとめて更新してみる
- HMMをunsupervisedで使うときEMを使ったりするけど、これをCRFにしたものは普通に使われてたりするのかな?例のHidden
Markov random fieldって、そういうものか…
- PCFGのVB推定
- HMMやCFGをVB推定などで推定しても、「予測(parsing, labeling)に使うときに計算のところでargmaxや和が取れない」、というようなことがよく書いてある(そこで再び近似がはいる)
- VB推定につかうデータの中に、テストデータを足して、改めてVBEMを計算してやれば(こういうのをトランスダクションと言う?)隠れ変数の事後分布はこの中で推定されてしまうので、上記の問題にはあたらないと思ってよいのだろうか。
- 「出来ない」といっているのは、テストデータを受け取ったときに改めてVBEMを回す気がない場合の話、と理解してよいものだろうか。
- Probability Product Kernelのジャーナル版が出てた(だいぶ前だけど)。
- もともとは2つの分布f1(x)とf2(x)のカーネルk(f1, f2) = ∫x f1(x)p f2(x)p d xなのだが、2つのインスタンスのカーネルを、それぞれのインスタンスから最尤推定した分布(例えばインスタンスが文書なら、多項分布)をつかって定義したりとかもする。(この是非は微妙な気もするけど)
- 色々書き足されてるらしく、↑の最尤推定した分布のとこを、ベイズを使ってposteriorに置き換えてみたり、カーネル計算がexactにはpolynomialで解けないところで、mean
field approximationを使ったりするところなどが入ってる
- やろうとしてたこととは違うけど、遠巻きに見ると、やられた、ってかんじ。
- HMM同士のカーネルをp=1じゃないときに、DPで計算してる!どうやってやったんだ!?って思ったら、一般のHMMではなかった…(一本鎖状のやつ)
- 2004/9/6 京大化研でセミナー講演
- 内容はHMMからスタートしてICMLの内容(sequence labelingのみ)に到達するようなストーリーで考える。
- カメラのむこう(東大側)に心の師匠2発見。といえども、コミュニケーションはとれず。
- 途中で見かねて冷房を入れてくださったのだが、最初話し始めたときは、死ぬほど暑くて死ぬかと思った。汗ダラダラ。
- 聴衆はバイオ7割、コンピュータサイエンス3割ときいていたので、HMMから始まって誰にでも雰囲気が伝わるように準備したつもりだった、が、いざしゃべってみると、知らないひとにはさっぱりわからんし、知ってそうな人にはごまかしすぎだし、結局だれにもわからん感じに…。
- でも、わりと後々の反応はよかった…(お世辞コミ?)
- そのあと、色々なひとに研究の話とかしてもらう。グラフカーネルの拡張やら、木の上の確率モデルやら、楽しかったです。
- 2004/8/25 勉強会
- ここ2回は、関数解析の話。やっぱ、数学はムリ…。
- KDDに行ってる井手さんからベストペーパー情報。
- hidden Markov random fieldでクラスタリング??なんだそりゃあ…。
- 2004/8/24 お仕事復帰
- 休み中は、変分ベイズのお勉強をしてみた。
- だいぶ分かった。小難しく考えずにやれば、そんなに難しく無い気がしてきた。(?)
- 僕のやりたいカーネル計算までもうちょっとのとこまできたぞ。
- 会社にくると、↓の一冊が送ってきてた。なんかうれしい。
- 2004/8/10 ジャーナル論文を書く
- とりあえず、ラベリングのやつを、下のモデルとしてCRFとかの2変数にまたがるfeatureを使ったモデルでできるように書き換える。
- 結構面倒…ICMLのときの、場所ごとに独立に分解できる仮定は、かなり計算を楽にしていることが分かる。
- 2004/8/7 なんか仕事が忙しくて、研究から離れがちな1週間
- 忙しいと、会社の食堂でゴハンを食べ損ねるので、食べ物が炭水化物によりがち。
- いろんな立場で頑張るひとを観た。コノ人達はいったい何が楽しくて、こんなに真剣に話してるんだろうか?
- 二つの価値観の軸
- 結果(勝つこと)に興味のある人と、過程(面白いこと)に興味のあるひと、を分類する軸
- 幸せのスコープ、どのくらいの範囲の人が幸せになることが幸せか、の、狭⇔広を分類する軸
を定義するとする。
- 企業のひとは(結果、広)とすると、自分は(結果、狭)寄りかなあ。その「広」の部分に価値を見出せてないのだと思った。
- ところで、来週は皆、夏休みがちなはずなので、うまくサボって勉強してやる!(そして、一週間ずらして、その次の週を休むのだ!)
- 2004/7/29 残念
- 今日は早起きでうんざりしているところに、朝メールをみたら、DSOMに出していたやつのReject通知…。
- お仕事論文だけ通らないというのは、いかにもサボっているみたいで、良くないかんじだなあ。
- カーネルの解説記事、はじめはラベリングとか構造マッピングまで!とか言ってたにもかかわらず、実際書いてみると、そんなところまでは書けないなあ。
- 2004/7/26 ↓一冊送ってもらえるらしい。ワーイ
- 2004/7/25 あっ、表紙出てる!!
- 自分で買わなくても、一冊くらい貰えたりしないかな…。
- 2004/7/22 ベイズ教わる
- 勉強会で、変分ベイズの話を聞く。
- PLSAをベイズでやるときに、変分ベイズが使えるらしい。
- 細かいところは、やはりわからない。。。ベイズ予測を、隠れ変数ありのケースで行うときに使えるようだ。
- とりあえず、ちょっとは使えるようになりたいなあ。
- ということで、待ち行列ブームはちょっとお休み→ベイズブーム到来
- 待ち行列ブームの成果は、本を買っただけなのだけど、今回も本を買うだけで終了か?
- あっ、すでに一冊持ってた…。よーし、もう一冊買っちゃうぞ~。
- 2004/7/17 お仕事ありがたい。
- そろそろ情報処理に書く、構造カーネル入門の締切が近づいてきた。
- いざ書くとなると、どう書くべきか悩む。
- とりあえずゲルトナのチュートリアルから構成(externalとinternalにわける)をぱくることにする。
- で、Diffusion、Fisher、Convolution(配列、木、グラフ)かなあ…。
- 査読でも、原稿でも、メールでも、組織的な繋がり以外の要因で来るものは、ありがたいことだとおもう。
- (もちろん間接的には組織的要素が0だというわけでは決してないだろうけど)
- 2004/7/16 僕の語るWebサービスセキュリティ&ミドルウェア技術…(その他もろもろで1時間も)
- 犠牲になられた某社の方には申し訳ない。ほんとにご愁傷様でした…。
- 夜は久しぶりに勉強会
- ICMLおもしろペーパーをいくつか紹介。
- なんとなくベストペーパーは非線形次元削減のはなしに決定
- 考え方もやりかたもシンプルで、かつ結果が、壺をぐるっとまわした画像群が見事に1次元ないし2次元にすこーんと落ちるさまが見事なかんじ
- 2004/7/3-8 ICML2004に参加
- 2004/7/2 明日からICMLに出発
- 2004/7/1 お客様に、お話申し上げデビュー
- CMOSとは何かすら知らない僕が「CMOSのトレンドは…!」とか言っても意味ない気もするが仕方あるまい。
- いやそんなことより自分の発表の準備が…。
- 2004/6/29 またも出られず。
- せっかくはじめた勉強会なのに、なぜかその日に限ってつかまる。
- 井手法は、うまく組み合わせれば、さらに出せそうな感じがしてきた。
- 2004/6/25 勉強会出られず。
- ちゃんと毎回、論文をよむだけじゃなくて、論文ネタになりそうなものが出てきているところはいい感じ。
- 2004/6/21 研究会で発表してきた。
- 昼から帰らないといけなかったので、ほとんど、発表してすぐ帰った感じ…
- しかも、あまり伝わらなかった _| ̄|○
- 2004/6/18 待ち行列にわかブーム
- 再投稿中のネットワークもの論文では、すこしだけ待ち行列みたいな話をするのだが、そこのところで間違いがあったことが心の師匠1により判明する。
- その過程で、本来授業をまじめに受けていれば知っているようなことなのだろうが、単純な指数分布とかからだけでも、いろいろ面白い結果があることを知る。
- 待ち行列、すごいよ。偉い。とりあえず、本を注文。
- 月曜日の発表の準備をしないといけない…。やはりシンプルに説明できないものには何か問題がある。
- 2004/6/17 リサーチャーズ・ハイ
- つぼい損失、発明と発見のある、グッとくるいい感じにほぼ完成。
- 2004/6/14 カーネル本が届く
- Collinsの木カーネル(たぶん)が載っている。やはりlabeled ordered tree kernelは認識されていないのは残念。そのときにはキャッチーでいいかなとおもったんだけど、semi-structured
dataのカーネルなんていわなければよかったのかも…。
- グラフカーネルは、微妙に認識されているようで良かった。
- 2004/6/12 大学の恩師の退官記念パーティに京都に日帰り
- そういえば、先生が退官されてしまうと、一体僕はだれから学位をいただけばよいのだろう…というか、ええと、まず、何するんだっけ…はっ、ジャーナル書くのか!?
- かえりの電車でアルたんのGaussianProcessで配列ラベリング論文に目を通す…本論に到達するまえに、Gaussian
Processがさっぱりわからん…一体何!?
- 家に帰ると、玄関の前に怪しい封筒。恐る恐る開けると、賞状だった。僕ももらえるんだ…。ありがたい。
- 2004/6/10 仲良く勉強してみる
- 心の師匠2によると、僕は(主に仕事でないほうの)研究のコストパフォーマンスがいいらしい。必ずしも褒めている訳ではないようだが。
- 今まで、割と、人と一緒にやるのはメンドーだな、と思ってたけど、確かに、実はかなりひとからいろいろ(労働力とか成果とか)貰ってることに気づく。あたりまえだけど、一緒に仲良くやるのって、大事だな、と。
- と、思ったので、再び勉強会というか、大学の研究室でいうところのゼミとか研究会めいたものを始めることにした。というと、フツーのことのようだが、今回は斜線部分をちょっと心から信じているところが重要。
- (まともにビジネスに貢献しようと思っている)企業の研究所では、勉強会なんて悠長なものは、大体みんな目の前のことが忙しすぎて自然消滅しがちで、なかなか続かないものなのです。
- 坪井くんがsequential pattern miningの論文を読んでくれた。内容は実装しながら工夫してみた、というくらいことなのだが、にも関わらず難関会議に通ってしまうところは、書き方がうまい(ずるい)ということなのだろうと思う。工夫に名前をつける!これはとても重要なことだとおもう。
- 2004/6/9 坪井くんが考えた損失関数をいじってみる。
どうやら、普通のやりかたで解けるっぽいぞ。
少なくとも、はじめは自明にはわからなかったことだったのだが、ここれはつまらないのか、それとも、良い性質といえるのか。
こういうのって、しばらく寝かしておくと、大抵、なんだ、考えてみたらあたりまえじゃん、ということになるのだ。
- ↑あとで考えてみると、違った…やりなおし…
- 2004/6/7 論文締め切り
- どうも、結構システム寄りの話題が多いようで、内容も少しネットワークデータからこんな感じでデータをとって…みたいなところを入れる(入れてもらう)。
- データマイニング的なサーベイはカット。式もざばざば減らす。
- ぎりぎり12ページに納め、なんとか朝になる前に提出。LNCSのフォーマットって書くところが少ない…。
- 2004/6/5 論文書き
- 結局DSOMに再投稿することになった論文を修正
- LNCSのフォーマットに入れると絵が最後にくるんだけど、それでいいのだろうか、さっぱりわからん。こういうときは、とりあえず、心の師匠1に投げてみると、おそらく解決する(⇒そしてやはり解決。僕の周りでは、おっさんチームのほうがITが得意だったりするのだ)
- それより明後日の夜中までに22ページ⇒12ページにどうやって減らすか…
- 2003/6/4 kernel CRFを拾ってきたので目を通してみる。いまのところの内容と我々の仕事との違いの理解はこんなかんじ。
- 変数間の条件付独立を表現したグラフのラベル付けをする、と一般的に定義して、クリーク間のカーネル関数でCRFを表現する
- 次に、CRFをカーネル化したときの、feature重みベクトルをtraining dataのカーネル関数の線形和で表すことの正当性(=representer
theorem)を言っている
- 僕はこれは、最適解の求まる適当なアルゴリズムを仮定して(最急降下法とか)解くとしたときに、重みベクトルは更新則から自明に、カーネルの線形和になるからOK、と軽い気持ちで理解してたのだが、ちゃんと言わないといけないんだなあ、と感心
- で、解くわけだが、こんなに一般的なものが効率的に解けるということは無いので、ここではクリークを一個選んで解いて、というのを繰り返して解く方法を提案している
- あくまで一般的な形の問題を解くのを目的にしている。クリーク間のカーネル関数に分解できる、という点がいいところであって、クリークのサイズに関しては指数的に時間がかかるのは仕方が無い。
- この辺は、我々とは問題意識が微妙に違うようだ。我々のはあくまで、クリークサイズ(=もとのグラフのサイズ)に対して指数的にならないようになんとか問題を挿げ替えて解こうとがんばっている。もともとのグラフが完全グラフである、という最悪の状態をも想定して解いている(ちょっと大きく言いすぎ)。
- 2004/6/3 井手さんが発表しにいってる人工知能学会の全国大会で、どうやら優秀賞をとったもよう
- 2004/5/31 いたく感心した小ネタ (もとはココらしい)
- 「世の中には10通りの人間がいる。2進法がわかる者と、わからない者だ」
- 2004/5/29 坪井くんがinformation extraction用の新しいloss functionのアイデアを出してくれた。
- しばらく楽しめそうな感じ、いかした名前をつけねば。そしてやはりカーネル化せねば。
- 2004/5/27 色々書く!
- ようやくtree kernelのジャーナル版に着手。2年経ってる…。
- ラベリング論文の日本語研究会バージョンを作成。自分の英語が読めない…。
- KDDでダメだった、分散システムの依存関係発見の再挑戦も、いずれも締め切りが近く。
- 2004/5/23 【たなぼた】 なーんと、KDDに 【再び!】
- 井手さんがFirstの、分散システムの依存関係の変化からシステムの異常を検出する話がKDDのIndustrial Sessionのほうに通ってしまいました。
- 再び、自らの手を汚すことなく…
- 僕がFirstのほうは、さくっと落ちてたのだが…もうちょっとシステム寄りのところに出そうかなあ
- 2004/5/17 Structured⇔Semi-Structured⇔Unstructured なデータについて思った。
- 僕は文字列とか木とかグラフとかを対象にしたデータ解析をやってみたりしているのですが、そんなとき、「文字列とか、木とか、グラフなどの、構造をもったデータ(Structured
Data)に対し…」などというわけです。ということは、ベクトル型のデータには「構造がない(Unstructured)」のです。
- 一方、データベースというか、コンピュータサイエンスのほうからデータの扱いを考える人にとって、「文字列などの、構造のないデータ(Unstructured Data)」、「XML、HTML(木)などの、半構造データ(Semi-Structured Data)」、そして、リレーショナルデータベースにおける、通常のAttribute, Valueペアの集合からなるようなデータは、構造データ(Structured Data)と呼ばれるわけです。
- あれ?構造のあるなしが逆じゃん。その違いを考えてみた。
- 前者の立場は、多分、統計屋さんというか、そういうタイプのひとたちの言い方なのかな、とおもうけど、この場合、「まず、変数ありき」の立場なのかな、と思います。データというのがまずあって、それは変数の集合からなっている、と。一番構造のない状態、というのは、変数がバラバラで、つまり、ベクトルデータである、と。そして変数間の関係、すなわち、データ内の「構造」を、辺で結んでみたりすると、木やグラフになる。木やグラフというのは変数間にある構造を表現したものだといえるのではないかと思うのです。
- 一方、データベースのひとの考え方はどうなのか?思うに、こっちの立場は、「まず、オブジェクトありき」ではないかと思うのです。つまり、計算機上に表現したい対象が、まず、ある、と。そして、データはその記述である、と思うのではないか。そして、それをただ、つらつらと表現したもの、つまり文字列(文章)は、もっとも構造の無い状態だ、というわけです。そして、そのなかの情報をなんとかまとめていって、最終的に、Attribute,
Valueペアの集合によって対象を表現できた場合、それも特にAttributeがお互いに独立になるようにできたときに「よし!完全に構造をつくれた!」と満足するのではないか、とおもうのです。
- 2004/5/8 ICMLのAccepted Paper Listが出てた。
- 結構カーネル祭り。
- kernel CRFとかあるみたいだけど、ちゃんと計算できるんだっけ?前に考えてみたときには、任意のサイズのfeatureを扱おうとすると、和をとるところでダメだとおもったんだけど。
- 2004/5/2 坪井くんから、Thomas Hofmann最新情報
- 一派でICMLに2本出してくるらしい。2本とも構造→構造のマッピングっぽい。
- そういえば、そろそろ登録しないと…。
- 2004/4/28 Webマイニングという本を読んでみる。
- あっさりした感じで、浅く広く。まったく知らないひとが読んでも何をやっているかがなんとなく分かるかんじ。
- この訳者は、昔データマイニングという、これもまたあっさりした本を訳していたと思うのだが、こういうちょうどいいサジ加減の本を選ぶところは上手いとおもう。
- 2004/4/27 猪口くんと去年のICDMに出したグラフマイニングの論文の日本語版が人工知能学会の研究会で優秀賞をいただきました。
- いや、特に何かをやったわけではないけど、得しちゃったよ…。
- 2004/4/25 KDDのワークショップBIOKDDが今年もあるようだ。
- KDDに万が一通ってたらついでに出したい。
- PSBもそろそろ。
- 考えてみると、Firstでバイオ系に書いたことがまだ無い。
- 2004/4/22 ICMLのカメラレディを出す。やはりギリギリになっていろいろ不都合が発覚。
- いくつかの点については、まあ、通ってるしいいか…と妥協。多分、ジャーナル版を出すときに再び困るのだろう。
- 基本的なストーリーはCRFとかをベースのモデルにして、カーネル(任意サイズのfeatureを許す)を使ってブーストするはずなのだが、実験でベースのモデルが一様分布のときしか試してない点はかなりダメ。
- 2004/4/6 以前CATHのデータを使っていたprotein 3D structureの分類学習を再開してみようかと思う。
- 2004/3/25 <3年連続!>今年もICMLにアクセプトされました。
- 初めて通ったときはconditionally acceptだったからまぐれかと思ったし、2年目は津田さんのお陰もあったし、今回は坪井くんにかなり依存してるけど、3年連続はさすがに有意かなあ。けっこう嬉しい。
- 基本的にインプリは坪井くんによるんだけど、こういう「手の動く」人と組むのは僕にとっては結構重要なポイントだと思う。しかも坪井くんは理論のほうまでちゃんと分かってて、口が出せるし。
- たとえば「IBM ThinkPadは落としても壊れなさそうなので、2台ほど出張用途で買いました。」のような文章(の構文解析木)があったとすると、購入理由「落としても壊れなさそう」などを抜き出すルールを、事例から学習する新しい方法を考えました、という話
- ↓の配列ラベリング問題を、配列に限らず、木やグラフに一般化した問題なんだけど、それに対してカーネル法による解法をあたえる。
- 査読者のコメントはまとめると「すごそうなんだけど、わかりづらい」、ハイ、仰るとおりです…。
- 2004/3/1 今月から、しばらく研究所の管理部門に御奉公。
- メタな視点から物事が見られるのでいろいろためになりそうだなあ、とか考えつつも、この機会にこれまでサボっていたジャーナル論文をだしたいところ。
- 木カーネル:実験やり直して、理論を整理して。
- グラフカーネル:若干拡張してどっかに出したい。手伝ってくれる労働力がほしいです。誰かやってくれないものか。
- ラベリング:CRFベースにしないと…。特に実験でPriorがUniformを仮定しているのは、yを見てないのに等しいから。
- 2004/2/27 KDDにサブミット
- 今回は、会社のほうでのプロジェクトの一部の話で2本をサブミット。
- 片方は分散したシステムのなかでのサービス(HTTPリクエストとか、サーブレット呼び出しとかDBクエリとか)の依存関係をイベント発生時刻を解析して発見する話。
- もう片方は、ほとんど実働には関わってないけど、その依存関係の変化をもとに、異常状態を検出する話。
- 2004/2/8 ようやく仕事の方のKDD準備始動開始
- 2004/2/7 ICML2004に坪井くんとラベリングについての論文を出す。今年も通ったらいいなあ…。
- カーネルを使って配列や木やグラフをラベリングする話。
- なんか途中で訳わかんなくなったけど、なんとかそれなりに納まった気がします。当初の主張とはだいぶ違うことを言っている…。
- 最近(x,y)のyに構造があるやつが好き
- 基本的な考え方は、(x,y)の組み合わせに対して評価関数をつくるんだけど、CRFとかは、xとyにまたがるfeature φk(x,y)によって定義された特徴空間での、線形の関数f(x,y) = w Φ(x,y) = Σk wk φk(x,y)を学習する。与えられたxに対し、exp(f(x,y))/Z を最大にするyを求める
- 配列ラベリング文献
- 大体は(x,y)を生成する立場なんだけど、x⇒yを直接推定する枠組みとかもあるみたい
- xとyに別々の特徴空間Φ(x)とΨ(y)を定義する。f(x,y)=<g(Φ(x)),Ψ(y)>とか定義する(gは線形の変換Wとか)。
与えられたxに対し、 f(x,y)を最大にするgを学習
- kernel dependency estimationではΦ(y)側でKernelPCAをやって、Φ(x)から各PCをregressionするらしい。
- 求められたΦ(y)からyのデコーディングに困るのはCRFはHMSVMとかと同じ
- 小さい定数サイズまでのfeatureは可能だろうけど、任意サイズのfeatureを使うとなると無理だと思う。
- 2003/8/14 グラフマイニングの論文がIEEE ICDM'03にAcceptされました!!
- グラフ関係を一緒にやっている猪口さんがファーストの論文がICDMに!
- データマイニング関係は異常にアクセプト率低いのに、通ったのは結構凄い。。。僕は探索の戦略に少し口をだしただけなので、こんないいとこに通してもらっちゃって有難い限りです。。
- χ二乗値とかエントロピーとかの分類の指標を大きくするようなパタンを見つけるというのは、マイニングと分類学習の微妙な中間点をいっててうまく嵌まったのかも。。
- 2003/5/25 実装
- 現在、本来の仕事のほうでちょっとした実装をしているのだが、僕はプログラミング嫌いなのでとても進みが遅い。逃避行動として、ココを書いているくらいに。
- 機械学習とかは多少理論っぽいことをやるといっても、やはり実験をして成功例を見せるのが普通だと思うので、いかに素早く実装して、うまくいくか確かめるのは大切だと思う。
- ここを速くなればもうちょっと論文生産率も上がるかも。。。代わりにプログラミングしてくれるひとがいると一番いいけど。
- 2003/5/20 NIPS2002のRational Kernel
- transducer同士のカーネルをつくる話で、ストリングカーネルの辺りが統一的に扱える枠組み。いきなりsemiringとか出てくるので引くけど、我慢して読むと分かる。中身はみんながStringKernelについてなんとなく感じてたことを纏めたかんじ。
- acyclicな場合にはtransducerのサイズの積について線形時間でshortest pathで解ける。辺の向きを逆向きにしてトポロジカルソート、ノードを上から順に選びながら、そのノードに隣接しているノードのスコアを更新していくとO(|E|+|V|)
- 我々のグラフカーネルは2つのグラフをそれぞれweighted automaton(transducerのspecial case)だとおもってprobability semiringを使うと、この枠組みに入るのかな。与えられているアルゴリズムはacyclicな場合なので直接は使えないけど。
- Fig.3(b)のtransducerのT*T^-1のcompositionはFig.2(b)にならない気がする。
- 2003/5/15 NP-hardness
- 九大(今はUNSW)の坂本さんがtree kernelに関する問題のNP-hardnessを証明してくださった。
- いつも証明とかなしで、雰囲気でえいっとやって後で間違いに気づくことが多い。こんな感じでちゃんと証明できるようになりたいところ。
- 再帰以外の技も使えるようになりたい。。。
- 2003/5/10 グラフカーネルの論文がICML'03にAcceptされました!!
- 図らずも、昨年に引き続き、2年連続出場となりました。「はっ、もしや僕ってスゴイのか!?これって若手ホープなのか!?」とちょっと天狗に。
- reviewerのコメントも良好でしたが、やはり実験のところにはマイナス点でした。Kernel
Perceptronじゃなくて、SVMでやりなおさないと。
- しかし、津田様様様といった感じです。書き方一つでこんなに変わるもんですかと思う。
- ワシントンとかだとニューヨークに近いから、絶対「ついでにワトソンにも寄って話して来い」とか言われそうでイヤなんですが。。。英会話行かないと。。。(←結局、本当に行かされました。うんざりするほど長い出張に、知恵熱でた。)
- 2003/4/14 津田さん、RECOMB2003のワークショップKernel Methods in Computational Biologyで↑を発表。行きたかった。。。
- (発表者の名前しか書いてないので、僕の名前は無いですが。)
- 2003/2/21 CBRCの津田さんに手伝っていただき、グラフカーネルが美しくなりました!ICML2003に投稿しました。
- 全体的な構成が変わったり、証明が加わったりして、わかりやすくなりました。書き方でずいぶん変わるもんですね。
- へぼいところといえば、僕のいいかげんな実験。。
ちなみに、このサイトの掲載内容は私自身の見解であり、必ずしもIBMの立場、戦略、意見を代表するものではありません