もどる
(か)研究日記
- 2008/12/19 SDM(1)とPAKDD(0.5)
- ドイツにいる間に出したものの結果が、ひととおり出揃った。 結果、1.5/3本
(1=long、0.5=short)。 なんとか繋いだかんじ。
- 2本とも、リンク予測というか、2(ないしN)体関係の予測を扱ったものです。
とくに、3体関係以上(とくに3)の種類を扱えるようになると、3つ目の関係を「関係の種類」のラベルとして
(ノード, ノード, 関係の有無) の予測から、(ノード, ノード, 関係の種類)や(ノード,
ノード, 関係の起こった時刻) というように、リンク予測において扱えるものが大きく広がるという利点があります。
- 2対関係に対するカーネルは、小山さんをはじめ、何人かのかたが独立に提案しているものがスタンダードですが、これには、カーネル行列があまり大きくなりすぎてしまい扱えなくなるという問題があります。
ここを回避するための計算手段や、もう少し簡単なカーネルなどを提案します、というのが今回の2本です。
- 2008/12/16 オープンハウス
- 弊社弊研究所の(再来年度就職するつもりの)学生さん向けオープンハウスが、神奈川(1/23)と京都(1/30)で開催されます。
- 神奈川(大和)で開催される方については、事前に連絡をいただければ、来られたついでの若干の個人的応対もできるかと思います。
- 2008/12/09 ICPR
- NIPSの裏で開催されている、ICPRというパタン認識の会議に来ている。 なぜ、NIPSと被っているかというと、(中身は同じようなことをやっているはずなのに)人が全然被っていない。
- 機械学習とかは、より手法寄り、パタン認識は、よりドメイン寄り、ということだろうか。
- ほとんど知っている人がいないなあ、と思ったら、日本の研究会だと主にPRMUとかに来ている人たちが来る、ということらしい。 確かに、日本でも、微妙に棲み分けている気がする。
- そして、日本人が多いのに驚く。 会議のエライ人の中にも、日本人の先生がたくさんいる。
実は、パタン認識業界では、日本人は結構強いんじゃないだろうか、と思ってみたり。
- あと、とりあえず、でかい。 6~7のオーラルセッションと、2~3のポスターセッションがパラレルで開催。
こんだけ人が多いと、とりあえず、発表を聴きにきてくれる人がそれなりにいるので、気分はいいかも。
- 泊まっている場所が、あまりに会場から遠くて、めげそうです。 初日に歩いてみたら、2時間かかった。
以降、タクシー。
- 何件か、自分の研究を引いてくれてた人がいたので、むやみに挨拶しに行く。
カーネルの変数名にGkashima とか使ってくれていると、うれしはずかしい。
- 2008/11/18 時系列について思ったこと
- 当たり前だが、時系列データの、時系列データたるところは、IIDでないところ、である。
- これを踏まえて「時系列解析」をする場合、「非IID性をもつモデルの研究」と、「IIDになるような特徴抽出」の研究という、(必ずしも直交しない)
2つの道がある気がしてくる。
- 前者は、IIDでないこと(時間的な依存性)をモデル(あるいは特徴抽出)の中で明示的に考慮する。
いわゆる時系列モデル。
- 後者は、IIDに(近く)なるようなモデル(あるいは特徴抽出)を考える。
- たとえば、IdeさんやTomiokaさんが、時系列集合の特徴として使っていた、相関係数などは、後者のほうで、もちろん厳密にはIIDではないが、時系列そのものよりも、IIDに近い、という期待が込められている、と思う。
- ミクロ→マクロな特徴量に抽象化して考えることでIID性が増す、という考え方が背後にあるような気がする。
- 2008/11/10 IBIS2008
- 今年は、副委員長さんとして、運営に参加させていただきました。
- 今年からは、これまで運営をされていた先生方が、サポートにまわってくださり、会議の中身については、ひとつ若い世代にまかせる、という方針で、これまでとはちょっと異なった雰囲気になったのではないかと思います。
- したがって、賛否両論あったとは思いますが、そのへんは、そのうち、アンケートの結果からわかるのでしょう。
- 僕は、メーリングリストで適当に相槌を打っているだけの仕事っぷりでしたが、ほかの実行委員の方々のがんばりにより、充実したものになったのではないかと思います。
- まあ、今年は、一年目なので、各自、自分の得意の持ちネタを吐き出せばよかったのですが、来年からもこの体制でいくとすると、2年、3年とつづけていったときに、真の実力が問われるのでしょう。
- 最近のIBISは、より敷居の低い会議になってきているのではないかと思います。
全体的に、内容の良し悪しは別として、何が言いたいのかすらよくわからない話というのが少なくなってきていると思います。
8割の人を拾う方向、これは、個人的に非常に好ましい傾向だと思います。
- 会議の形式としては、「機械学習とホニャララ」的な、招待講演による企画セッションをメインに据えて、一般発表はポスターセッションで、という形式でした。
- 企画セッションは、特に、他分野から招いたアウェイの方々の話が、前提知識をなるべく少なくしようと工夫されていて、非常にわかりやすく、満足度が高かったように思います。
- 特に最適化のセッションは、適切な難易度で、かつ、メッセージも明確で、非常にためになりました。
さらにその中でも特に、連続最適化の話と、離散最適化の話は、素晴らしかったと思います。
- 連続最適化のほうは、
- LP→QP→SDPなどときて、その先にPOP(多項式最適化問題)がある、という図式。
POPは、基本的には、SDPの列に緩和して解く。 ああ、なにかPOPで書けそうないい問題をつくったらいいんだね、という気がしてくる。
- が、機械学習でも、一時期、いろいろなものをSDPで、という頃があったが、あまり大きな問題は解けず、結局、(凸性を捨てたりして)さらに簡単にする必要があったので、POPでも同じことが起こるのだと思う。
- でも、とりあえず、最初にやった人は、勝ちです。
- 離散最適化のほうは、
- 離散最適化のアプローチ(あるいは問題)には、木になるやつ、離散凸になるやつ、その他、の大きく分けて3種類がある。
- 木になるタイプの問題は、一般的で、効率的なアルゴリズムが知られているので、木になると、すごくうれしい。
- なんだか、グラフをみたら、全部木にしたくなりそうな、そんな内容でした。
- 複雑ネットワークのセッションは、ほとんど個人的趣味の企画ですが、ほかの運営委員の方にも興味をもっていただいて、一緒に企画しました。
- 最初に僕が全体を包括するような(いいかげんな)話をさらっとさせていただいたあと、3件の講演を聴きました。
- 複雑ネットワーク=ネットワークが共通にもつマクロな性質に興味がある、機械学習=個々のネットワークのもつミクロな性質に興味がある、という図式にしましたが、最近では、複雑ネットワークのエライ人々が、個々のネットワークにおける推論に手を出し始めているようです。
- 増田直紀先生には、複雑ネットワーク科学サイドからの概要と、最近の話題ということでお話いただきました。
- 前日の懇親会で参加者とお話をされたところ、どうもこっちのほうが興味をもってもらえそうだ、とのことで、急遽、病院内ネットワーク解析の話に切り替えられました。
講演の途中で、票をとって、どちらにするか決めた(もともとのニューラルネットの話を聞きたいというひとも結構いましたが)のですが、確かに、より応用が見える話でよかったと思います。
- 病院の話は、院内感染を防ぐのに、どうするのがいいか、という問いに対してネットワーク科学の立場から考えたというもので、個室にして患者間の接触を減らすのよりも、実は、病気を媒介するハブになる、医者の担当をコントロールするほうが、(コストも安いし)効果的が高いという結果。
- あと、複雑ネットワークの生成だけじゃなくて、複雑ネットワークの上での伝播という話もされておられました。 僕は複雑ネットワークの生成学習のことしか頭になかったけど、そういえば、複雑ネットワークの上での学習ってのも、十分にアリですね。
- 次に、(個人的にもお世話になっている)Mixiから、加藤幹生さん(実は同じ研究室の出身)に来ていただいて、Mixiにおけるネットワーク分析の事例を紹介いただきました。
- Mixiの中の人の話はそうそう聞けないので、非常に貴重な機会であったと思います。
彼の話には、ネットワークにおける機械学習が超えなければならない壁として、スケーラビリティの問題を非常に意識させられました。
- 彼は、お友達やコミュニティのオススメ機能を実際にMixi上で提供しているのですが、Mixiのような1000万を超えるノードをもつ巨大なネットワークでは、シンプルな手法でも、相当時間がかかります。
我々は、ついうっかり、むずかしい解析をやりたがるけど、巨大なネットワークでそれをやるのは無理があるので、精度と効率のトレードオフは、かなりシビアです。
- ネットワークの解析や予測を行う目的は、大きく2つあると思います。
- ユーザーに長居してもらう
- ユーザーに何かを買ってもらう(クリックしてもらう)
現在のオススメ機能は前者のほう(したがって、数%精度を上げても、直接的にはさほどうれしくない)ですが、今後、後者のほうへも予測機能を入れていこうとする場合、↑のような問題に、もっと真剣に取り組む必要がでてくるでしょう。
- 最後に、NTTの山田武士さんには、以前から気になっていたIRM(以前こちらでも紹介しました)ほか、確率的なネットワーク生成モデルを包括的に解説していただきました。
- 本当に、一通り、端から端まで、で、全体を俯瞰できる、気合の入ったお話であったと思います。
- (個人的には、それに圧倒されて「あ、こっちには行かんとこう」と思いました)
- リファレンスとしても、非常に価値があると思います。 スライドが公開されたら、是非ご覧になることをオススメします。
- しかし、某ネットワーク研究のエライ人、おいしいところだけを取り出して、さくっと持っていっちゃうあたり、非常に上手いというか、なんというか。
- しかし、なんで、そこ空けとくかなあ…という気がせんでもない。
- 今回は、一般発表は、原稿はナシで、ポスターセッションのみ、という構成にしました。
個人的には、これも一応成功だったのではないかと思います。
- 今回のテーマは「共同研究者をみつける」なので、そのためには、発表形式よりも、直接会話できるポスターのほうが、より向いているでしょう。
- また、(とくにテクニカルレポートへのリンクなどを希望しない場合には)タイトルと、日本語アブスト以外には、特に何もWebに残らないので、気軽に発表できるという利点があります。
このようにした背景のひとつには、最近の国際会議の、2重投稿に対する規制の強化があります。
- 僕は、このような目に遭った方に直接会った事はないのですが、Webで検索してみて、国内発表の資料(で英語のアブストラクト)がWebで引っかかったら、既発表とみなされてリジェクト、という話があるそうです。
- これまでは、国内の研究会で発表→国際会議に投稿 のようなステップを踏んでいる方も多かったと思いますが、かならずしもこれが通用しなくなってきている(かもしれない)と。
- この「2重投稿とみなされてしまう問題」に対策をとっている研究会もあるようです。 これが国際的にどのくらい効力を持つかはわかりませんが、かなり頑張っていると思います。身近なところでは、DMSMも、発表資料にパスワードをかけていますし、今後、国内の研究会は、こういった対策をとるのが標準になるのかもしれません。
- 分野的に、人が増えたことで、査読のコストが増加し、一方で、モラルの低い投稿者の数も増加しているようですし、このような対策は、仕方ないのかな、とは思います。
- 今ちょうど、2つの会議のプログラム委員をやっているので、両方の投稿論文リストが見られるのですが、実際、おもいっきり2重投稿なのを発見してしまいました…。
- ただ、学生で、国内での発表が業績にカウントされるような方、一方、社会人で、発表の証拠が紙として残らないと出張を許されないような方には、ちょっと迷惑だったかもしれません…。
- 2008/10/26 帰国→IBIS
- チュビンゲンからかえってきました。
- そして、1日おいて、リハビリを兼ねて、IBISに。
- 今年は、メンバーが一新され、杉山さんを中心とした、比較的若い運営チーム構成になっており、いくつかの新しい試みがされています。(そしてなぜか自分は副委員長さん)
- 昔からのIBISの人も、そうでない人も、それなりに楽しめる催しになるとよいです。
- 2008/9/15 KDD cup
- 今年のKDDカップは、乳がんの早期診断というタスクで、我々も期待の新人森村さんを中心に有志で参加しました。
- 結果は、(我々ではなく)ワトソン研究所の同僚チームが、両方のタスクでぶっちぎりの優勝をしてくれました。
- ちなみに我々のチームはタスク1で5位、タスク2では、患者さんを救えず失格でした。
残念…。
- 2位以下は割とダンゴ気味なので、ワトソンチームには、何か策があったはずと考えられます。
西郷さんからの報告によると、なんと彼らは、普通、予測には関係ないはずの患者IDを使ったらしいのです。
かれらは正例と負例に振られているIDの分布が(人為的不手際により)異なっているはずだ、という仮定をおき、それを予測に用いたようです。
- 実際、ID以外については、たいていの参加者がおおむね同じような方法(事例のバランス調整+線形分類器+ヒューリスティックな後処理)を用いていたようです。
- ある種、タスクの穴を見つけて利用した、という感じなので、人によってはズルイと言うひともいそうですが、これは彼らでなくても実現できることであるし、むしろ、勝てばよかろうなのだで、そこに目をつけた彼らは(本当に)高く評価されてよいと思います。
すげえ。
- 今回は、属性の名前が匿名で何なのかわかんなかったりとか(ちょっとブラックボックス過ぎ)、評価用コードにバグがあったりとか、さらにその指摘への対応がまずかったりとか、ヒントとして与えられたものが効果がなかったり(試したことあるの?)とか、そういう運営上の不満を何人かから聞いており、コンペティションのあり方としては、あまり評判がよくなかったようです。
が、それゆえにこのオチの面白さが引き立っていると思います。
- 2008/09/12 一月が経過
- Max Planck Institute for Biological Cyberneticsに来てから、そろそろ1ヶ月が経とうとしています。 ひととおり体調の悪いのも落ち着いて、なんとなく、近所の人とも知り合いになり始めて、ようやく居心地が良くなってきたところです。
- 先週は、予約の都合上、ゲストハウスを追い出されるついでに、夏休みを兼ねてスイスへ、弊社研究所(チューリヒ)の同僚たちと、ETHのProf. Buhmannの研究室を訪問してきました。
- みなさん、ずいぶん生暖かく歓待してくださり、非常に心地良かったです。
- MPIについて 僕の知ることをいくつか紹介します。
- MPIは、Fraunhoferなどと同じく、国立の研究機関です。 特筆すべきことは、MPIは資金的に非常に恵まれていて、外部の競争的な資金を獲得する必要がなく、毎年、自動的に研究費が降ってくるようになっているとのことです。
そのせいか、研究所の雰囲気は、非常に自由な雰囲気で、ゆったりしています。
(もちろん、それなりのプレッシャーはあるとは思いますが。)
- 大学での研究室に対応するものが、数十名のメンバーを擁するdepartmentというものになります。
departmentは、終身の身分である教授の名前を冠していて、僕のいるところはDepartment Shoelkopfという具合です。 これが3つ(3人分)集まって、MPI for biological cyberneticsという組織になっています。
- メンバー的には、教授以外は、研究員とポスドク(僕には見分けがつかない)、あとはドクターやマスターの学生といった感じの組織です。 ちなみに、学位は出せないそうです。 長くいたとしてもせいぜい数年で、また別の研究機関に移る、という感じで、教授以外は出たり入ったりが激しいようです。
僕の付いている津田さんなどは、おそらく最長老の部類に属するのではないかと思います。
- 僕のMPIでの生活では、こんな感じです (僕の日々の生活の詳細に興味のある、あくまでマニアックなかたは、こちらをご覧ください。)
- 職場の隣の建物が、ゲストハウス兼食堂になっていて、僕はここに住んでいます。
職場の自分の机まで歩いて3分ですので、気軽に行き来できます。 山の上なので、街にはバスで10分ほどかかり、街から隔離されているため、かなり研究に集中できる環境ではあります。
食事は、平日の昼は食堂で、あとは粗食でやっています。
- 職場は、通常2~3人で一部屋を共有しています。 ちなみに、ぼくのいる部屋は、相方が日本にいっているらしく、一人で部屋を占拠している状態で少しさびしいです。
また、どこかからだれかが数日~数ヶ月滞在ということが日常的におこなれわれているため、僕が一人増えたところで誰も意に介しません。
前に出て行く力が問われます(でもあんまり出て行かない)。 人が多いのは火水木で、月曜と金曜は少なめ、火水木には、誰かしらのトークがあります。
僕も、こちらに来て3週目に自分の研究を紹介しました。 こちらの人の食いつきどころは、とにかくテクニカルなところに燃えるようです。
ある種の共感は感じる一方、これに染まったらまずいなとも感じます。
- 2008/08/12 一週間が経過
- 津田さんのところに来てから、一週間。 山西さんも合流したりして、いくつか面白そうなネタが生まれてきつつあります。
- 毎日のように、誰かのトークがあるわけですが(で、ほとんどついていけてなかったりするわけですが)、見ていると、ここの人は、やっぱりアプリケーションよりも理論が好き。 ぜんぜん食いつきが違う。
「ええそこでそんなに盛り上がんの!?」
- 楽しいけど、どっぷりこっちの価値観にならないように気をつけたいです。
- 2008/08/04 ドイツ
- これから3ヶ月ほど、津田さんのところ(Max Planck Instutute for Biological Cybernetics)にお世話になります。
- なぜ、そんなことになっているのかというと、最近、うちの研究所ではいくつか「研究強化プログラム」的なものが走っているのですが、そのうちの「論文書こうぜ部門」みたいなやつがとれたので、そのお金で来ています。
- そういうものがあること自体、いい職場だと思います。
- いろいろとやばいコミットをしてしまっていますが、まあ、がんばります。
- あと、最近、加藤さん筆頭のIEEE Neural Networks (ラベル伝播の情報統合)と、杉山さん筆頭のAISM
(共変量シフト)の、2本のジャーナルがアクセプトされました。 めでたいです。
- 2008/07/01 ICPR
- 先日、いくつかまとめてICPR(International Conference on Pattern Recognition)という会議に出してみたところ、結果、3本出して、2本オーラル、1本ポスターという結果に。
- いままでどこにも出せてなくて眠っていたやつとか、お仕事系の論文などの片付け先として良いかもしれない。
- 2年に1回開催される。 かなりでかい会議のようだ。
- 分野も何でもアリで、パタレコ何でも来い、みたな感じに見える。
- 採択率は、だいたいオーラル2割弱、ポスター4割くらいらしい。 原稿も4ページでお得。
- 開催時期が、NIPSと被っているのだが、人は被らないのだろうか…。 完全に棲み分けているのかなあ。
- 2008/06/12 祝い事2つ
- 2008/05/29 大阪で開催されたPAKDDにて、比戸さんが発表してきました
- この論文は、「2つのデータセットの違いがあるか?あるとしたら、どう違うのか?」という(教師ナシ)問題に対して、教師付き分類器を使ってアプローチしてみましょう、というものです。
- 問題としては、古典的には、いわゆるtwo-sample problemというやつで、2つのデータセットが、同じ分布から出てきたものかどうかというのを検定するような話として扱われますが、two-sample
problemにおいては、2つの分布がどのように異なるのかということについてはあまり問題にされていません。
- しかし、応用においては、たとえば、異常検知システムといったものを考えると、単に「何か変だよ!」と異常っぽいところで警告をだしただけでは事は終わらず、当然、次のステップとして、どこがおかしいのかを調べる必要が出てきます。
- この研究では、
- 2つのデータセットが教師付き分類器によって分類できるなら、2つのデータセットは異なるといえる
- 分類器が、決定木などの可読性の高いものであれば、その分類器を調べることで、変化の内容についての知見が得られるはず
という2つのアイディアによって、この問題にアプローチしています。 あと、ついでに、これを使ったコンセプトドリフトの解析とかもやっています。
- 実は、two-sample problemを調べていくと、「近傍同士の2つの点が、同じデータセットからくる割合」が高いならば、2つのデータセットは異なる、とするnearest
neighbour testと呼ばれるものがあります。 これを「nearest neighbour classifierの予測精度」と読み替えると、我々のアプローチは、このnearest
neighbour classifier を、任意の分類器で置き換えたものだ、と考えることができます。
- 2008/05/25 テンソルもの
- 最近、ちょっとテンソルものにはまっているので、まとめ。
- いろいろなところで、チュートリアルがあったり、近いところの人たち(彼とか彼とか)が関連する論文でペストペーパーとってたりするので一度、なんとなく分かった気になりたかったところ。
- あと、現在やっていることに組み込もうかと…。
- いいかんじのチュートリアル論文が
コレ。
- 著者は、ここしばらく、このあたりの道具をデータマイニングにもちこんで稼いでる人。
- どういう方法があって、どうやっているのか、というフンイキが分かる、いい感じのサーベイです。
- これまで、解析の対象は大体において行列だったわけだが、扱う対象を、行列からテンソルに拡張することで(特に2次元→3次元に拡張することによって)どんなイイことがあるかというと、それは「3項関係以上の関係を解析できるようになる」ことである。 たとえば…、
- 文書のクラスタリングだと、行列だと、文書×単語の関係を見ていたのが、テンソルにすると、文書×単語×時間 のように時間の要素を入れたれたりとか、
- おなじく、Enronのデータとかだと、メールの送信元×送信先×時間(×単語)の関係を考えられたりとか、
- 普通のPageRankがリンク元×リンク先 の行列をみていたのが、テンソルにすると、リンク元×リンク先×リンクについている単語、になったりとか、
などなど。 行列が2項関係だったのに対して、3項以上の関係が扱えるようになりますよ、ということだ。
- 代表的な道具は、行列の低ランク近似(SVD)などの、テンソルへの拡張である。
- 基本的には、2次元のテンソル(行列)XをX=UVとかX=UDVとか、低ランクの行列に分解する、matrix factorizationや、SVD(singular value decomposition; 特異値分解)とかの手法を、3次元以上に拡張する。
- 代表的な分解としては、
- CP(CANDECOMP/PARAFIC)分解 (=Kruskal分解)
- CP(CANDECOMP/PARAFIC)はXをランク1のテンソル の和に分解する。
つまり、
X ≒ λ1(u1○v1○w1)+ λ2 (u2○v2○w2)+ ... = Σi λi(ui○vi○wi)
こんな感じ。○は外積。λiは、固有値みたいなもんのノリ。
- Tucker分解
- Tucker分解は、CPの一般化で、
X ≒ Σi Σj Σk λijk(ui○vj○wk)
こんなかんじになる。
CPのλに対応するところがちっちゃいテンソルになってる感じ。
CPは、このちっちゃいテンソルが対角である場合に相当するわけだ。
の2種類がある。
- なお、分解されるべき3次のテンソルをX(M×N×Lサイズ)として、3つの行列を、
- U = (u1, u2, ...): M×d 行列
- V = (v1, v2, ...) : N×d 行列
- W = (w1, w2, ...): L×d 行列
とおいた(dはMとかNとかLとかより小さい)。
- 解き方は、基本的に、行列のときのように固有値一発とか逆行列一発とか、すごく爽やかにというわけにはいかなくて、局所的な最適化(例えば、現在の解でVとWを固定して、Uについて最適化して、解をアップデート)を収束するまで繰り返すタイプの方法になる。
- 2次元から3次元以上になるところで、問題の性質がどーんと変わるらしい…。
- たとえば、SVDで3軸で最適な解が2軸で最適な解を含むが、これは3次元以上ではなりたたない、つまり、3軸、と決めたら3軸で一気に解く。 2軸でやりたかったら、はじめから計算しなおさないといけない。
- 2008/02/19 ベイズ that matters
- 以前にもちょっと触れたが、2006年のICDMで発表された論文で、ベイズでデバッグする話(バグのある位置を見つける)というのがあった。
- この著者は、この辺りの仕事でブレイクして、チュートリアルに呼ばれてみたり、確かいまはYahooに職を得ていたはず。
- 内容は、いわゆるstatistical debugging (統計的デバッグ?)と呼ばれる類の話。
統計的手法を用いて、プログラムのバグを見つける。 これをベイズでやりました、と。
- プログラムのいろんな場所に、フラグ(論文中ではpredicateと呼んでいる)のようなものが埋め込んである。フラグとは、
たとえば、「ある変数が正になるか負になるか」といったものを表す。
- プログラムを実行すると、埋め込んだ場所、そのときの実行状況に応じて、フラグが立ったり立たなかったりして、特徴ベクトルがひとつできる。(異なった種類のフラグに対しては、また別の特徴ベクトルができる)
- ここで、プログラムの、うまくいった実行、うまくいかなかった実行が1つづつ与えられる。
これが訓練データ。
- フラグが立つ確率を、ベルヌイ分布で書いて、これにベータ分布の事前分布を入れると、事後分布もベータ分布になる。
- 最後に、うまく実行できるときと、うまくいかないときの事後分布のKLダイバージェンスでもって、そのフラグの立ち/不立ちと、実行の成功/失敗との関連度定義する。 これを各種フラグに対して計算し、ランキングするという話。
関連度の高いフラグのあった場所からプログラムをチェックしていけばいい、と。
- しくみ自体はとても簡単な話(正例と負例が1つづつのテキスト分類みたいなものだもんね)で、いまどきのベイジアンの人にはプリミティブすぎてつまんないかもしれない。
「え?そんだけ?」って。
- 「それで論文通るの?」「だって、ICDMだからね」…って? 違う、そういうことじゃないんだ…と思う。
- いや、これ、ほんとイイ論文だと思うんですよ。 僕は、この論文のスバラシイところは、ベイズにすることが、ちゃんと、O(N)→O(1)という、大きな、わかりやすい(工学的)ジャンプを実現しているところであると思うのです。
この問題では、ベイズにするかしないかという選択が、最終的に勝敗を分けるポイントであって、著者はそこを、適切なコミュニティにおいて指摘してみせたということだと思うのです。
- この論文の肝は、問題設定を、成功失敗それぞれ複数の事例が必要だったところから、それぞれ1つづつしかない状況にしたところ。
これがベイズ化の勝利を導いた、そして、同時に、その問題設定が、対象の領域(デバッグ業界)において大きな意味をもっていた(と、そのようにストーリーを組み立てた)というところ。
- あ、あと、タイトルがオシャレ。(「俺たちなりのやり方」ってかんじ)
- 2008/02/4 ICDMデータマイニングコンテストの記事が出てた
- IEEE Intelligent Systems (IEEEの、ジャーナルというにはちょっと軽めの雑誌、AI部門)に載る、と言われていたICDMコンテストの記事がでていた。
- ちなみに、セクションごとに見るとちゃんと我々の名前で載っているのだが、1つの記事(引用する単位)のレベルで見ると、主催者の記事となっている。
- つまり、DBLPに載るのは、この単位というわけだ。
- もちろん、これはまったく正当なことであって、我々も、この件についてはもう十分すぎるほど回収しているわけなので、文句をいう筋合いはまったくないし、文句もない。
- つまり、ここから得られる教訓としては、こういうのは、遊ばされるほうではなく、遊ばせるほうにならないといけない、と。
- もちろん、遊ばされるほうも、遊ばせるほうも、それなりの輝き方がある。 が、同じくらいのインパクトを出そうとしたときに、後者と比較して、前者はより輝かないとつり合わない。
- 2008/01/21 昨年のまとめと今年の方針
- 昨年のまとめ 「いただきものの一年」
- 昨年は「何も生み出していないが、これまでの投資を全て回収した」感じ。 出力だけ見ると、これまでのベストイヤーになってる、けどねえ…。
(多少なりとも自分でやったのといえばICDMカップくらいかなあ…。)
- とくにTプラからは、いろいろな意味で、随分といただいた。 みんなスゴイ。 若者もスゴイし、若くない人もスゴイ。
もう、まかせた。
- 今年の方針 「前向き敗北宣言」
- 簡単な(のにうまくいく)やつだけ自分でやる。 (あとは、人に頼る。)
- ゴハンを喰える仕組みを身につける。
ちなみに、このサイトの掲載内容は私自身の見解であり、必ずしもIBMの立場、戦略、意見を代表するものではありません