もどる
(か)研究日記
- 2010/12/28 ICDM出張(CPS編)
- 先日シドニーで開催されたデータマイニング系の準トップ国際会議IEEE ICDMに参加してきました。
- ICDMは今回で10回目を迎え、シドニー工科大学で開催されました。会議のレベルとしては、ACMの主催するSIGKDDを追いかけるかたち(前のめりで)で永遠の2番手という感じですが、分野の混み具合もあって、受理率はレギュラー論文で10%、ショート論文も入れると20%程度と結構な難関会議となっています。
ちなみに、我々の論文はショート論文として採択されました。
- Xu Sun, Hisashi Kashima, Takuya Matsuzaki and Naonori Ueda: A Robust, Accurate, and Fast Stochastic Gradient Training Method for Modeling Latent-Information in Data, In Proc. 10th International Conference on Data Mining (ICDM), Sydney, Australia, 2010.
- 会議オフィシャルまとめスライドにいろいろと情報がありますが、採択された論文のテーマとしては、既存の問題に対する新しいアルゴリズムの提案(53本)につづき、個別の話題ではネットワーク関連が特に目立つ(23本。また別の機会に紹介します)。また、今回は次元削減や特徴選択系が多め(11本)
で、スパースものの流行の影響でしょうか。(テクニカルにはCPSに深く関連する)ストリーム/時系列なども堅調でした。
- 今回の旅の目的は我々の研究発表(孫さんの系列ラベリング学習法)とデータマイニングコンテスト視察(交通量予測)です。
今回のデータマイニングコンテストのお題は、センサーデータからの交通量予測でした。 交通はサイバーフィジカルシステム(CPS)の大きなターゲットのひとつであり、その意味で、(か)の参加しているプロジェクトと関連するため偵察してきたという感じです。
- ちなみに、この手のコンペティションは近年多くのデータ解析系国際会議でありがちな催しのひとつとなっていますが、おおむね、共通のデータを用いて予測モデルの精度を競うというもので、会議に先立ち行われたコンテストの勝者のアルゴリズムが会議で紹介されるという形をとります。
- ICDMの主催するデータマイニングコンテストで今回で4回目(同様のもので、KDDの主催するKDD Cupの歴史はもっと長い)。我々は第1回目でモバイル機器の位置推定タスクで勝ったことがあり、さんざん引っ張ってじまんしました。
- コンテストのスポンサーであるTomTom社はカーナビの会社であり、より賢いカーナビをつくりたいというモチベーションで、交通量の予測に取り組んでいます。
今回彼らによって提供されたデータは、実データではないのですが、彼らのもつ交通シミュレータによって生成されたデータで、ワルシャワの街での道路交通という想定です。
- コンテストでは3つの独立したタスクが出題されました。
- タスク1:道ごとの交通量予測(過去の交通量から特定の道での数十分後の交通量を予測)
- 各道で1分間に通過した車の数。 最初の30分のデータを与えられ、ここから40分、50分での通過数を当てる。
- この問題は、ふつうの回帰問題で、あまり面白くないです。 勝ったチームも適当に回帰モデルを組み合わせて…という感じでした。
- タスク2:渋滞個所予測(次に渋滞が起こる道を予測)
- 最初の20分間にどこで混雑があったかというイベント列が与えら、ここから次の40分にどこで混雑が起こるかを示す列を予測する。
- ポイントは「渋滞は伝播する」という知識をいかに利用するかというところで、勝者のチームはいずれも予測モデルに、渋滞の伝播モデル(ある交差点が混んでいたら、近い将来、隣の交差点も混むかも)を組み込んでいました。
- タスク3:GPSからの交通量予測(各車のGPSデータから、特定の道での交通量を予測)
- GPS情報(全体の1%の車の場所がわかる)と最初の30分の各道の速度が与えられたとき、30-36、54-60分における各道の速度を予想する。
- まず問題となるのが、GPS情報と道の対応付けで、これは真面目に地図をグリッドで切ってマッチングしたり、GISのソフトを使ったり(!)などによって各チームこれを解決していました。
特徴量としては、大局的特徴(車の台数)や局所的特徴(速度0の車の数)などを特徴に用いて予測を行っていました。
- コンテスト勝者のアプローチの全体的な印象は「スマートさよりも根性」で、k-近傍予測や複数の予測器による投票などの、ありふれた方法が「スマートな」モデルよりも性能が良く(たとえば、時系列予測モデルなどは全然ダメだったそう)、ドメイン観察から得た知見に基づくヒューリスティクス(タスク2における伝播モデルなどの手で書いたルールや、k-近傍で用いる距離のデザイン)が一番効くという感じです。
これは我々が以前コンテストに出場したときの印象とも合致しています。
- 結局、現実的で、ある種泥臭い問題設定では、厳密なモデル化や洗練された方法論よりも、単純なノンパラメトリックなやり方+ヒューリスティクスのほうがうまくいくことが多く、単純な手法をカスタマイズ/スケールさせる努力をするのが吉なのでは?という気がしてきます。
そして、地味ですが、なんだかんだで近傍探索の高速化やストリーム化などは有望であると思います。
- 会議で発表された論文の中には、CPS的なテイストをもつアプリケーションを念頭にいれた問題設定が着実に増えているという印象です。
ただ、現状では、何らかのセンサーを介して集められたデータを分析するところまでであり、また、その分析「フィジカル」側から抽出されたデータを「サイバー」側のデータと統合して分析というところまでは到達していないようです。
- また、分析結果からどのように現実世界へ働きかけるかという最適化やプランニング、現実世界とのインタラクションというところも今後の課題という感じです(データマイニングの会議なので、それは当然なのかもしれない)。
- さて、(ちょっとムリヤリな繋がりですが)センサーからザバザバと大量のデータが流れてくるとはいえ、それらは機械学習でいうところのラベルなしデータであり、そこから信頼のおける質の良いモデルをつくるためには、正解ラベルつきのデータが必要です。そして多くの場合、それらは人間の手に頼ることとなり、そこがボトルネックになります。
- そこで、Amazon MechanicalTurkのような安価な労働力市場や、英国のどっかの会社が作ったスマートフォンから交通違反を報告する仕組みなど、昨今のインターネットを介した群衆の知恵を活用する仕掛け(クラウドソーシング)によってラベルを安価に大量に得ようというのはなかなか良いアイディアであるといえます。
- しかし、クラウドソーシングによるデータ収集の大きな問題点は、品質のばらつきです。労働力提供者のやる気や能力によって、ラベルの品質が大きく左右されます。
この問題への対処として、ネブラスカ大の研究チームによる「Active Learning from Multiple Noisy Labelers with Varied Costs」(というか、この研究に至る一連の既存研究)は面白いと思います。これらの研究のモチベーションは、どうせなら能力の高い(正しくラベルづけをしてくれる)人に仕事を頼みたいので、そういう能力の高い人を素早く見つけ、彼らに仕事をまかせたい、というものです。この論文は、Donmezら(KDD2009)による、各労働力提供者の正解率の推定し、上位の人たちに頼むという方法を、個々の労働力が異なるコストを持つ場合に拡張した、というものです。
- ちなみに、Donmezら(KDD2009)による方法をもうちょっと詳しくいうと、各労働力提供者の正解率を適当に見積もって、上位の何パーセントかに対してラベルづけを依頼します。
彼らの答えのなかで最も多かったものを正解として、各労働力提供者の正解率を更新する、という感じです。
- 2010/10/26 新しい学習問題?
- 皆様は研究室や職場などで、本や論文集を分担してお互いに解説しあう、輪講なり輪読なりというものに親しんでおられることと思います。
「輪」というのは、文字通り「まわる」、つまり分担が順番に回ってくることを表しているわけですね。
では、この輪講が回らなかったら、つまり、毎回アナタの担当だったらどうでしょうか? そんなものは輪講といえるのでしょうか?
- いわゆる「ずっとオレのターン!」というやつですね。
- うわさでは、一部企業の研究所などで、新人しごきの一環として稀にそのような状況が起こることがあるようです。
- さて、そんな話はさておき、今月から大学院生向け講義「確率数理要論」が始まりました。
この講義では、測度論(ルベーグ積分とかのアレ)をベースにした、細かいほうの確率論(後半は、ちょっと確率過程)を扱います。
- 昨年までは、
駒木先生/竹村先生という、それはもうスゴイ方々がされていた講義を、そんなん習ったことも(興味も)ない僕が引き継ぐのですから、これぞまさに無茶振りの王道や!もいいところですが、
そこは無茶振りが日常茶飯事、汚れた社会人10うん年の経験を生かし、空気を読んで爽やかに快諾するわけですよ。
この講義の見どころは、その辺のオトナ力というか、もしくは、そんな僕の成長物語ともいえるかもしれません。
- 数理情報専攻(や計数数理)でホニャララ数理何とかといえば冠講義シリーズなので、僕が何を教えるべきかと悩むまでもなく、
基本的な内容は昨年までにほぼ決まっており、昨年までの講義ノートもあります(そこは夏学期の講義よりもよいところ)。
ともあれ、講義ノートやらメイン参考書(Lamperti)やらを眺めるわけですが、測度論を学んだことのない人には一行目から意味がわかりません。
- いきなり「Fをσ-fieldとする…」と言われても…σって何て読むんだっけ??
- で、イライラしながら苦労しました。 講義のサポートページにも挙げていますが、
ゼロからの測度論的確率論にあたって、いろいろと教科書をあたってみました。
多くの本が、測度論知っているという前提、もしくは、知らなくてもいいよとか言ってるけど誤魔化し過ぎてて結局わかんないか(一番易しそうな奴にだまされてはいけない)のどっちかである中、
シュリーヴの1~2章は程々の深入り加減が好感度高し。
なかなか分かりやすいと思います。
- とはいっても、そもそもがone-passで理解できるような内容でもないので、それなりのモチベーションをもっていないとキツイと思います。
僕は成り行き上(純粋ではないが)これを持っているわけですが、通常はそのモチベーションはないんじゃないかと思います。 (論文読んで理解できない時にそれを自分のせいにできる心を持った人にはまだ望みがあるかも…)
- さて、問題は「機械学習を研究するにあたって測度論的確率論をちゃんと勉強することは(相対的に)お得なのか?」ということです。
今のところよく分かりません。 測度論的確率論に、どれほどの工学的御利益があるのかを見出すのは、今回の個人的なテーマです。
- 確率過程まわりを特に扱いたい人には必要な気もするし、でも、やり方によっては別に無くても十分やっていけるような気もするし。
- 来年くらいに「すんません、やっぱ要ります」なのか「要りませんでした…」なのか報告しますので、皆様はそれまで保留でおkです。 まかしとけ。
- ところで、そんな話もさておき、締め切り迄にやらなければならないタスクを、(やりたくないので、コストをなるべくかけないように)その直前に詰め込み学習して乗り切ることは、現実世界でもよく起こりますね。
これ、学習問題として定式化するといいかもしれない。 タイトルはもちろん「一夜漬け」。 英語だとcrammingとでも言うのでしょうか。
- 2010/09/02 研究補助者を求めています
- 2010/08/25 機械学習課程: 機械学習はリッジ回帰とk-meansが最小セット
- 大学に移って1年たった。 行事モノを一周、講義も1つ終え、ざっくりとひととおり経験した感じ。
提案書を色々書いて、通ったり、落ちたり、長いものに巻かれたり、企業の人に絡んだり、お金の取り方の仕組みはなんとなくわかってきたような。
- 前期は学部むけ統計的機械学習の講義を行ったのだが、これがこれまで発表なり講演なりという形でやってきたものとはかなり性質の違うもので、なかなか厳しかった。
- どうも、講義というよりも、授業的なものが求められているらしい…。
- さて、半年間で機械学習のそこそこまとまった内容を話すのに、どういう枠組みで何を取り上げるべきかは悩ましいところであったりするのだが、けっきょく、教師つき学習と教師なし学習をなるべく同じ枠組みで説明しようとすると、以前からやっているように、前者は条件付き確率分布P(y|x)の、後者は多次元の確率分布P(x)の推定としてしまうのが、やはり一番統一的な気がして、そこに落ち着く。
- ときどき、損失関数でやるほうが良いのかなと思うけど、全体の見通し感、とくに教師なし学習を考えたときには、やはり確率分布の推定にしておくのが無難であるように思う。
- ただ、回帰は普通に2乗損失でやるのが一番わかりやすいように思うし、後述するように、最低限への最短路を求めるのなら、確率モデルでないほうがよいと思う。
- 教師つきの分類モデルは、ロジスティック回帰一本にして、(若干まわりくどいかもしれないが)パーセプトロンやマージン最大化はその推定方法のバリエーションとして出した。
ロジスティック回帰を中心にすると、CRFもこの拡張として導入できるので、便利である (従って、HMMはスルー)。
- 基本、正則化推しの立場でいくので、ことあるごとにL1に触れるのだが、これはこれで最近のトレンドということで。
- トレースノルム正則化(スペクトル正則化)までを入れたりするのは若干偏りがあるような気もする。
- 目的がいまひとつはっきりしない教師なし学習のタスクを、(1)分布の鑑賞(構造の鑑賞、分布の比較)、(2)確率の評価(外れ値検出)、(3)潜在変数の予測(クラスタリング)、(4)条件付き確率の評価(推論)としたのは、悪くなかったように思う。
なんか他にもあるような気もするけど。
- 潜在変数モデルに対するEMアルゴリズムの導出も割と気にいっている。 隠れ変数yの条件付き分布P(y|x;
z)を使って、
本来の尤度L(θ)の下界L'(θ,
z)を作り、θとzを交互にする、という説明は、教師つき学習(P(y|x)の推定)の対応や、最適化法としての解釈を考えると、スジの通った説明になっていると思う。
- むしろ「P(y|x)を教師なしで推定したいんです」という目的から始めても良かったかもしれないけど、さすがにそれは人工的すぎるかも。
- グラフィカルモデルは、グラフィカルラッソ(疎なガウシアングラフィカルモデル)に絞る。グラフィカルモデルというと、なぜか世間的にはとりあえずベイジアンネットワークのような気がするが、推論も構造推定もキレイにできるという点では、やはりまずガウシアングラフィカルモデルだろうと思う。
- あと、できればベイズもやりたかった気がする。
リッジ回帰→ガウス過程と、潜在変数モデルの変分ベイズ推定、あと、Gibbsサンプリングができたら十分だろう。
- さて、一方で、こんなのに半年とかもかけてられない、最低限必要なものをささっと身につけたい実務家の人(が居たとして)に何を教えてあげるのがいいだろう?と考えると、個人的には、機械学習はリッジ回帰とk-meansが最小セットだと思う。
- (僕は基本は分類厨なんだけど)回帰か分類かどっちかひとつと言われたら、回帰だと思う。 回帰ができれば分類(フィッシャー)もできるけど、逆はできない。
時系列モデル(ARモデル)だって書ける。 半教師つきだって書ける。 回帰エライ。
- ただ、重回帰分析でね!とか言っていても、正則化を知らない人は結構多いので、リッジ回帰。
- 上で回帰は最尤推定とかではなく、2乗損失でやるほうが分かり良いと書いたが、回帰もk-meansも確率を入れないで話ができるので、余計な話を省ける。
- k-meanやっておけば、クラスタリングも外れ値検出もできる。
また、アルゴリズムで理解できるので、わかりやすい。
- 2010/06/23 いくつかアクセプト
- なんだか最近の日記は各種頂き物の報告くらいにしかなっていないので、じまん以上の情報は含まれていませんが、ともかく、張り切っておれおれ自慢します。
- まずは、レイモンドさんとの半教師つきリンク予測の論文がECML-PKDDに通りました。 これは以前SDMで提案した半教師つきリンク予測法をスケーラブルにして、あと、ちょっとネットワークの変化にも追従するよ、という感じです。
半教師つき学習では基本的に全てのデータについての予測値めいたもの(もしくは別の何かの値)を保持する必要があるので、
リンク予測のような問題ではなかなか(特にメモリの面で)スケーラブルになりにくいですが、
今回は行列分解などをうまく使って、最終的に40万ノードくらい(つまり40万×40万行列の、みっちり穴埋め)でも動くようになりました。
- 関連したところで、昨年のPAKDDのショートベーパーにひっかかったペアワイズカーネルの論文が、IEICE
Transactionで成仏してくれました。 これは、最近JPさんたちのグループでやっているローカルモデルというやつと本質的に同じです。
ローカルモデルは、あるノードが、どのノードとリンクするかという判別問題を、ノードごとに別々に解く(ノード数をN個とするとN個の2値判別問題を解く)というものですが、
このカーネルを使えば全体をひとつのペアワイズ判別問題(任意の2つのノードにリンクがあるかを判別する問題)として解くことができます。
この対応関係は、同じくJPさんたちによって、今年のICMLの論文で指摘されています。
- この対応関係じたいは、ある程度知っている人にはほぼ明らかな事実ですが、彼らの論文の主張はこれだけではなくて、
この対応関係に基づいて、ローカルモデルと、通常のペアワイズカーネルの中間的なカーネルができるよね、というオチにつなげています。
- また、杉山さんたちに仲間にいれていただいたロバストな強化学習の論文(もとは昨年のICRAで発表されたもの)が、同じくIEICE
Transactionで成仏しました。
価値関数やQ関数の近似は通常L2誤差を基準にやりますが、これをL1にすることで、外れ値的な報酬に対してロバストにするというものです。
- そして、↑の話は最近、森村さんを中心としたリスク回避型の強化学習の研究に結び付いています。
通常の強化学習は価値関数やQ関数の平均値に関するベルマン方程式をもとに行いますが、
以前に田中利幸先生たちによって提案された、累積報酬の「分布に対する」ベルマン方程式をベースに、効率的にリスク回避型強化学習を行うための方法を提案しています。
方式としてパラメトリックなやり方とノンパラメトリックなやり方が、それぞれUAIとICMLに出ます。
とくにUAIのほうは、査読者の評価もずいぶんと高く、pleanary
session(注目論文をあつめたセッション)で発表することになっているようです。すばらしい。
- あとは、冨岡さんのICML論文は、行列パラメータをもつモデルの学習を Dual Augmented Lagrangean
という方法によって高速に行うことのできる方法を提案しています。
しれっと出てくるナントカdualで毎回落ちるのですが、なんども話を聞いて、ようやく気持ちが分かってきました。 お世話になっております。
- あと、冨岡さんのおかげで、MKL分かりました。それはもう完璧に。
- ということで、じまんでした。 おつかれさまです。
- 2010/04/08 ナイス年度始め
- 最先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評価」(研究代表者:喜連川先生)の一環で、孫さんが特任研究員(ポスドク)として仲間になりました。
ナイスリクルート!
- 孫さんは、東大辻井研でこの春に博士課程を修了された方です。
IJCAIやらCOLINGやら、スゴイ業績です。
- 併せて、鹿島は国立情報学研究所(NII)の客員准教授を兼任することになりました。 ナイス肩書!
- 坪井くんの、びみょうなラベルのついた訓練データからのラベリング学習の論文「日本語単語分割の分野適応のための部分的アノテーションを用いた条件付確率場の学習」が情報処理学会論文賞をいただけることになりました。
ナイスぼたもち!
- ちなみに、「びみょう」は、「論文」ではなく「ラベル」に係るよ!
- 科学研究費補助金 若手研究(A)「グラフ構造データの予測的分析のための機械学習手法の研究」(研究代表者:鹿島)が採択されました。
ナイスセレクション!
- 初めての自分のお財布は、ちょっと緊張。
- こういう申請書の書き方は、会社で学んだやり方がけっこう役に立っているような気がします。
もちろん、いろんな人から正例をもらったり、名前を借りたりもしました。
- 4月から学部の講義(割と何やってもいい枠)で機械学習の話をします。 しかし、同じ時期に中川先生の講義もあり、必然的に結構被ってしまう。
なんだか夏学期の計数は機械学習祭りに。
- 2010/03/29 研究科の紹介記事で紹介していただきました。
- 情報理工学系研究科の先生を順に紹介するページで(最後の一人として)紹介していただきました。
- インタビューちゅうに、さんざん写真取られたのにもかかわらず、なぜか苦笑いの写真に、すんません。
- あと、毎回おなじようなことを言っています、すんません。
- 大学でこういう広報的な記事を書く人、大変だと思う。 すんません。
- ちなみに、鹿島の所属する数理第6研究室の教授 山西先生もこちらで紹介されています。
- 2010/03/25 査読者間のブラインドネス
- 「ダブル・ブラインド」レビューを採用しているICMLの査読をしていて、著者⇔査読者間のブラインドネスはあるが、査読者間のブラインドネスが無い(お互いに名前が見える)というのに気付いた。
- ちなみに、今回のICMLの査読プロセスは ①数人の査読者で最初の査読 → ②査読コメントに対する著者からのフィードバック →
③さらに何人か査読者を加えて2回目の査読 という、結構まどろっこしい。
- ちなみに、ある論文(A国のBさんが書いたとする)に対する第1ラウンドの査読の”著者には内緒のコメント”の欄に「これはたぶんBさんが書いてるから、第2ラウンドは、A国以外の国から査読者を選ぶべき」と書いてあって、ちょっと面白かった。
- そういえば、ダブルブラインドですよとかいうのは、通常(投稿者に対するメッセージとして)明言されているものだが、査読者間のほうは(単に裏方の仕切りについてなので)事前には知らされず、実際に入力してみるまでわからないことがほとんどだと思う。
- これは、恥ずかしい(いいかげんな)査読結果は書けない方向に力がかかるというプラスの面もあると思うが、文体とかで別の論文の査読者がバレちゃう可能性あるよね、と思ったしだい。
- 実際、ある論文の査読チームに一緒に入った(僕が結構親しい)人が投稿している(であろう)別の論文を自分が査読することになっているのだが、査読結果のへたくそな英語の文体で同一人物とバレそう。
- ところで、いろいろな仕組みで会議の質を上げるのはもちろん良いことだと思うけど情報系が昔ほどの勢いをもっておらず、より広い世界で(ポストを争って)戦わないといけない状況では、そのがんばり方でいいのかよくわからない。
- 論文誌ではなく、著名な会議の予稿集が業績として認められるというのは情報系のローカルな文化なので。
- 最近は、予稿集を論文誌として出す(もしくは論文誌に優先的に載る)仕組みが、機械学習やデータマイニング界でも段々と出てきている。
良い仕組みだと思う。
- これは、情報系(予稿集OK)と生物系(予稿集無意味)の境界領域であるバイオインフォマティクスでは、かなり以前から、ほぼデフォルトで実装されている。
- 2010/03/11 IAMOTという技術経営(MOT)系の会議で特許の分析について発表してきました
- 内容はIBMのときから継続してやっているIBM-東大の共同研究で、特許の質をモデル化しようというもの。
- ちなみに中身はこんなかんじ。
- 内容とは関係ないけど、バックアップの最後の、BEP(Break-even point)の解釈は気に入っている。
- BEP = 真のモデル(間違えないモデル)が最適な閾値を使った時の予測精度
- エジプトということでカジュアルで涼しい格好だけしか持っていかなかったら、実はみんなスーツ(とくに発表するときには)だったりというエクストリームアウェイ感をいきなり味わう。
- 会議の内容的には、アウェイ過ぎて目的すらも良く分かんない話がほとんどだが、一部OR的な話やネットワーク解析みたいな話もあって、そういうのは若干親しみが湧く。
- 分野的には、基本的にジャーナル勝負なので会議発表は業績としてはあまりカウントされない、という感じ。
- このへんは情報系と違うところ、というか、どちらかといえば情報系が特殊なのではあるが。
- 基本的には、真面目に書けばアクセプトされるという感じで、身近なところではICPRくらいだろうか。
- プログラムを見ると、発表者の横にわざわざ国の欄があって不思議だなと思っていたのだが、話題的に、お国柄というか、制度や慣習など国別の事情が結果を左右するから、これにも情報量があるのだな。
- 不思議だったのは、発表すると、セッションチェアから賞状みたいな認定証がもらえるところ。
「ちゃんと発表しましたよ」証明として出張費清算のときにでも使えということなのだろうか。
- 予稿集の入った会議かばんがもらえるのはいつもどおりだが、おまけについているペンにレーザーポインターがついているのはポイント高い。
自分のプレゼンでも使えるし、これはいいアイディアだ。どうせ安いんだから、他の会議でもじゃんじゃんつけたらいい。
- 2010/02/18 はじめての卒業生
- 今日、初めてもった学生が、無事、卒業研究を終えました。
初めての試みだったので、かなり手探り感でしたが、学生に助けられつつ、なんとかオチがついたというところです。 よかった。
- 内容は、ラベル伝播法のマルチ情報源化。 テクニカルにも、結果的にも、まあ微妙だけど、個人的にちょっとマルチ感を掴んだ感じ。
- 関係ないけど、解説記事を2つ書きました。 ページ数の関係で大幅に削ってしまったので、もとの長さの版を置きました。
前者はそのうち、もうちょっと書き足そうと思います。
内部構造予測(CRFとか)や潜在変数モデルも入れないといけないような気もするし。
- 2010/02/09 論文がいくつか受理されました(電子情報通信学会、PAKDD、IAMOT)
- ひとつは、昨年のPAKDDで発表した変化点「解析」のジャーナル版。 IBMの元同僚との共著です。
変化点(データセットの分布が変化する)を教師なし学習によって検出する話はいくらでもありますが、実用上は、変化があったことを検出するだけでなく、そこにどのような変化が起こったかを分析することが非常に重要です。
そこで、変化前後のデータセットを「変化前」「変化後」というクラスラベルをつけて(決定木などの可読性の高い)教師つき学習で学習し、モデルを鑑賞するとよいというのがこの論文の主旨です。
単純なアイディアではあるけれども正しい目のつけどころであると思います。
- もうひとつは、瀬々さんたちに混ぜてもらった、ノードにアイテムセットがついたようなネットワークにおいて、アイテムセットを共有している、ある程度の大きさの部分ネットワークを(高速に)複数とってくるような手法についてのPAKDD論文。
若干変則的なグラフマイニング問題ですが、たとえば、パスウェイネットワークにおいて、2つの部分パスウェイ(≒部分ネットワーク)があって、それらが両方ともある状況(≒アイテムセット)で活性化されるとすると、この2つの部分パスウェイには、(見た目は繋がっていないけど)何らかの繋がりがあると想像できます。
たとえば、片方に働きかける薬は、もう片方にも働きかけてしまう(副作用がある)可能性などを見つけることができます。ほかにもソーシャルネットワークにおける隠れた繋がりや、口コミ力の強い組み合わせなどの発見など、様々な可能性のある手法です。
- あとの2つは、MOT(技術経営)関連の会議の論文。
こっち系の分野はこれまでまったく馴染みのないところなので手探り感が強いですが、土地勘のある共同研究者のおかげでなんとか。
こちら側からはなかなか敷居が高いぶん、まだまだ機械学習が入り込める隙間のたくさんある分野で、しかるべき人と一緒に早めに行けば案外いろいろ美味しいかも、と思います。
- 片方は、IBM-東大(渡部先生、坂田先生、柴田さん)の共同研究でやっていた、特許の質のモデリングという話です。
あっち側からこっち側に移ってそのまま続けているという感じ。
内容は、もともと久保山さんたちがやっていた、特許の法的な安定性(裁判で生き残れるかどうか)を明細書その他もろもろの特徴量で説明するモデルを作るという話をベースにしたもので、今回は予測力の強化という観点から機械学習のテクニック(正則化とかそんなん)をいろいろ利用しました。
テキストマイニング!とか言っちゃってるのは、形態素解析+n-gramのことです。すみません。
- もうひとつは、イノベーション政策研究センターの梶川さんと森さんに混ぜていただいた、リンク予測を使って企業の取引先を見つけてあげるというものです。
個々の企業のオポチュニティ発見に機械学習というのはビジネスデータ解析ではよくあるストーリーですが、これを企業の取引ネットワークを包括的に見てリンク予測でというのはこれまでにないアプローチであると思います。
リンク予測のなかなかよい出口ではないかと思います。
- ちなみにネットワークは帝国データバンクのデータで主要取引先の項目から抽出できます。
ただ、各社につき最大5社とかなので「数えたらべき乗だったよ!」みたいな話には向きません。
- 2010/01/21 昨年の反省と今年の目標
- 昨年は、保守で変化がキライなチャレンジしない安定志向の自分にしては、変化の年であったと思う。
だいたいにおいて「転職」だなんてアクティブな言葉には縁が無いのに、まあ、思い切ったものである。
- (まあ、その転職の仕方が、ある意味ディフェンス方向といえなくもないけれども)
- ちなみにIBMには、文句があるわけでもなく、何かされたわけでもなく、ずっと居てもよかったくらい超楽しかった。
- で、結果、生活はあまり変わらず、自分の持ち時間の総量も大体同じくらいかな。
- ただ、会社と違うところは、目的関数がいっそう曖昧であるところ。 叱られないけど、褒められもしない。
外から目的関数が与えられる場合というのは、ある意味簡単である。 目的関数があれば、最適化できる。 正例と負例があれば、学習できる。
- 研究としてのレベルを保ちつつビジネスへ貢献するというのは、もちろん難しいことではあるが、ビジネス貢献というある程度目に見える軸がある面、やりやすいともいえる。
- 会社では、なんだかんだいって、高いレベルではみんなちゃんと同じ方向を向いていたのだと思う。
- 研究的には、昨年は「頂ける体制を維持しつつ、1つくらいは、自分で何かやりたい」などと言っていたようだが、結局、頂きもの構成で「コレはやったぞ」というほどものはなかった。
今年は、初年度の講義が入っているので、研究的にはすでに死亡フラグが立っているわけだが、お友達とうまく連携しつつ、足を止めない方向でいきたいものである。
- 「教育」については、鋭意モチベーションあげ中。
ちなみに、このサイトの掲載内容は私自身の見解であり、必ずしも所属機関の立場、戦略、意見を代表するものではありません