機械学習研究 [Japanese]

鹿島を指導教員として検討しておられる方へ

鹿島を指導教員として検討されている方への参考情報

鹿島について：企業研究所出身の機械学習・データマイニングの専門家

IBM東京基礎研究所で約10年間を研究員として働いたのち、東京大学情報理工学系研究科数理情報学専攻准教授を経て、現在は京都大学情報学研究科知能情報学専攻教授を務めています。
鹿島が主宰する認知システム講座集合知システム分野研究室は、機械学習やデータマイニングなどのデータ解析技術の開発と応用、ヒューマンコンピュテーションの考え方に基づく人間と計算機の協働問題解決に関する研究を中心に行っています。
大学に異動する以前は企業の研究所に在籍し、主に機械学習・データマイニングの新しい手法の開発と機械学習のビジネス応用に携わってきました。
主にグラフ・ネットワークなどの構造をもったデータの扱いに関する研究業績を挙げています。
（研究インパクトのひとつの目安である論文引用数で評価した場合、分野内平均と比較しても多い引用数といえると思います）
大学教員の中では教育経験がそれほど長い方ではありませんが、一方で企業での経験を生かした「つぶしの効く（≒社会とのつながりを志向した）技術を身につける」ことを目指した指導ができるような気がします。

より詳細なスペック情報は、鹿島のホームページ等をご覧ください。

主な研究指導テーマ：機械学習・データマイニングの新しい解析手法の開発と先進応用

研究指導のテーマとしては機械学習・データマイニングを含むデータ解析技術に関する比較的応用寄りのテーマを中心に扱います。

データ解析技術は「つぶしのきく」技術

前世紀の終わりから始まったIT革命によって様々なデータを大量に取得・蓄積する環境がひととおり整ってきた現在、企業や国・自治体の関心はデータをどのように集め蓄積するかという「計測」から、集められたデータの「解析」、つまりデータをどのようにビジネス上の優位性や自社製品・サービスの付加価値に結び付けていくか、あるいは私たちの社会や生活をより良いものにしていくかという方向に転換しつつあります。
様々な検索サービスやオンラインショッピングサイトなどに代表されるデータ解析を中心に据えたサービスの成功例や、多くの企業におけるビジネスインテリジェンスの導入成功事例などからも、データ解析に基づく自動的な意思決定もしくは意思決定のサポートは、ビジネスにおける差別化のカギとして広く認識されつつあります。このことはここ数年のビッグデータブームや何度目かの人工知能ブームにも見ることが出来るでしょう（はい、たしかにバブル感は否めませんが、一方で必然的な流れだと思います）。

しかしその一方で、現在の機械学習をはじめとするデータ解析技術の適用可能範囲はいまだ限定的であり、人間と機械を含む巨大で動的なシステムの複雑な挙動を的確に捉えるに至っていないと言わざるをえません。
また、データ解析を専門としない実務家や一般の人々が、その詳細を理解する必要なく気軽にその恩恵を被ることができるようなブラックボックスとして世の中に広く浸透するまでにもまだ至っていません。もちろん長年の研究の成果によって、それなりに一般的な道具立ては整ってきてはいるものの、問題の深い理解や個別の扱いが必要であり、また今後そのようなブラックボックス化が本当に成功するかどうかも明らかではありません。このことは最近のデータサイエンティストブームにも見ることが出来るでしょう（はい、たしかにバブル感は否めませんが、大筋は間違っていないと思います）。

つまりデータ解析技術は広い適用可能性を秘めた、これからのビジネスになくてはならない非常に需要の高い技術であると同時に、いまだに属人性・専門性の高い技術であり、まだまだ発展の必要な技術であるといえます。
逆にいえば、みなさんが修士課程や博士課程などに進学するとしても、あるいは企業に就職するとにしても、身に着けておいて損のない、非常に「つぶしのきく」技術であると思います。

意思決定にむすびつく「予測モデリング」

様々なデータ解析技術の中でも、私が（特にビジネス的に）重要であると考えているのは「予測モデリング」です。

データ解析には、過去から現在までのデータの中で何が起こっているのかを理解する「分析的なモデリング」と、過去から現在までのデータに基づき未来のデータについての予測をおこなう「予測的なモデリング」があります。
分析的なモデリングでは、売上データから顧客のセグメンテーションを発見するなど、比較的定性的なデータの理解を得る用途で用いられるものであるのに対し、予測的なモデリングでは、ある顧客がある商品を購入するかどうかを予測するなどの、データに対するなんらかの定量的な予測を行うため、予測の結果が直接的に意思決定に結びつきやすいという特徴があります。
また、予測モデリングにおいては予測精度の向上が大きな目的のひとつであり、1％の予測精度向上がそのままコスト削減や利益向上などの効果に結びつきやすいといった特徴もあります。

研究指導において取り組むテーマ

鹿島の指導のもとで研究を行うことになった場合には、下記のテーマ周辺から一緒に取り組んでいけたらと思います：

機械学習・データマイニング手法の開発
機械学習は近年大きな発展を遂げているとはいえ、その適用範囲はまだ限定的であり、現実世界で直面する様々な形式のデータや課題に対して適用できない場合も多々あります。研究テーマのひとつの方向性として、このような新しい機械学習の問題設定を発見し、その定式化を行い、アルゴリズムを開発します。例えば、構造（グラフ、ネットワーク）をもったデータなどの複雑なデータの予測モデリングなどが挙げられます。
機械学習・データマイニングの応用
マーケティングやヘルスケアをはじめとする様々な分野で利用されている機械学習技術ですが、現実世界にはまだまだ多くの重要でかつ機械学習が力を発揮できる場面は数多くあります。企業や国・自治体がデータ解析技術を重要な技術として注目している今、彼らと協力し新たな機械学習の応用を見つけ取組み、インパクトのある成果に結び付けていくことは非常に刺激的でチャレンジングなテーマです。
ヒューマン・コンピュテーション
最近、クイズや将棋などの極めて知的なタスクにおいて、機械学習を含む知能情報技術が最も優れた人間を凌駕する力を示している一方で、高度な認識や創造的なデザインなど、現実世界にはまだコンピュータだけでは成しえない困難なタスクが数多くあります。コンピュータには困難な、さらには一人の人間では解くことのできない問題を、両者を適切に組みあわせて解決する「ヒューマン・コンピュテーション」の世界を開拓することで、知能情報学の新たな展開を目指します。

下で述べる研究のスタンスにも通じますが、学習アルゴリズムの性能保証等の定理を理論的に証明するというよりは、新たな問題を発見し、そのモデル化、解法の設計と実装を行い、実験的に検証・評価するというスタイルです。
その匙加減は鹿島の論文をチラッと見ていただければ、大体つかめるかと思いますが、ある程度の数理的なモデル化と計算機上での実装（プログラミング）を伴います。
本当に実用的なシステムを作り運用することまでは要求しませんが、その技術が何をどれだけ差別化しうるかという研究のもつ文脈についての感覚を育てることを重視しています。その意味で、できれば具体的なアプリケーションをひとつは扱いたいと思います。

研究のスタンス：新しい問題を見つけ、シンプルな数理的手法で解決する

好むスタイル：ゼロを非ゼロに（いち早く唾をつける）

必ずしもというわけではありませんが、このような考え方に共感を持てる方は、私と好みの方向性が合うかと思います。

私の目指すスタイルは
「いままで目を向けられていなかった重要な問題を見つけ、シンプルな数理的手法（モデリング・解法）をうまく使って解き、（素人目に）自明でないマジカルな結果を出す」
というものです。

「シンプル」とか「自明でない」などの基準は多分に主観によるものですので、具体例を挙げたいと思います。
例えば、Googleの検索システムでWebページのランキングに利用されているといわれるPageRankなどは、いくつかの点で私の好みに激しくヒットしています。
（ちなみに、PageRankとは、Webページのリンク構造を有向グラフととらえ、その上でランダムウォークするようなWebサーファーのモデルを考えて、ランダムウォークの定常分布における各ページの滞在確率を各ページの重要度とするというものです。）
1) まず、（これまでほとんどの人がWebページの含むテキスト情報に注目してランキングを行っていたなかで）リンク構造を用いたランキングを行った点。
2) 有向グラフ上でのランダムウォークの定常分布という非常にシンプルなモデルが、Webページの重要度を驚くほどにうまく捉えていた点。
3) 解が実はグラフの隣接行列の最大固有値を求める問題に帰着される点。

純粋に数学的な価値にはそれほど興味をもっていません。
むしろ、それによって新しく何が出来るようになるかという工学的な価値に興味があります。
結果の普遍性よりも、それによって語られるストーリーのほうを重視します。
この意味において、科学者というよりは発明家に近い嗜好をもっていると思います。
従って、数理的な深さを志向する方の指導にはあまり適任ではないかもしれません。
（が、それはそれで、それなりの何かが生まれるかもしれませんが！！）

あまり好まないスタイル：非ゼロを大きく（ライバルと切磋琢磨）

一方で、すでに多くの人が研究を行っているところで、より高度で複雑なやり方や網羅的な実験で勝負するようなことは避けます。
（もちろん、結果的にそうなってしまうこともありますし、このスタイル自体を否定はしません。数理的にテクニカルな面白さを愛する心は自分にもあると思います。ただ単に、あまり自分には向いていないと思っています。）
その代わり、新しくて面白い問題を考えて、数理的にそこそこ妥当かつシンプルなやり方で解くというのが好みです。
（新しい問題に対する解法は、代替手法が存在しないので、無用な戦いを避けることが出来ます。）

指導のスタイル：早い段階で研究の１サイクルを体験してもらう

自主的にインパクトのある研究テーマを設定し、主要な国際会議や論文誌で論文を発表することのできる「一人立ちした研究者」への近道として、むしろ始めはある程度コントロールすることもあります。
研究テーマの設定、つまり「何をやるか、どのような問題を解くか」は、その研究の存在意義を問う、最も重要な部分です。（時に「何をやるか決めた時点で、研究の8割方は済んだも同然」とまでいう人さえもいます。）「正しい」テーマ設定を独力で行えるようになってこそ研究者として真に一人立ちしたともいえるのですが、ここは研究における最も難しい部分でもあります。
学生の研究テーマの選択に対する指導教員のスタンスには様々なアプローチがあり得ますし、個人的にも何が正解かという確信は持っていません。しかしながら、ひとまずはそこは一旦置いておいて、私が「ここはイケそうだ」と信じるテーマのうちのひとつについて、並走する形で（体験ダイビング的に？）国際会議や論文誌への論文投稿と発表までのひととおりのサイクルとそのスピード感、そして世界標準のレベルをなるべく早い段階で体感してもらうことを優先したいと思います。そして同時に、成功体験を得ることによって自信をつけてもらえたらと思っています。
できれば修士課程の2年間で上記のサイクルを2週（1週目は並走して、2週目は少し遠くに離れて眺めて）回すことを目指します。

博士課程について：学位はアカデミアへの道だけではない

博士の学位はアカデミアの研究者にとっては免許に等しいものと言われています。これは同時に、アカデミアの道を目指すわけでなければ、学位は必須のものではないということも意味しています。ただ、博士の学位を取得するまでの（困難な）道のりで身につく様々な能力は、あなたがどのような道に進むにあたっても、あなたを「差別化」してくれる高い価値のあるものだと思います。
アカデミアのポストは年々減少しており、そこでパーマネント職を得るということは単に個人の能力や業績だけではいかんともしがたい大変に厳しい状況にあるといえます。一方で、ひとたび外に目を向ければ、以前は持っていることでむしろ不利にすらなるといわれた博士の学位が（少なくとも情報系産業の研究開発職においては）高く評価され求められるようになってきています。
私としては、博士課程への進学を単にアカデミアへの一本道としてのみ捉えるのではなく、むしろ学位をもった方がどんどん産業界へ出て行って活躍することを望んでいますし、そのような希望を持った人をサポートしたいと考えています。

もちろん、すでに社会に出て働いておられる方が、働きながら学位取得を目指す社会人博士課程についても歓迎します（私も社会人博士課程で学位を取得した者のひとりです）。

参考（ちょっと盛り気味）：

高度な予測技術で豊かで安心な社会を実現する

ビジネスのあすを予測するデータ解析技術

鹿島のホームページへ