もどる
(か)研究日記
- 2012/12/31 今年を振り返る…
- 前回の日記を3月に書いてから、もう今年も終了。 なかなか日記を書くのもままならない感じになってきつつあるものの、3月で終わらせるのは何なので、今年最後の日に今年の研究を振り返ってみることにする。
- 木村くんの木カーネルの話(ICML)は、彼が以前から取り組んでいる、木の縦パスを特徴量として用いる予測器の研究。
「ビッグデータ」全盛の今、発展著しい効率的なデータ構造を、なにか話題の機械学習に突っ込むというのは当然中の当然のようでありながら、
実は「やる人を選ぶ」(じっさい鹿島にとっては、これらデータ構造へのアクセスは全て「木村くん」という名前の黒い箱との表層的コミュニケーションによってなされる)絶妙のニッチ加減で、極めて有望だと思っている。
- 梶野くんのクラウドソーシング+機械学習(AAAI)の話では「日本初、世界的な舞台でのクラウドソーシング論文」(違ってたらすんません)を狙って、
このエリアにとにかく手をつけることができた。
また、(ふだんはあまり出さないワークショップの)HCOMPで発表した正解ラベル併用の話も、とにかくも(今後大きくなるかもしれない)このコミュニティに突っ込んでいったという感じ。
あたらしい仲間の馬場さんともども、こっち系の研究を加速すべく、自分自身のエフォートの半分はこっちにシフトしている。
- 則さんの多項関係予測の話(AAAI)は、ここ数年取り組んできたネットワークの構造予測の流れで、
テンソル分解(もどき)の最適解を固有値問題一発で求めたいというモチベーションでやったもの。
あとあと考えてみると、じつは多重対応分析とかなり近かったり(違いは直交条件をどこにいれるかという違い)、
テクニカルには超簡単な話だが、個人的にはその簡単さが気に入っている。
最近いろいろ出てきている固有値一発ものにも以前から興味あるところなのだが、なかなか勉強できていない…。
- 森さんの企業間ネットワーク予測の話(ESWA)は、2~3年前からまぜてもらっているリンク予測の応用。
もともとは中小企業のビジネスマッチングという文脈でのテーマであるが、
クラウドソーシング(B2C)とビジネスマッチング(B2B)の共通部分には結構ロマンを感じていて、もうちょっと力を入れてやりたいと思っているところではある。
- 孫さんのパーソナライズド行動認識の話(TKDE)。
センサーデータからの行動認識を個人適応させるためにマルチタスク学習として定式化。
現在孫さんは北京大学にいるが、彼と行った一連の研究のオチがうまくついた格好。
- 他にも成仏したもの、いまだその辺りを漂っているものあるが、たとえば相本くんの変な行列分解の話は何回か負けたけど最後にPAKDDで見事成仏してくれた。
苦戦していても通るときはスカッと通ったりするので、負けが込んでも凹まないことが大事。
- あとは、マイクロソフトの大きい賞をいただいた。
受賞理由となったのはグラフ学習周辺の研究についてであるが、
じつは真の理由は同年代の人が軒並み「学位取得後10年」の応募条件を満たせなくなっただけなのかもしれない…。
ともかく、これで一発屋としては十分すぎる回収をさせていただいた。 ありがたい。
- 2012/03/04 ヒューマンコンピュテーション(と機械学習)
- さいきん、クラウドソーシングつながりで「ヒューマンコンピュテーション」にはまりつつあるのです。
- ヒューマンコンピュテーションとは、ざっくり「計算問題が与えられたとき、コンピュータと人間の両方を計算資源として用い解を求める」というものです。
因みに、ここでいう「計算問題」は、通常、それを解く過程に人間でないとできない(人間だと機械よりもずっとうまくできる)ような要素が含まれているものを指します。
(そうでなければコンピュータでやったほうが速いし、安い。)
- 例えば、複数の写真を「美しい順」に並べたいとします。
そのアルゴリズムとしてはクイックソートを使ってやるとすると、その中で「2枚の写真の美しさの優劣を比較する」という操作が必要になります。
機械がこれを判定するのは非常に難しいが、人間ならばずっと簡単にうまくできるはずです。
つまりこの場合、全体の流れ(クイックソートのアルゴリズム)は機械によって制御されるが、その計算の基本的操作の一部(2枚の写真の比較)は人間によって行われるわけです。
- 計算資源としての人間は、例えば、ゲームの中に組み込まれたり(画像のタグ付をゲーム化したESPゲームなど)、クラウドソーシングサービス(MechanicalTurkなど)を通じて調達されることになります。
- (近年の)ヒューマンコンピュテーションは、2000年代半ばに、先のESP gameの開発者として有名なvon Ahn氏によって創始され、徐々に盛り上がりを見せており、ワークショップやチュートリアル等が盛んに開催されています。
- 例えば、ヒューマンコンピュテーション関連ワークショップであるHCOMPは5度目を迎える来年から、通常の会議に格上げされるとのこと。
- von Ahn氏と、同僚のLaw氏によって書かれた「Human Computation」は、まだ若いこの分野を概観した素晴らしいイントロダクションになっていて、本文自体は70ページそこそこなですぐに読めてしまううえ、巻末には30ページにもわたる文献リストがついており、これまでの主要な研究はほぼ網羅されている印象。
- 邦訳を出してもいいんじゃないかくらいに思っているが、ちょっと薄すぎるかも?
- ちなみに、ほぼこの本に沿った内容での、彼ら自身よるチュートリアルのスライドがここにある。
- そのほか、ナイスサーベイとしては、Quinnらによるこれとかもある。
- 「ヒューマンコンピュテーション」が通常の「コンピュテーション」と異なるところは、まさにこの「人間」というところにあります。
電気さえくべれば、ほぼ確実に正しく動くコンピュータと異なり、人間の場合には、適切な粒度のタスクを設定し、彼らを金銭、楽しみ、やりがい等によってモチベートし、さらに、得られた信頼度の低い答えから正しい答えを導く必要があります。
- そして、そこに解決すべき新たな課題が生まれるわけです。(で、特にその最後のところで「機械学習が役に立つよ」と、言いたいわけなんだけどね)
- 2012/02/20 クラウドソーシングサービスについてのあれこれ
- 「Creating Speech and Language Data With Amazon's Mechanical Turk」という、2010年に行われたクラウドソーシングを用いた言語/音声処理についての(NAACL併設)ワークショップについて、オーガナイザーがまとめたレポートを読んだ。
- このワークショップでは、参加する各チームは$100与えられて10日間で「何か」(例えばtwitterの固有表現抽出データを集めるなど)をやる。
- ワークショップを通じて作られたデータはここで公開されている。(なぜだか論文への直接リンクはないが、タイトルで検索すると見つかる)
- ワークショップで提案された個々タスクは中身を見てもらうとして、このレポートでは、Amazon MechanicalTurk(MT)の紹介から、ワーカー(Turker)の内訳や特徴、利用上のコツなども紹介されていて面白い。
- たとえば、Ipeiortis (2010)では、MechanicalTurkを使って彼ら自身についてのアンケートをとっているが、その結果は、クラウドソーシングについて何となく想像している「経済格差を利用して労働力搾取」的なイメージには必ずしも当てはまらない。
- なんとなく、MTでは途上国の人たちが果てしなく安価で働いているというイメージがあるが、それに反して、ワーカーのうち5割がUS内から参加、3.5割がインド、残りがその他66か国だったという結果。
- US内からの参加者で、「MTが主要な収入源である」と答えたのは全体の15%で、その他、「副収入を得る」「ひまつぶしや楽しみに」「時間の有効活用など」といった動機が多い。
さらに、ワーカーの半分は大卒であり、3割の人が現在雇用されていない状態であるとのこと。
- 一方、インドからの参加者は、「MTが主要な収入である」と答えた人の割合は増える(約3割)ものの、そんなにガツガツでもない。
- 全体を通して、ほとんどの人が週に8時間以内の労働をMT上で行い、$10程度の収入を得ている。
- クラウドソーシングでは、ワーカーの背景が多様であるため、成果物の品質に大きなばらつきが生じる(ときにランダムな結果を提出するようなワーカーもいる)。
従って、クラウドソーシングサービスは何らかの品質管理の仕組みをもっているべきである。
- MTでは、依頼主が、ワーカーの提出結果の受取りを拒否したり、同一のタスクを複数のワーカーにやらせ結果を統合することで解答の信頼度を上げたり、簡単なテストを行いそれにパスした人だけが仕事をできるような仕組みを提供している。
また、これまでのアクセプト率や、場所によるフィルタリング(アフリカの言語の翻訳をやるワーカーは、アフリカに住んでいるほうがよい、など)も可能になっている。
- 一方、Mason and Watts (2009)によると、報酬を高く設定することが必ずしも結果の品質を上げることにつながるとは限らないとのこと。
単価の高い仕事は、それだけ質の悪い(=金に呼ばれた)ワーカを多く引き寄せることになる。たしかに。
- そのようなスパム的なワーカーに対する単純な対処法として、例えば、翻訳タスクの場合に、もとの文書を画像で表示することによって、実際にはその言語を知らないワーカーが翻訳サイトのコピー&ペーストで仕事をしてしまおうとするのを防ぐとか、あるいは、あるいは主要なオンライン翻訳サービスにおける翻訳結果を準備しておいて、照らし合わせるなどの工夫が行われる。
あるいは、ネイティブでない人によって作られた低い品質の結果を、ネイティブが添削することによって、品質を上げるなどのプロセス上の工夫などもある。
- なんか、機械学習みたいなのを使ってカッコよく「真実を推定!(ビシ)」とかやってみたいわけだが、それ以前にもいろいろ地味な工夫あってだよね、と。
- 2012/02/01 「論文はハリウッド映画的に書くべし」という標語を思いついた
- たいして深く考えているわけではないのだが、「通る」論文を書くための心得として、なんかそんな感じのがあるのかな、と思ったしだい。
- なにか人類の運命を左右するらしい大問題(行列処理システムからの解放)があって、何故だかそれが、ある局所的な問題(黒メガネのおっさんを倒す)ことで解決できるらしい、という雰囲気を共有する。
- よーくよく考えるとそれが「本当に」正しいのかはよくわかんない(白ひげのおっさんとのウヤムヤ)んだけど、とりあえず1回ざざっとみた感じではなんかOK(登場人物がみんななんか喜んでる)な気がする。
- あわよくば、なにか目新しい技術(止まったままカメラがぐるっと回るやつ)が使われてるとなおよし。
- 加えて、レビューアには一字一句ありがたく拝読する、というモチベーションなどはなく、さっさと仕事を片づけたい。
(多くの人は、デートの時間つぶしとして、ポップコーン食べながら、半分白目で観る。 たまに大きい音がすると起きる。)
- 2012/01/03 入出力の壁
- 大学に移って2年半、会社にいたころは、最も若い人でも修士卒の新入社員であり、それよりも若い人はまとめて「学生」(それもおそらくは院生)ひとくくりであったのが、大学に移り、主な付き合いの相手が学生となると、だんだんとその層の解像度が高くなってきて、学部生と院生の違いや、学年1つの違いまで、少しづつではあるが見えてきたように思う。
- 会社にいたころは、理学系で生きていた人が就職などによって「工学系」に転向する際、「理学と工学の間の壁(※)」を越えることができない人を少なからず目にしたが、大学に移ってきてみると、ここには「入力と出力の間の壁」があり、それをなかなか超えられない人が多くいるように感じる。
- これは、いいかえると、アマチュアとプロフェッショナルの世界観の間の壁ともいえると思う。
で、その2つの世界観が混ざり合っているのはどのあたりかというと、身近なところでは、だいたい院試とか卒論研究室配属とか、そのあたりであるように思う。
(切り替わるわけではないよ)
- 小学校からつづくいわゆる「学校」の世界では、人の能力は「入力」、つまり定められた知識をいかに吸収したかで測られる。
試験などは「正しく入力されたか」を測るための(教師つき学習における)テストセットである。
また、この世界では(先人の努力により)カリキュラムという形で何を勉強すればよいかは定まっており、
勉強が無駄になることはほとんどない世界である。
- 一方、「そこから先」の世界では、ものごとの価値は「出力」で測られる。
そこでは何をどの程度理解しているかなどといったアタマの中の質は直接の問題ではなく、あくまで出力の質が問題となる。
勉強をすることそのものには価値がなく、それが出力に結びついて初めてその価値があったということになる。
そして、勉強は、ほとんどの場合、(単に、出力に結びつくか否かという意味において)無駄になる。
- 前者にもそれなりの大変さはあるが、迷いのないきれいな世界である。
一方、後者はより混沌としていて、自分が今現在取り組んでいることの正しさすら保証されない世界である。
当然テストセットもほとんどなく、モデル選択もできない。 解くべき問題もその価値も自分で判断する必要がある。
- もちろん、両者に必要な能力にはそれなりに高い相関はあるはずなのだが、イコールではないので、そこでこぼれる人が少なからずいる。
価値観が変わると、勝つためのスキルや考え方も大きく変わり、勝者が入れ替わる可能性が大いにある。
- なんか当たり前のようだが、少なくとも若者時分の自分はわかっていなかったし、ここにおいて観測する限りは、やはりここには思いのほか大きな壁があるように感じる。
-
ちなみに、勉強することが不要だと主張しているわけではない。
入力あっての出力、むしろ必須である。
人類が火の使用に至ったことはスゴイことだけど、車輪を何度発明しても仕方ないし、ちゃんと「巨人の肩」に乗ることは最低限。
ただし、勉強は自分への投資などというが、まさにそのとおりで、有限の時間で何を勉強するべきかというのは極めて重要な意思決定事項である。
-
学んだことが当初は予想もしなかった形で役に立つことは多々ある(というかもしかしたらほとんどそうかも?)ので、何が出力に結びつくかを予測をするのは大変に難しいと思う。
ただ、いずれにしても、勉強自体がある程度ヤマを張るような行為であることは自覚するべきなのかと思う。
- RPGで十分にレベル上げてからダンジョンに行くタイプの人はちょっと気を付けた方がいいかもという気がする。
- というか、そもそも自分が投機的な研究スタイルだというだけかも。
- ところで、少し前に、修士課程で(研究を行い)修士論文を書かなくてもよいようにするとかなんとかについての議論がいろいろあったようである。
自分はその提案内容についても議論の経緯についても大して理解していないので、エラそうなことは言えないのだが、
個人的な理解では、大学院は「専門知識そのもの」を身に着ける場所ではなく「専門知識を出力に結びつける方法」、すなわち、プロフェッショナルの技能を身に着ける場所であると思う。
- その教育には別に「研究」を題材にしなくても、プロジェクトとかなんとかでその訓練はできるはずだが、教える側が研究者なので、やはり研究でやるのが一番得意なところで実感をもって教えられるということなのかなとなんとなく思う。
ちなみに、このサイトの掲載内容は私自身の見解であり、必ずしも所属機関の立場、戦略、意見を代表するものではありません