4 月 30

社長の宮田から薦められて、下のサイトで話題になっているGoogleの論文を、さっと目を通してみました。
Google、次世代画像検索を実験中―画像にページランク導入へ

ご存知の方も多いと思いますが、GoogleではPageRankという技術を用いて、Webページに関して最適な検索結果を提供しようとしています。PageRankというのは

  • 他からリンクされているWebページほど重要なページ
  • 重要なページからリンクされているページもやっぱり重要

という原則を用いて、Webページにランクを付け、そのランクに基づいて検索結果を表示させる技術です。

今回、GoogleはこのPageRankの仕組みをGoogle Image Searchに導入する方法を北京で開かれたWWW Conference 2008で発表しました。

Webページでは、ページ間のリンクをHyperLinkでそのまま表すことができましたが、画像にPageRankの仕組みを導入する場合、どのように画像間のリンクを表すかが問題となります。

 今回の発表者であるジョージア工科大の学生とGoogleの研究者は、画像間の類似度をリンクに見立てることで、これを実現しました。

画像間の類似度の取り方は、画像の部分部分の特徴(局所特徴)を見てやって、似ているパーツが他の画像にどれだけあるかという数で決めているようです。

例えばモナリザの絵を考えてみましょう。インターネット上にはモナリザのパロディ画像などもたくさん転がっていると思いますが、これらはすべて元のモナリザの画像を改変したものなので、モナリザの原型に近いネット上の画像にたくさんリンクが貼られることになり、従ってPageRankが上ります。そのため「モナリザ」という語で検索すると、モナリザの元画像が上位にひっかかりやすくなります。

画像認識技術的には仕組みとして非常にシンプルですが、この簡単な仕組みでインターネット上にある大量の画像に適切にアクセスできるようになることのメリットは大きいでしょう。


ちなみに、今度の6月にアラスカで開催されるCVPR2008というコンピュータビジョンの大きな学会の採録研究一覧が発表されたのですが、その中の口頭発表のセッションで同じくPageRankを使ったとても面白い論文がありました。

Unsupervised Modeling of Object Categories Using Link Analysis Techniques

というタイトルのカーネギーメロン大の論文なのですが、これはページランクの仕組みを用いて学習画像から自動的にカテゴリ毎のオブジェクトのモデルを生成する、というものです。平たく言えば例えば車の画像をたくさんコンピュータに学習させれば、自動的に例えばタイヤや窓のような形状を持つのが車だよ~、みたいなことを学んでくれるというものです。(かなり乱暴な説明ですが)




たまたまPageRankというWeb検索の仕組みを画像へ適用した論文を続けて読む機会がありましたが、こういう違う分野の技術が画像の分野に適用されるのを見るのは面白いです。

4 月 25

今日、うちの研究室のAssistant Professorが、ドクターの人たち向けにGPUプログラミングの講義をしてくれました。

GPU(Graphics Processing Unit)というのは、普通のPCに今や当たり前のように刺さっているグラフィックカードのこと。このグラフィックカードは、主にCGの描画処理を高速に行うためのものなんですが、これをコンピュータビジョンの分野に応用する動きが何年も前からありました。

僕もGPUを使ったコンピュータビジョンの高速処理の話は前々から聞いてはいたのですが、実際に手を動かしたのは今回が初めてです。

以前からサーバーにグラフィックボードを積めば、高速に画像認識できるだろうなあと思ってはいたんですが、実際手を動かして見てこれはかなり使えるのでは!?という思いを強めました。ちょうど自分の研究について、処理速度で悩んでいたというのもあり、いずれ検討する価値があるなと。

ただGPUでの処理は得手不得手が色々とあって、処理によってはCPUにやらせるよりも遅くなってしまう可能性もあるので、まずは自分の研究のアルゴリズムが固まるまでは心の片隅に留めて起こうと思います。

4 月 22

最近は、コーディングの方は一旦やめて、ひたすら自分の研究に関係する論文をあさってます。

本来なら、

  1. 研究テーマを決める
  2. 関連する論文を読み込み、自分の研究の「売り」を決める。
  3. 手法を決める。
  4. コーディングする。
  5. 実験する。
  6. 実験結果がOKなら学会等に投稿する。

という流れで行うべきなのですが、僕の場合新しい研究テーマに決めてから、2をすっ飛ばしていきなり4から始めてしまいました。

というのは、前々から個人的に惚れ込んでいた論文があって、とりあえずその論文をベースに開発をしたいという思い先行でコーディングに走ってしまったがためです。

結果として、その手法を改良することで、ある程度実際のビジネスの現場でも使えるものができそうな気がしてはいるのですが、いざそれを自分の論文としてまとめようとすると、「なぜその論文をベースに開発をしたのか」の論理が未だうまく構築できずにいます。

というわけで、まずは既存の手法を手当たり次第に調査して、その中で自分の研究の「売り」を明確にしようとしているわけです。ただ、僕の研究分野は最近なかなか学会でも「熱い」分野みたいで、発表論文も多くてそれらをカバーするのは結構大変・・・。

担当教授からも「そろそろ一本目の発表をしないとまずいよ」と言われてまして、しばらく踏んばらないといけません。

4 月 12

いよいよ、大学生活も2年目に突入です。

新学期が始まっているせいか、学生が多く、校舎もいつもよりも賑やかでした。

今日はそんな中、履修申告を済ませてきました。今年度は秋学期に統計関係の授業を一つ取ろうと思ってます。統計って画像認識ではとても良く使うし、その授業の講義内容が僕の知りたかったこととちょうど合っていたのと、その曜日がたまたま大学に行く日と一致していたので取ることに決めました。博士課程は別に授業を取る必要はなく、研究成果さえ上げれば学位は取れるのですが、せっかく高い学費を払っていることだし、大学という環境をもっと利用しないとと思いまして(笑)

ちなみに肝心の研究の方ですが、会社の皆さん(特に技術開発部)の協力のお陰で大学に使える時間も大分増えて、ここしばらくは進み具合も良い感じです。ほんと、感謝感謝です。

それにしても、やっぱり研究は楽しいです。コーディング自体は正直めんどくさいと思うことの方が多いですが、研究のロジックをずーっと考えていて、何かうまいやり方を見つけた時とか、自分の頭の中にあるAというアイデアとBというアイデアが、一見無関係に思えたけど、実は一緒にするともっと面白いみたいなことを発見した時に、なんだが頭のモヤが晴れて目の前が開けたような、そんな気分になります。この「わかった」と思った瞬間の気持ち良さは何ものにも変え難いです。

10年前の学生時代に研究してた頃は、むしろコーディングの方が楽しくて、研究自体の楽しさなんて余り感じる余裕はなかったんですが、これも社会人になって色々と経験を積んだお陰だと思います。
というわけで、去年の4月から始めたこのブログも2年目です。相変わらず更新の頻度はゆっくりかもしれませんが、気長におつきあい下さい。