2 月 9

またまた、随分と更新の間が空いてしまい申し訳ありません。

C判定を受けていた僕の論文ですが、何回かのやり取りを得て、ようやく掲載が決定いたしました!!良かった~。

正直、本当にこの1本を通すのはきつかった。ただ、この経験を通して多くのことを学びました。
これは僕の場合だけかもしれませんが、論文を一行書くのにもものすごい神経と頭を使いました。一つには自分の研究の弱点を自分でも痛いほどわかっているのですが、それでも相手にこの研究の有用性を伝えるための論理武装を綿密に行わねばならず、その試行錯誤にかなりのエネルギーを使った気がします。
そのため、僕の場合なかなか勢いに乗って一気に書くというわけにはいかず、非常に時間がかかりました。今までビジネスでもプレゼン資料や技術資料をたくさん作ってきましたが、それとは使うエネルギーがまったく違います。

あたりまえかもしれませんが、論文誌に投稿したり、学会に投稿して発表するというのが博士の実績を測る指標である以上、論文の執筆や学会の準備にはかなりの時間を取られます。僕の場合、実際の研究時間の半分を取られるといっても過言でないかもしれません。ベンチャーで開発よりも論文やテストに時間を多く使うというのはあり得ないですね。
もちろん論文執筆という作業を通して、自分の研究の粗がわかったり、研究の新規性等の緻密な論理武装が行われるなど、色々と貴重な経験になるわけですが、ベンチャーの開発は「使えればいいじゃん」という世界なのに対して、研究の世界は「何が従来のものと比べて違うの?何が良くて、何が新しいの?」という世界なので、頭の使い方がまるで違います。そんなこんなで、会社と大学の間を行き来するたびに頭の中身をガラッと切り替えねばならず、これがなかなか大変でした。

あと今回思ったのは、論文執筆を見越してとにかく実験用バッチプログラムは事前に色々と開発しておくのが吉ですね。今回は最初の投稿時には実験データが圧倒的に不足してました。(自覚はしてたんですが、その時はとにかく時間が足りませんでした。)
まずは既存手法など自分の研究と比較対象になりそうな論文の実験手法を調べて、それを実装しておく。その上で自分の研究手法を実装したプログラムを色々とチューニングすれば、少なくとも論文向けに最適化され、かつそのパラメータチューニングの過程も立派な検証データになります。

まあ、ここらへん普通の研究者にとっては常識なんでしょうが、僕のようなにわか研究者には良い経験でした。

正直今回投稿した内容は、自分で完全に納得いったものではないので、次こそは自分が納得できるものを書きたいと思ってます。なんにしても今は1本通すことができて少しほっとしてます。

と、思ったら教授からはD2も終わりなんだから早く次を出さないと卒業できないぞーというプレッシャーが・・・。

12 月 1

この間出した論文誌への投稿、査読結果が戻ってきました。(査読というのは、論文誌に載せるかどうかの判断のためのレビューのこと)

結果は、C判定。つまり、色々修正とか問題点とか指摘されて、その回答如何で掲載するかどうか決めるというもの。

覚悟はしてたけど、なかなか厳しい結果・・・。

とりあえず、先生とも打ち合わせて大まかな方針が決まったので、これからまた頑張ります・・・。

11 月 15

今さらですが、あちこちで話題になっている芸者東京エンターテイメント「ARis」について書いてみます。

ARisって何?っていう人は、とりあえず以下の動画を見てください。

これは、Augumented Reality(以下AR)というコンピュータ・ビジョンの分野では長いこと研究されている技術を応用したものです。ARとはカメラで撮影した画面上に、CGなどを自然に重畳表示する技術で、カメラで撮影したマーカーの画面上の映り方から、カメラの相対位置を計算することで自然なCGの重ね合わせが実現できます。

ARisで用いられている技術は典型的なAR技術で、ビジョンの研究者からしてみれば特に技術的に何か真新しいということはありません。ただ、その応用方法が非常に素晴らしいと思っています。

現在のAR技術の大きな制約としては、マーカーがカメラの中に映っていないと使えないという点で(最近は、使わないものも出てきてるけど)、例えばARの応用例として語られているような、ヘッドマウントディスプレイをつけて街中を歩くと、街の至る所に仮想空間の情報(例えばレストランを見たら、そのメニューが現れるとか)といった使い方は、いちいちマーカーを設置しなければいけないため、なかなか難しいわけです。

が、このARisのような使い方であれば、特にマーカーがストレスになることもないでしょう。しかも、マーカー付きの棒で突っつくことでキャラクターとコミュニケーションを取るというのは、僕の知る限りあまりないアプローチだと思います。

こういう技術の性質をおさえつつ、ちょっとひねったアプリケーションを作ることができるのは、企画者の中にAR技術の表面だけでなく中身までちゃんと知っている人間がいるということだと思います。もちろんTry & Errorを繰り返しながら、アイデアを練っていったんだろうとは思いますが、少なくとも技術を理解していなければ、こういう発想はできないと思います。

最近、画像認識技術は色々な形で市場に出てきていますが、僕から見ていて「この技術をこんな使い方してもダメじゃん」と思うことがたくさんあります。せっかくユニークな面白い技術、もしくは可能性がある技術なのに、結局どこかの類似サービス(何とは言いませんが・・・)になっていて、非常にもったいないなあと思ってしまいます。多分企画者は、その技術の目に見える部分しか理解していないんだろうな、と感じます。

というわけで、芸者東京エンターテイメントって面白い会社だなあ、と思いました。

11 月 10

今年は後期に授業を1つとっているのですが、これが正直残念な感じです。

授業の進め方は、講義資料のプリントか教科書をプロジェクターに映して説明するというやり方なのですが、どうも教科書を見ながらその時しゃべる内容を考えているという感じで、内容が前後したりして、スッと頭に入りません。

プロジェクターは教科書を映したものなので、字がちっちゃくて読みづらいですし、時々どこを説明しているのかわからなくなります。

講義をする側の準備不足と、「理解してもらおう」という気持ちが感じられず、やっつけ仕事な感じが否めません。学生時代は授業が分かりづらいのは自分の集中力のなさと頭の悪さのせいかと思っていたんですが、やはりそういうわけだけではなさそうです。この講義が他の授業と比べてどうなのかは、一つしか授業を取っていないのでわかりませんが。

確かに大学の先生って、本業の研究や研究室内の雑務などなどと色々と他に仕事があるのは理解しているのですが、大学も立派なサービス業なわけで、こちらも高い授業料払っている上に貴重な時間を割いている以上(それこそ社会人なので時間の重さが違います)、それ相応のクオリティの教育サービスを提供してもらいたいと思ってしまいます。

ただ、それでも授業を受けるメリットはあります。それは独学をするにせよ、1.どこを自習すればよいかポイントがわかるという点、2.わからない時には質問できる相手がいるという点、3.自分が今まで存在を知らなかった手法の存在を知ることができるという点です。

学生時代にこの3点のメリットを享受できるのがいかにありがたいことかは、社会人にならないとなかなか気付かないところかもしれません。

というわけで、時間がどうにも足りなくならないうちは、引き続きこの授業は受けようと思います。

11 月 5

5月に開催されるMVA(Machine Vision Applications)という国際学会に投稿すべく、先週末は執筆活動をしていたんですが、いざ投稿と思って見てみたら、11月7日だった締め切りがいつのまにか一ヶ月先に延びてました・・・。

ま、早めに仕事片付けたと思えばいいんですけど・・・。なんか落ち着かないな。

10 月 18

Conferenceは昨日までで終了で、今日から二日間はWorkshopが開かれます。

ちなみに、僕はWorkshopの一日目だけ参加する予定。

Workshopは4つのプログラムが並行して開かれており、僕はそのうち今回の学会参加最大の目的の一つ“PASCAL Visual Object Class Challenge 2008″ を見学してきました。

PASCALチャレンジは、オブジェクト認識に関して、同様の条件のもとで複数の手法を比べるコンテストで、全部で3部構成になっています。

1. オブジェクトカテゴリ認識
    画像の中に映っているオブジェクトのカテゴリを判別する。(車、人、バイク、etc)

2. オブジェクト位置検出
    画像の中に映っているオブジェクトの位置を検出する。(オブジェクトを囲む長方形として)

3. オブジェクトセグメンテーション
    画像中のオブジェクトが移っている領域を正確にラベルづけする。

この3つの分野について、エントリーした手法が認識率を競います。対象はFilckrからひっぱてきた画像50万枚、20カテゴリのオブジェクトに対して行われます。

  

試験画像の例

 

それぞれのパートでは、測定条件等々について説明した後、加来手法の認識率や結果画像を示し、それぞれ上位2つの認識手法について説明をする、という流れでした。

結果などはいずれサイト上にアップされるそうですが、

1. オブジェクトカテゴリ

  1位: サリー大学

  2位: カーネギーメロン大学

2. オブジェクト位置

  1位: INRIA(フランス国立情報学自動制御研究)

  2位: シカゴ大学

3. オブジェクトセグメンテーション

  1位: ゼロックス

  2位: オクスフォード・ブルックス大学

でした。商品は記念Tシャツ(笑)。

印象としては、やはりBags of words(オブジェクトカテゴリ認識でメジャーな手法)をベースにするものが多いんですが、情報量を上げるために、色を使うものや、画像中のコンテクストを使うもの、認識を段階的に行うものなど、結構複雑なプロセスを踏むものが多かった気がします。Bags of wordsベースの手法は、もうかなり応用が進んでしまってるんだなあ、と思いました。

——————————-

というわけで、これにて僕のECCVの報告は終了。

先日、論文誌に一本目を投稿して、これから研究を更に改良しようというタイミングでこの学会に参加できた意義は大変大きかったです。世界中のすぐれた研究を見ることができて、色々と刺激とヒントをもらいました。

今度は、自分が発表する立場で参加したいなー、と思います。

10 月 17

4日目と5日目はそれぞれ、

  • Matching
  • Learning+Features
  • MRFs

および

  • Segmentation
  • Computational Photography
  • Active Reconstruction

のセッションがありました。段々自分の得意分野から外れてきたので、なかなか理解するのが大変です。

以下、個人的に面白いと思ったもの。

“SIFT Flow: Dense Correspondence across Different Scenes”
Ce Liu, Jenny Yuen, Antonio Torralba, Josef Sivic, and William T. Freeman

動画像などで、映像の動きを推定するのに用いられているOptical Flowという手法を元に、似たようなカテゴリの画像に対してその変化分を推定するSIFT Flowと呼ばれる手法の提案。

“What Is a Good Image Segment? A Unified Approach to Segment Extraction”
Shai Bagon, Oren Boiman, and Michal Irani

セグメンテーションの方法として、カラーやテクスチャなど色々な切り口があるが、それらを統一的に扱えるセグメンテーション手法の提案。

“Priors for Large Photo Collections and What They Reveal about Cameras”
Sujit Kuthirummal, Aseem Agarwala, Dan B Goldman, and Shree K. Nayar

 Flickrなど、インターネット上に大量にある画像を利用して、カメラ毎の特性を、特定の撮影環境などの制約を設けることなく、統計的に求める手法を提案。(同じようなアプローチで、素人がとった写真か、玄人がとった写真家もわかる)

 

ちなみに、このうち1番目と3番目はAdobe Systemとの共同研究です。Adobeとマイクロソフトは、ECCVでも目立ってた気がします。

10 月 15

今日も一日参加してきました。

ここ数日情報量が多すぎて、頭が沸騰中です。

これは英語力の問題なのか、はたまた基礎知識の問題なのか・・・。

 

今日のセッションはPeople、Face、Tracking、それからポスターセッションでした。そのうち個人的に興味持ったやつをいくつか紹介しますと、

The Naked Truth: Estimating Body Shap Under Clothing
Alexandru O. Blan and Michael J. Black

X線を使わずに、服の上からその人の体型を推定するという研究。人の体型とポーズをパラメータ化した3Dモデルを、画像に対してあてはめていくというアプローチをとってました。

Face Alignment Via Component-Based Discriminative Search
Lin Liang, Rong Xiao, Fang Wen, and Jian Sun

顔の特徴点(眼尻や口の端点など)で、間違った物に関して追加で学習させる(どの方向にずれたのか教える)ことで、かなり難しいポーズや、光環境でも特徴点を正確にとれるように改善した研究。

Robust Real-Time Visual Tracking Using Pixel-Wise Posteriors
Charles Bibby and Ian Reid

単純なモデルでオブジェクトを高速かつロバストにトラッキングする研究。とにかく結果がすごかった。動画見つけたら後ほどアップします。

Multiple Component Learning for Object Detection
Piotr Dollar, Boris Babenko, Serge Belongie, Pietro Perona, and Zhuowen Tu

画像の中からオブジェクトを検出するのに、パーツという考え方を導入して行っていた。つまり歩行者であれば、足とか頭などの検出機を作って、それを元に全体を推定するという方法。(ポスターセッション)

 

他にも、ISMAR07でBest Paperをとった、マーカレス&リアルタイムAR技術の改良版(高速なカメラ移動に強くなった)もTrackingのセッションで発表されてました。明日デモコーナーで実際動くものを展示するそうなので楽しみです。

 

さてさて、今日の学会が終わって僕は昨日予約した新しいホテルへ移動しました。が、

割り当てられたのは、ホテルのオーナーが所有しているアパートの一室。そういや、電話でアパートなら空いてるって言ってたっけ。てっきり、アパートと言いながらも、ちょっとグレードの高い部屋だろうくらいに考えてました。

正直広すぎて落ち着かない・・・。ホテルの部屋に空きが出たら、移れないかどうか明日交渉してみます。

10 月 14

とりあえず、電話しまくった結果、今朝無事次のホテルが決まりました。値段はちょっと高くなっちゃいましたが背に腹は代えられない。今のホテルは、町の中心から離れて地下鉄も届かない不便なところで、ご飯もあまりおいしくないので、予約ミスも結果オーライということで。

さて、そんなこんなで今日からECCVの発表です。今日は、今回の出張の目的の一つ”Recognition”のセッションが午前中に行われるので、楽しみにしてました。
さて、午前中のセッションが始まる前に各種Awardの発表がありました。(僕の印象ではこの発表って、最後の方にやるもんと思ってたんですが)

Best Paper

今回、Best Paperに輝いたのは、ドイツのマックスプランク研究所のBlaschkoらによる”Learning to Localize Objects with Structured Output Regression”という研究に与えられました。
あれ?この人たち今年のCVPR(6月に開かれた国際学会)でもBest Paperとってなかったっけ?

と思ったら案の定そうでした。CVPRのものとは違うアプローチで、もっと精度の良いものを作ってきたらしい。
そして、Best Student Paperはスタンフォード大のHeitzらの”Learning Spatial Context: Using Stuff to Find Thnigs”でした。

両方とも”Recognition”のセッションからのもので、自分の研究テーマ(オブジェクトカテゴリ認識)と関係の深い「オブジェクト検出」に関するものでした。
そういえば、最近はオブジェクトカテゴリ認識よりも、その位置を特定する研究の割合が増えてきた気がするんですが、そういう流行あるのかな?
というわけで、午前中にはこれら2つの研究も含めて、全部で4つの発表が行われました。Best paperのものは、従来「検出窓」みたいなもので画像中をスキャンして、オブジェクトを検出していたのを、「Structured Output SVM」という手法を使って、画像全体から正確に検出できるようにしたというもの。Student Best Paperは背景などオブジェクトの周辺情報(コンテクスト)をうまく使ってオブジェクトを検出しようという研究でした。他にも画像アノテーション(タグ付した画像からの最適な画像検索)に関するものや、車載カメラの動画像から画像のセグメンテーションと認識を高速に行うというアプローチが発表され、どれも興味深く聞かせてもらいました。
午後の前半は、ポスターセッションということで、自分の研究テーマに関係ありそうなものをいくつか見てまわり、午後の後半は”Stereo”のセッションに参加して、車載カメラからリアルタイムで道路環境の3次元情報を取得する話や、マルチカメラからの3次元復元の話などなどを聞いてきました。

とりあえず、2日目の発表はこれで終了で、その後は”Reception”ということで、場所を移して立食パーティーみたいなものが行われました。といっても料理は少なく、立ち飲みがメインで、何かプログラムがあるわけでもなく、研究者たちが延々と立ち話をしているような感じでした。
一人で来ている自分としては特に話し相手もなく、ちょっと面識がある東大の佐藤先生や、僕が一方的に知っているだけの池内先生に無理やり話しかけたくらいで、早々に退散してきました。

というわけで、本日の感想としては、自分の研究分野まわりってやっぱり盛り上がってるな~ってこと。これを100%の時間使って研究している、頭の良い研究者とまともに争ったら、半端な僕には勝ち目がないな(笑)
社会人ドクターの僕としては、こういう天才の成果をうまく組み合わせ、以下にアカデミックと実用の間をつなぐような研究をするかが、自分の立ち位置だと思っています。

とりあえず、猛烈に自分の研究を進めたくなりました。

10 月 13

会場

現在、ECCV 2008というコンピュータビジョンの学会に参加するため、フランスのマルセイユに来ています。今回、僕は特に発表はしないのですが、高いレベルの研究が発表される場なので、色々と情報を仕入れてやろうと思っています。

マルセイユの気候は、東京と同じか、若干暖かいくらいでしょうか。
ちなみに、マルセイユのホテルはインターネット経由で予約したのですが、ついて早々誤って2009年で予約を入れる大ポカをやっていたことが判明しました。
とりあえず14日の朝までは予約を確保したのですが、それ以降は宿なし状態です。色々と他のホテルへ連絡してみたのですが、やはりどこも既に埋まってました。
今は、泊っている宿のキャンセルを待ちつつ、他を探し回っているところです。(汗)

というハプニングはありつつも、まずは初日チュートリアルに参加してきました。
チュートリアルというのは、学会開催前に各分野の権威のある先生を呼んで、その分野について概説してもらうというもので、最先端の研究を俯瞰するのに非常に便利な講座です。

チュートリアルは午前と午後の部に分かれており、それぞれ4つのコースが並行で4つの部屋にわかれて行われました。
色々と興味のあるテーマが多く、色々迷ったのですが、自分の研究テーマに直結するところとして、午前中は”Supervised Learning for computer vision: Theory and algorithms”、午後は”Biological Vision : A Source of Insights for Computer Science”に参加することにしました。

午前中の講座は、いわゆるコンピュータに何かを覚えさせる「機械学習」と呼ばれる方法についての講義で、午後は脳に関する研究からコンピュータビジョンにアプローチするという内容でした。

難しくてついていけないところもありましたが、どちらも自分の研究のヒントを得ることができました。

というわけで、明日からの発表が楽しみです。

« Previous Entries