5 月 26

NHK技研公開に行ってまいりました。

半分研究や仕事のネタ探し、半分趣味という感じで、ブースを見てまわりました。

見所はやっぱりスーパーハイビジョン立体テレビでしょうか。スーパーハイビジョンのブースでは大きなシアターで競馬のシーンや上空から撮影した街や自然の様子を上映するデモを見せてましたが、競馬でのシーンで観客席の人の顔なんかもはっきりわかるくらいの高解像度でした。

立体テレビは、レーザー光や立体視用の眼鏡をつけることなく、またコンピュータ上での3次元復元などをすることなく、光学系の工夫(カメラのレンズとディスプレイのモニタ部分)だけで3次元ディスプレイを実現しているのが面白かったです。こういうのをインテグラル式というそうですが、実現のためにはたくさんのデータが必要で、その実現のためにスーパーハイビジョンを使用しているため、リアルタイムで撮影->表示が行えるそうです。正直、スーパーハイビジョンクラスの高解像度なんて必要なのかと思っていましたが、なかなか使い道がありそうです。

また、研究に関係ありそうなところで、テレビの中から特定の人物の顔を探してくる研究や、野球、サッカーなどのシーン解析技術が紹介されてました。



 



余談ですが、昔ニブンビジョンに勤めてた頃、僕も動画から特定の人物のシーンだけ抽出するライブラリとか設計してました。会社が買収されてしまったので、世に出ることは無かったけど、あれが世の中に出てたら面白かったろうな。

 

その後、僕の研究室の同期が現在NHKで研究をやっているため、彼の元をたずねました。彼は高速移動中でも可能なデジタル放送受信技術について研究しているのですが、彼がデモで流していたNHKのニュースに「慶應義塾大学がはしかで休校」のニュースが・・・。

 

あらら、ついにうちの学校にも、きましたよ。

 

帰ってメールを確認してみたら、はしか流行につき、6月1日まで研究室の一切の行事が中止だそうです。

とりあえずうちの研究室ではしかにかかった人間はいなかったのですが、大学側の決定ということで従わざるを得ないよう。

ま、どうせ今は仕事三昧だし、どうしても学校でなくてはできない研究というわけでもないので、特に影響はありませんが。

 

話は戻りますが、その同期の技研の先輩にあたる人が、今度うちの研究室へ社会人ドクターとして進学してくるそうで、その方にも挨拶をしてきました。その方は技研で音声合成の研究をされている方で、うちの研究室でも同様のテーマで研究されるそうです。今年4月入学なので、僕の同期になります。

同じ社会人ドクター仲間が増えて、心強い限りです。 

5 月 24

先日、研究室のミーティングに参加したとき、学部4年生の研究の進捗の話になりました。
僕の所属する研究室は、自分が研究したいテーマを自由に選ぶことができるのですが、当然過去先輩がやった研究を引き継ぐ場合も多々あります。
その時、先輩のやった研究を引き継ぐために、先輩達の作ったソースコードを動かさなければならないわけですが、その先輩が卒業してたりすると、動かし方も良くわからず、プログラムの構造も良くわからず大変苦労することが多いようです。実際今の4年生の中にもそれで苦労している人がいて、結局、自分で一から作り直すほうが早かったりと言った状況なのだそうです。

こういう問題を避けるために、ビジネスの世界ではウォーターフォールやRUP、XPなどの色々な開発プロセスや、DFDやUMLといったモデリング言語を用いてプログラム設計するというアプローチが今ではあたりまえに取られています。(と言いつつ、昔システム開発の会社なのに「プロジェクト・マネジメント」という概念すら通じないところで働いてたことがあるので、ビジネスの世界でも駄目なところは駄目みたいですが。)

一応大学でも、こういったプロセスを導入していこうという動きがあるようですが、こういう話が出てくると言うことは、ほとんど定着はしていないようですね。

と、そこでおもむろに先生から、そういったソースの再利用を進めるにはどうすれば良いかと話を振られ、僕は前述のことを念頭において「コードを書く前に設計をやったり、モジュール化したりといったことをすれば良いのでは?」と述べました。が、結局研究のような試行錯誤の中で進めていくような性質のものには、そうやって事前にしっかり設計してから開発というのは難しいだろうという意見が出ました。

そこではそれ以上の議論をしませんでしたが、僕はやはり研究にも「開発プロセス」という考え方は十分使えるものと思っています。少なくともいきなりコードを書く前に、プログラム全体の構造を設計するというステップを置けば、試行錯誤の結果手法が変わっても、コード自体の変更を最小限に抑えることができると思います。

それに、ちょっと時間を置くと自分の書いたコードの意味がわからなくなるというのは良くあることで、きちんとデザインされたコードと言うのは、見ればだいたいの構造を把握できる分、結局開発時間の短縮に繋がります。

もっと大きな話で言えば、研究自体にも開発プロセスの考え方は当てはめることができて、例えば研究テーマ設定は要件定義だし、手法の検討は全体設計、コーディング前の設計は詳細設計、実験が運用テストだと思えば、それぞれでどんなことをやれば良いのか見えてくるし、工数も予測しやすくなるのではないかと思います。あるいは、試行錯誤をしながら色々な実験を繰り返すことになるので、反復型の方が向いているかもしれませんね。

いずれにせよ、まずは自分の研究を通してプロセスを実践してみようと思っています。その進捗具合については、またここで報告するかも。
ちなみに僕は今、全体設計中(つまり手法について色々と試行錯誤中)です。

5 月 21

最近復活した、Wired Vision(旧HotWired)に面白い記事がのってました。

========================================

最新の脳=コンピューター直結インターフェース技術によって、近い将来、われわれの脳のはたらきを利用して、人間の意識よりも効率のよい自動画像認識装置が誕生するかもしれない。

コロンビア大学の研究チームが、人間の脳の処理能力とコンピューターの画像認識能力とを組み合わせた画期的な装置の開発に取り組んでいる。完成すれば生身の人間の10倍もの速さで画像を検索できるという。

 

http://wiredvision.jp/news/200705/2007051823.html 

 =======================================

具体的にどうやって人間と機械の役割分担をしているのか、この記事ではちょっと見えないけど、 機械の弱い点を人間が補うのに、脳波を使うと言うのは面白い。

 

人間の視覚は、あるパターンの顕著な対象を見ると、それが自然に「ポップアウト」して、そこに注意を向けるようになっているんだけど、おそらくこのハイブリッド技術はそういった特性を利用して検索効率を上げていると思われます。

ちなみに人間の「注意」のメカニズムについては、何か研究に使えるんじゃないかと言う興味があって、論文は印刷したんですが未だ読めずにいます。

 

 それにしても、ここ数年の脳と機械のインタフェースに関する研究成果はすごいものがありますね。マンガ「攻殻機動隊」で描かれたような世界がすぐそこまで・・・。

 

5 月 16

またまた、更新に間が空いてしまいました。
先週月曜日に「めざましテレビ」で顔ちぇき!が取り上げられたために、またもや恐ろしいほどのアクセスがサーバーに殺到し、一時期ほとんどサービス停止状態になりました。(ユーザの皆様には大変ご迷惑をおかけしました。)
先週はまたもやその対応に追われていて、ブログのアップが遅れました。

というわけで、久しぶりに学業に関係のあるネタです。昨日の午後にCVIM 2007という研究会、そして今日は終日MVA 2007という学会に参加してまいりました。(どちらも東京大学技術生産研究所で開催)
CVIMは正式名称を「コンピュータビジョンとイメージメディア研究会」と言って、主に情報処理学会に所属している各大学のドクター論文や卒業論文なんかが発表されました。一方MVA2007はMachine Vision Applicationの略で、その名の通り画像認識の応用技術についての国際会議です。

実は、CVIM 2007の参加者は学生に限りMVA 2007の16日の参加が無料になるということで、それもあって2日続けての参加となりました。

余談ですが、今朝会場に行ってみたら、昨日CVIMでもらったはずの参加証が見当たらず焦りました。そこでおずおずと参加証をなくした旨を受付に言ったら、昨日会場に置き忘れていたらしい。たまたま受付の人が昨日と一緒で、参加証を保管してくれていたため事なきを得ました。ほっ・・・。

内容ですが、一番印象に残ったのは自分の知識不足でしょうか(笑)。ま、卒業する頃には発表内容がスラスラと頭に入ってくるようになってるでしょう。こういう学会に参加すると、要素技術や今流行している手法などなどのチェックになるので、俄然勉強にやる気が出ます。(やる気があっても時間がないんだけどね(涙))

まあそれはともかく、数ある発表の中で一番面白かったのは、やはりコロンビア大学のShree K.Nayar先生の招待講演です。この方は世界でも超一流の研究者で、カメラ、アルゴリズム、オブジェクトの物理モデルなどの分野で多くの優れた研究を残しています。


070516_1432~0001.jpg

今回は「Computational Camera」と題して、いわゆる僕らが普通に使っているデジカメではなく、コンピュータによって処理されることを前提としたカメラと、それにより実現されるイメージの話が中心でした。
例えばカメラの正面に凸状の鏡をつけることで1台で全方位の視野をカバーしたり、人間の瞳に移る画像を復元して誰を見ているのかを判定するなど、色々と面白い研究を紹介されてました。 

画像認識は大きく二つのカテゴリに分けられると思います。一つはオブジェクト認識など、人間ができることをコンピュータにもやらせようというもの、もう一つは2次元の画像から3次元情報を復元するなど、画像から人間の知覚を超えた多くの情報を得ようとするもの。今回のShreeの話は後者に属するもので、以前弊社社長の宮田さんがCNETの連載で慶應の斎藤先生、オリンパスの古橋さんと対談した際話に出ていた、「見ないためのカメラ」の話にも通じます。

今ジェイマジックでは、オブジェクト認識や顔認識などの「人間にできることをコンピュータでやる」ことを中心にすえたサービスが中心ですが、今後「人間にできないことをコンピュータでやる」アプローチをサービスに加えていくと、色々とまた面白いサービスができるんじゃないかな、と感じました。

5 月 6

ゴールデンウィークが終わってしまいましたね。
僕はこの休みで一気に研究を進め・・・る予定だったんですが・・・。「顔ちぇき!」予想外のヒットで、すっかり予定が狂ってしまいました。(笑)

本当に世の中何が受けるのかって予想がつきませんね。そもそも前回書いたとおり、顔認識技術のこういう使い道なんて予想もしてませんでしたから。

でも実際のところ、こういう発明当初の意図とは違った技術の使われ方と言うのは、歴史上、案外多いみたいです。J.ダイアモンドの名著「銃・病原菌・鉄」によると、例えば蓄音機を開発したエジソンの場合、これは記録用のメディアで、まさか音楽鑑賞用として流行るなんて思っていなかったそうです。が、実際この技術が爆発的に普及したのは、まさにこの「音楽鑑賞」という意図せざる目的のおかげでした。

これは、裏を返せば「技術」があるからこそ、新しい「発想」が生まれるということのようです。「顔認識技術」がなければ、「顔ちぇき!」という発想は出てこなかったろうし、蓄音機がなければ「レコード」という発想は出てこなかったであろうと思います。「銃・病原菌・鉄」によると、「必要は発明の母」というパターンよりも「発明は必要の母」というパターン、つまり技術ができてから、用途が考え出されるという場合の方がずっと多いそうです。
ちなみにこの「銃・病原菌・鉄」は技術の発展、伝播、そして文明の発展、それに続く今の文明の格差までの経緯を鋭く分析した稀代の名著です。興味のある方はぜひご一読を。

余談ですが、インターネットなどはこの「予想もできない使われ方」というのをはじめから想定し、シンプルで、汎用的で、オープンな規格にしたからこそ、現在の発展があります。
TCP/IPというインターネットの基盤プロトコルは、既に存在しているネットワークを相互接続する目的で生まれました。そのため、その上をどんなデータが流れるのかをはじめから想定しておらず、「パケットを目的地まで確実に運ぶ」こと以外のコントロールを持っていません。そして、重要な点として、TCP/IPという規格は誰に対してもオープンでした。それを採用してもライセンス料などを払う必要がまるでありませんでした。
その結果、TCP/IPの実現するインターネットという環境から発想を得てWebが生まれ、オープンなWebの規格からブログ、SNSなどのサービスが生まれていくことになりました。

というわけで、「顔ちぇき!」からやや話を広げすぎましたが、技術というのはこのように、技術を元に技術者の意図を超えた新たな用途が生まれるということが良くあるようです。
そのため技術者が技術を極めていくのはもちろん大切なことですが、その技術をまわりにアピールしていくのも、案外大事なんじゃないかと思います。例えば、デモを作って他人に披露してみると、技術者が「こんなの当たり前じゃないか」と思うようなことが驚かれたり、受けが良かったりなんてことがあるかもしれません。

実は僕も画像認識のビジネスに実際携わっていて、そういったギャップを感じることが良くあります。「きっと、あんな技術を持ってきたら面白いビジネスができるんだろうな」と思ったりするんですが、実際動くものを見せないとなかなか周りにはその面白さが伝わらなかったりします。
多分この分野には、そういった面白い発想を生むための技術がたくさん埋まっているんだろうと思います。アカデミックな世界では、「こんなもん研究として面白くないよ」とか、「こんなもん既に枯れているよ」、あるいは「これじゃあまだ実用性としてはイマイチだよ」といった物の中に、確実に世の中に出したら面白い宝が埋まっていると思っています。

そしてこれは、僕が大学で画像認識を勉強しなおそうと思った大きな動機の一つでもあります。


5 月 1

どうも、久しぶりの更新です。
先日、弊社より「顔ちぇき!」が正式にリリースされましたが、ここしばらくずっとこの開発に携わっていたため、このブログの更新が滞ってました。しかも公開してから、ITmediaCNETなど各種メディアで取り上げられ、更にはmixiニュースにも紹介されたことから、予想を遥かに上回るアクセスが集中して、しばらくはその対応に忙殺されてました。

というわけで、本当は前回の続きで入学手続きの話でもしようかと思ったですが、タイムリーなので「顔ちぇき!」の話を書こうと思います。

この「顔ちぇき!」は顔認識技術を使うことで、送った顔写真と有名人とのそっくり度を診断しようという、マジメな画像認識エンジニアは顔をしかめそうなサービスです。
顔認識技術は、入退出管理や、マシンへのログインなどの際に「本人認証」を行うことを目的として開発されています。流行りのバイオメトリクスの一種ですね。多くの顔認識エンジンは、通常エンジン内のデータベース中に登録してある顔と、入力された顔画像との相似率というのを出力し、その相似率がある閾値を超えたときに「本人」であると認証する仕組みになっていますが、「顔ちぇき!」では、その相似率を「そっくり度」としてユーザに表示しています。

なんでマジメな画像認識エンジニアが顔をしかめるのか、それは機械が判定する「そっくり度」と人間が判定する「そっくり度」というのが基本的に違うものだからです。
確かに昔から画像認識の分野では、人間の認識の仕組みをベースにして、顔認識なんかをやろうという研究は色々ありました。例えば僕がジェイマジックの前に勤めていたニブンビジョンの顔認識エンジンは、ガボールウェーブレット変換という、人間の低次の視覚系を模した仕組みを利用してます。
とはいえ、そもそも人間の認識の仕組みと言うやつ自体が、まだ全然わかってなくて(とはいえ、面白い研究は最近出てきてます)、今世の中に出ている顔認識技術の大半は、人間の脳の仕組みが解明されるのを待ってたらいつまでたっても製品ができないので、とりあえずなんとか使えるものを作ったれ、ということで作られたものばかりです。前述のニブンビジョンのエンジンでも、ガボールウェーブレットより上位ではまったく独自のアルゴリズムを使ってます。

そのため、この「顔ちぇき!」の企画を聞いた僕が一番に思ったことは、「顔認識技術と人間が感じるそっくり度はそもそも別物だし、もしそれをやろうと思ったら顔の特徴量と人間の主観の相関を調べてやるとか、ちょっと研究めいたことが必要になるんじゃないのか?」というものでした。
「そんなマジメなこと考えずに、とりあえず作ってみようよ」という営業の提案もあったので、まずは営業のデモツールとして、Web上で入力した顔画像に対し、相似率の高い登録画像を順に表示する、というデモを作成しました。

僕はどうせ、『これ違うじゃん』というリアクションが来るだろうと思っていたんですが、実際は『違ったら違ったで面白い』というものでした。

そしてあれよあれよと言う間に、お客様先での導入が決まり、以後「顔ちぇき!」サービスの公開、そしてアクセスの爆発へと続くわけです。

実は僕は、この「顔ちぇき!」成功のパターンに、技術が世の中へ広まっていくパターンの一つの典型が現れているんじゃないかと思ってます。が、またまた長くなったので、この続きは次回(多分・・・)