1
人工知覚、それは人工知能と似て非なるもの
人工知能と対をなす「空間技術」
人工知能(AI)を「機械の脳」としたとき、Kudanが取り組む人工知覚(AP)は「機械の眼」です。
脳である人工知能(AI)は、機械学習や深層学習などの言葉の通り、学習ありきでパターン認識をし、人間を模倣した判断や振る舞いを目指す技術です。一方、人工知覚(AP)は、基本的に学習を必要とせず、視覚と同様に、より直感的に機能する感覚です。
眼ということで画像認識と混同されがちですが、世の画像認識のほとんどは、むしろ人工知能(AI)側です。たとえば、最新スマートフォンは顔画像から人物を識別できますが、これは膨大な数の顔画像を学習した結果、パターン認識が可能になったという技術です。したがって、代わりにサルの顔を識別するには、当然サルの画像を一から膨大に学習せずに応用することはできません。
一方で、Kudanの人工知覚(AP)は、視覚情報から直感的に空間や位置を把握するなど、学習とは無関係に機能するもので、ロボットやコンピュータが人間の能力を模倣するのに重要を役割を果たすものとして、人工知能(AI)と「眼と脳の関係」で対をなす技術となります。
視覚から「方向感覚」や「運動感覚」を与えるもの
人工知覚(AP)は、視覚からの「方向感覚」や「運動感覚」として理解することもできます。例えば、迷路のようなターミナル駅では、標識がなければ普通は迷ってしまいますが、もし絶対的な方向感覚があれば、左右に曲がったり階を上り下りする度に、視覚情報から駅構内の地図を脳内に構築していき、その中における自分の位置や動きを理解することができます。
また、動きと感覚を高速化させると、例えばアスリートのように高速で姿勢を変化させても、視覚情報から、自分の態勢や動き、そして周囲の状況を常に理解することができます。
点群と軌跡:コンピュータから見える世界(SLAM)
この動画は、人工知覚(AP)を構成する主要技術であるSLAM(Simultaneous Localization and Mapping)という技術のデモ動画ですが、ロボットがオフィスの中を動き回った際に、視覚情報から空間把握をするイメージをご覧いただけます。
左の二つの小さい画像がロボットの両目からみた景色、右に見えている大きな画像が人工知覚(AP)を通して処理したロボットの「方向感覚」や「運動感覚」の様子です。緑の点は、人工知覚(AP)が見えた景色から特徴的な箇所を抽出し、瞬時に3次元的に構築して空間を理解するのを表しています。またピンクの線は、構築された空間の中でロボット自身の位置と姿勢と動きを理解しているのを表しています。
このように、視覚情報から「空間の理解」と「自身の理解」を瞬時かつ同時に行うことは、私たち人間が持ち合わせている重要な能力であり、機械が人間を模倣するのに不可欠となります。