チワワまたはマフィン?最高のコンピュータービジョンAPIの検索

この人気のあるインターネットミームは、チワワとマフィンの間で共有される驚くべき類似性を示しています。これらの画像は、人工知能(AI)業界(私自身を含む)のプレゼンテーションで一般的に共有されています。

しかし、私が誰も答えていない質問の1つは、チワワやマフィンに似ている可能性のある画像の不確実性を取り除くのに、現代のAIがどれほど優れているかということです。あなたの娯楽と教育のために、私は今日この質問を調査します。

パーセプトロンアルゴリズムが1957年に発明されて以来、二項分類が可能になりました。現在AIが誇大宣伝されていると思われる場合、ニューヨークタイムズは1958年に、この発明が「歩き、話し、見、見ることができる」コンピューターの始まりであると報告しました。自分自身を書き、再現し、その存在を意識してください。」Mark 1のようなパーセプトロンマシンは画像認識用に設計されていますが、実際には、線形分離可能なパターンしか識別できません。これにより、ほとんどのビジュアルメディアに見られる複雑なパターンを学習できなくなります。

世界が幻滅し、AIの冬が続いたのも不思議ではありません。それ以来、多層知覚(1980年代に人気)と畳み込みニューラルネットワーク(1998年にYann LeCunによって開拓された)は、画像認識タスクにおいて単層知覚を大幅に上回っています。

ImageNetや強力なGPUコンピューティングなどの大規模なラベル付きデータセットにより、AlexNet、VGG、Inception、ResNetなどのより高度なニューラルネットワークアーキテクチャは、コンピュータービジョンで最先端のパフォーマンスを実現しています。

コンピュータービジョンおよび画像認識API

機械学習エンジニアの場合、Keras / TensorflowまたはPyTorchのいずれかで事前にトレーニングされたモデルとウェイトを使用することで、これらのモデルを簡単に実験して微調整できます。自分でニューラルネットワークを微調整することに抵抗がある場合は、幸運です。事実上すべての主要なテクノロジーの巨人と有望な新興企業は、使いやすいコンピュータービジョンAPIを提供することで「AIを民主化する」と主張しています。

どれが最高ですか?この質問に答えるには、ソリューションを相互に比較する前に、ビジネス目標、製品のユースケース、テストデータセット、および成功の指標を明確に定義する必要があります。

真面目な質問の代わりに、チワワとマフィンを区別するというトイプロブレムでテストすることで、少なくとも各プラットフォームのさまざまな動作を高レベルで把握できます。

テストの実施

これを行うために、正規のミームを16のテスト画像に分割しました。次に、エンジニアのGaurav Oberoiによって作成されたオープンソースコードを使用して、さまざまなAPIからの結果を統合します。各画像は、上記の6つのAPIを介してプッシュされ、予測として信頼性の高いラベルが返されます。例外は、ラベルとキャプションの両方を返すMicrosoftと、人間とAIのハイブリッドテクノロジーを使用して単一のキャプションのみを返すCloudsightです。これが、Cloudsightが複雑な画像に対して不気味に正確なキャプションを返すことができる理由ですが、処理に10〜20倍の時間がかかります。

以下は出力の例です。16枚すべてのチワワとマフィンの画像の結果を確認するには、ここをクリックしてください。

APIはどれくらいうまくいきましたか?このマフィンをぬいぐるみと混同したMicrosoftを除いて、他のすべてのAPIは画像が食べ物であると認識していました。しかし、食べ物がパン、ケーキ、クッキー、マフィンのどれであるかについては合意がありませんでした。Googleは、マフィンを最も可能性の高いラベルとして正常に識別した唯一のAPIでした。

チワワの例を見てみましょう。

繰り返しますが、APIはかなりうまくいきました。正確な品種を見逃した人もいましたが、全員がその画像が犬であることに気づきました。

しかし、確かな失敗がありました。マイクロソフトは、マフィンをぬいぐるみまたはテディベアのいずれかとして説明する、明らかに間違ったキャプションを3回返しました。

Googleは究極のマフィン識別子であり、テストセットの7つのマフィン画像のうち6つに対して最も信頼性の高いラベルとして「マフィン」を返しました。他のAPIは、マフィン画像の最初のラベルとして「マフィン」を返しませんでしたが、代わりに「パン」、「クッキー」、「カップケーキ」などの関連性の低いラベルを返しました。

しかし、一連の成功にもかかわらず、Googleはこの特定のマフィン画像に失敗し、予測として「鼻」と「犬種グループ」を返しました。

世界で最も先進的な機械学習プラットフォームでさえ、私たちのファッショナブルなチワワ対マフィンの挑戦によってつまずきます。人間の幼児は、食べ物とは何か、Fidoとは何かを理解することになると、ディープラーニングに勝ります。

では、どのコンピュータービジョンAPIが最適ですか?

このとらえどころのない謎への答えを見つけるために、あなたは元の記事を完全に読むためにTOPBOTSに向かわなければならないでしょう!