OpenAIの最先端AIが手書きのメモに騙される – タイポグラフィ攻撃とその危険性

機械学習研究所であるOpenAIの研究者たちは、彼らが開発した最先端のコンピュータビジョンシステムが、ペンとパッド程度の道具で騙されてしまうことを発見しました。ある物体の名前を書いて別の物体に貼り付けるだけで、ソフトウェアが見ているものを誤って認識してしまうのです。

「このような攻撃をタイポグラフィ攻撃と呼んでいます」とOpenAIの研究者はブログに書いています。

このような攻撃は、市販のマシンビジョンシステムを欺くことができる「敵対的画像」に似ていますが、作成方法ははるかに単純だと指摘しています。

例えば、Tesla社の自動運転車では、道路上に特定のステッカーを貼るだけで、ソフトウェアを騙して警告なしに車線変更させることができることが研究者によって示されています。

このような攻撃は、医療から軍事まで、さまざまなAIアプリケーションにとって深刻な脅威となっています。

しかし、今回の特定の攻撃がもたらす危険性は、少なくとも今のところ、心配する必要はありません。

問題となっているOpenAIソフトウェアは、CLIPという実験的なシステムであり、いかなる商用製品にも配備されていません。

CLIPは、画像とテキストのペアからなる巨大なデータベースを使って学習することで、AIシステムがどのようにして緊密な監視なしに物体の識別を学習するかを探ることを目的としています。

今回、OpenAIはインターネットから収集した約4億件の画像とテキストのペアを使ってCLIPの学習を行い、1月に公開しました。

そして今月、OpenAIの研究者たちは、CLIPを公開してその性能を確認したことを記した論文を発表しました。

その結果、彼らが「マルチモーダル・ニューロン」と呼んでいるものを発見しました。これは、機械学習ネットワークの個々のコンポーネントで、物体の画像だけでなく、スケッチや漫画、関連するテキストにも反応するというものです。

これは、人間の脳が刺激に対してどのように反応するかを反映していると考えられています。

OpenAIの研究によると、人間と同じように、AIシステムがこのような知識を内在化できる可能性があります。

将来的には、より高度なビジョンシステムにつながる可能性がありますが、現時点ではそのようなアプローチはまだ始まったばかりです。

人間であれば、りんごと、「りんご」と書かれた紙の違いを見分けることができますが、CLIPのようなソフトウェアではそれができません。

抽象的なレベルで言葉と画像を結びつける能力と同じ能力が、OpenAIが「抽象化の誤謬」と表現するこの独特の弱点を生み出しているのです。

研究室が示したもうひとつの例は、CLIPの貯金箱を識別するニューロンです。

これは、貯金箱の絵だけでなく、ドルマークの文字列にも反応するというものです。

例えばチェーンソーに「$$」の文字列を重ねると、あたかも近所の金物屋で半額になっているかのように、CLIPを騙してチェーンソーを貯金箱と認識させることができるということです。

さらに研究者たちは、CLIPのマルチモーダル・ニューロンが、インターネットからデータを調達する際に予想されるようなバイアスを正確にエンコードしていることも発見しました。

これは、Googleの画像認識システムで、人をゴリラとタグ付けしてしまった悪名高いエラーを再現しています。

これは、機械の知能が人間の知能とどれほど違うかを示す新たな例であり、AIに命を預ける前に、機械の知能を分解してその仕組みを理解することが必要な理由でもあるのです。