ニューラルネットワーク CLIP 自然言語による監視から視覚的な概念を効率的に学習

イーロン・マスク氏が設立したスタートアップOpenAIは、人工知能システムの中にマルチモーダル・ニューロンを発見しました。この人工ニューロンは、人間の脳の一部のニューロンと同様の働きをします。

OpenAIが手掛けるニューラルネットワーク CLIP

人間の脳には、特定の視覚的特徴ではなく、共通の高度なテーマを中心とした抽象的な概念のクラスターに反応するマルチモーダル・ニューロンが存在することが発見されてから15年。

それを受けての今回の発見は感慨深いですね。

最も有名なのは「Halle Berry」ニューロンで、写真、スケッチ、「Halle Berry」という文字には反応するが、他の名前には反応しない。

2ヶ月前、OpenAIは、自然言語による監視から視覚的な概念を効率的に学習するCLIPというニューラルネットワークを発表した。

CLIPは、認識したい視覚的カテゴリーの名前を指定するだけで、あらゆる視覚的分類のベンチマークに適用することができます。

CLIPは、スケッチや漫画、さらには物体の彫像など、抽象的な文脈の中で、人や物体を認識するように学習されています。

今回、OpenAIの研究者は、CLIPにマルチモーダル・ニューロンが存在することを発見し、新しい論文を発表しました。

例えば、”スパイダーマン “ニューロン（”ハル・ベリー “ニューロンに酷似）は、クモの画像、”spider “という文字の画像、コスチュームやイラストを着た漫画のキャラクター “スパイダーマン “の画像に反応します。

Open AI社は金曜日のブログで、「CLIPにおけるマルチモーダル・ニューロンの発見は、合成視覚システムと自然界の視覚システムに共通するメカニズムである “抽象化 “についての手がかりを与えてくれます。我々は、CLIPの最上層が画像をアイデアの緩やかな意味的集合体として整理していることを発見し、モデルの多様性と表現のコンパクトさの両方を簡単に説明することができました。」と述べています。