OpenAIが手掛けるDALL-Eは「言語による視覚的概念の操作」を可能にする

OpenAI の最新の作品は DALL-E です。「蝶ネクタイをした猫」から「チュチュを着た大根が犬を散歩させている」まで、知的に表現できるものなら何でもイラスト、写真、レンダリング、あるいはどんな方法でも作成してくれます。しかし、ストックフォトやイラストレーションの地位が脅かされるほどでは、まだ、ありません。

OpenAIが手掛けるDALL-E

GPT-3で研究者たちが作ったのは、プロンプトが与えられると、それが説明していることのもっともらしいバージョンを生成しようとするAIである。

つまり、「森の中で魔女を見つけた子供の話」と言えば、それを書こうとします。

そして、もう一度ボタンを押すと、また違った形でそれを書きます。さらに、もう一度ボタンを押すと、また違った形で書いてくれます。

これらの試みの中には、他のものよりもうまく書けるものもあれば、かろうじてまとまりのあるものもあれば、人間が書いたものとほとんど区別がつかないものもあります。

深刻な文法エラーを出力しないので、スタートアップや研究者が今模索しているように、様々なタスクに適しています。

DALL-E（DaliとWALL-Eを組み合わせたもの）は、このコンセプトをさらに一歩進めたものだ。

言語による視覚的概念の操作

テキストを画像に変換することは、AIエージェントによって何年も前から行われており、様々だが着実に成功を収めている。

この場合、エージェントはGPT-3とその基礎となる構造によって提供される言語理解とコンテキストを使用して、プロンプトにマッチするもっともらしい画像を作成する。

GPT-3は、言語が大規模なニューラルネットワークに様々なテキスト生成タスクを実行するように指示するために使用できることを示した。

画像GPTでは、同じタイプのニューラルネットワークを使って高忠実度の画像を生成できることは明確になった。

これらの知見を拡張して「言語による視覚的概念の操作」が手の届くところまで来ているといえます。

これが意味するのは、このタイプの画像生成器は、何をすべきかを指示するだけで、自然に操作できるということである。

もちろん、その内蔵を掘り下げて、色を表すトークンを見つけ、その経路を解読して、実際の脳のニューロンを刺激するように、それを活性化したり、変化させたりすることは可能だ。

しかし、スタッフのイラストレーターに赤ではなく青のものを作ってくれと頼むときは、そんなことはしないでしょう。

彼らは「赤い車」の代わりに「青い車」と言えば、それを理解してくれます。

DALL-Eもそうです。

DALL-Eはこのような指示を理解していて、真面目に失敗することはほとんどありませんが、100回、1000回の試みの中で最高のものを見ても、生成されるイメージの多くは少しずれていると言わざるを得ません。

OpenAI の投稿では、研究者は、システムがどのように同じアイデアのマイナーなバリエーションを行うように伝えることができるかの豊富なインタラクティブな例を与え、その結果はもっともらしく仕上がっています。

面白いことに、OpenAIのもう一つの新システムであるCLIPは、DALL-Eと連携して問題の画像を理解してランク付けするために使用されていましたが、技術的には少し難しくなっています。

将来的には、DALL-Eのようなモデルが、特定の作業プロセスや職業に対する経済的影響、モデルの出力におけるバイアスの可能性、そしてこの技術が暗示する長期的な倫理的課題などの社会問題とどのように関係しているかを分析する予定です。

まだ荒削りな予測ではあるが…

今のところ、GPT-3と同様に、この技術は驚くべきものですが、明確な予測をすることは困難です。

特筆すべきは、この技術が生成するもののほとんどが本当に「最終的な」ものとは思えないということです。

ざっと見ただけでも、あらゆる種類のAIのおかしさが見えてきますし、これらの荒削りな部分はそのうち無駄な部分がそぎ落とされるでしょうが、安全とは程遠いものです。

ただし、それはOpenAIの成果を損なうものではありません。

依然として非常に興味深く、パワフルな作品であり、同社の他のプロジェクトと同様に、近いうちにさらに素晴らしく、興味深いものに発展することは間違いないでしょう。