視覚＋言語融合モデルはAI研究の未来と言えるか

大規模な言語モデルをトレーニングする際に、通常直面する課題は何でしょうか？

言語モデル・トレーニングの課題

Saharは以下のように答えています。

タスクに関連するデータが不足しています。例えば、レビューやツイートについては多くの優れたオープンソースのデータセットがありますが、文書処理についてはありません。Google Document AI、AWS Textract、Instabaseなど、ドキュメント・インテリジェンスのAPIを構築する商用企業がいまだに多いのはそのためです。

私が作っているDocumNetは、ImageNetに相当するものですが、文書のためのものです。十分なデータがあれば、過去10年間にコンピュータビジョンが実現したのと同じように、文書理解もコモディティ化できると信じています。

推論とトレーニングのコストが課題となっています。

独自の言語モデルをトレーニングし、ホストするにはかなりのコストがかかります。

OpenAIやHuggingFaceなどの言語モデル推論APIを使えば、これらのコストを回避することができますが、それには追加料金がかかります。

とはいえ、言語モデルの学習方法の効率化、豊富なデータの必要性の低下、クラウド事業者の値下げなどにより、今後3年間でこの2つのコストは大きく下がっていくと思います。

視覚＋言語とAI研究の未来

OpenAIは最近、DALL.EとCLIPをリリースしました。融合モデル（視覚＋言語）は、AI研究の未来と言えるだろうか。

この問にSaharは肯定的に捉えているようです。

最近では、生産現場でのAIアプリケーションのほとんどが垂直型であり、今では、狭い範囲のAIは、ある特定のタスクを行う場合でも、単に人間の知能と同等ではないということが共通認識となっています。

例えば、がんの早期発見（視覚）を目的としたSOTAの深層学習モデルは、電子カルテの患者さんのカルテ（文字）と組み合わせないと性能が制限されてしまいます。

この問題は、私が長年コンサルティングしてきた多くのAI企業や、Zeitgold社時代にも見られました。

例えば、人間のオペレーションエージェントが請求書の金額を抽出する際に、元の金額の隣にある手書きの訂正箇所を暗黙のうちに考慮していたため、手書きの方を抽出してしまっていたのです。これは、画像と文字の両方の入力を考慮したからこそ導き出せた結論です。

マルチモーダルシステムがAI研究で一般的でない主な理由は、データセットのバイアスを拾うことができないという欠点にあります。

この問題は、より多くのデータを利用することで解決できますが、そのデータはますます増えています。マルチモーダルアプリケーションは、視覚＋言語の文脈だけではありません。

ここ数年、Facebook社は、音声とテキストの両方を組み合わせた自動音声認識（ASR）の新しいアプローチについて、いくつかの論文を発表しています。