2024.05.10 2024.06.03

画像生成AIの意外な苦手分野：AIができない13のリスト

hitsuji

AIの画像生成技術は、日々進化していますが、まだまだ苦手な分野も多く存在します。

この記事では、画像生成AI（DALL-E）の苦手分野を取り上げ、13の具体的な例を通じて掘り下げていきます。

プロンプトの意図を完全に捉えることができない理由と、その背後にある技術的な壁について解説し、AIの現在の能力とその将来の可能性について考察します。

画像生成AIの意外な苦手分野：AIができない13のリスト

1. 細かい指示の再現

画像生成AIは、特定の細かい表情や複雑な手のポーズなど、詳細な指示を完璧に再現するのに苦労します。非常に具体的なプロンプトであっても、AIがそれを完全に理解し再現することは難しいのが現状です。

特に、「右手の指を腰あたりで3本立たせて、左手の指4本で左頬を触っているイラスト」など、数を指定するプロンプトは再現されにくいですが、下記のようにざっくりとしたプロンプトなら通ります

例：「高度なエモーショナルな表情を持つ、幻想的なエルフの女性が複雑な手のポーズをとっている、ディテール豊かなファンタジーシーン」

2. 複数の感情が組み合わさった表情

複雑な感情を持つ表情を正確に描写することは、AIにとって挑戦的です。喜びと同時に感じる寂しさなど、これらの感情の微妙なニュアンスをキャプチャするのは技術的に難しい問題です。

例：「同時に喜びと悲しみを表現してい男性の複雑な表情のポートレート」

3. 文化的なニュアンスや細かい歴史的背景

特定の文化や歴史的背景を持つ場面や人物を正確に表現することは、深い理解と知識が必要であり、AIにはこれが難しいです。

これは、文化や歴史に対する詳細な洞察が不可欠だからです。雰囲気は生成されますが、正確ではありません。

例：「江戸時代の日本の市場で活動する人々の詳細な日常生活の描写」

4. リアルな人物の正確な再現

実在の人物をその特徴通りに再現することも、AIには困難です。これは技術的な問題に加え、著作権の問題も関係しています。ただし、歴史上の人物なら可能なこともあります。

例：「有名な歴史的人物、アインシュタインが現代のカフェでコーヒーを飲んでいるシーン」

5. 複雑な構図や多数のオブジェクト

複雑なシーンや多数の人物が登場する画像では、要素同士の正確な配置や相互作用を表現することが難しいです。空間認識の正確さが求められるため、AIはこの点でしばしば苦労します。

例：「大規模な歴史的戦場シーンで、数百人の兵士が戦っている詳細な描写」

6. 細かいテキストの正確な再現

画像内に特定のテキストを含める指示を与えた場合、AIはテキストを正しく、読みやすく再現することが難しいです。テキストがぼやけたり、誤った文字が生成されることがあります。

ただし、最近は特定の文字が入った看板などが描ける画像生成AIも登場しているので、克服される日は近いでしょう。

例：「古代マヤ文明の遺跡に刻まれた複雑な象形文字を含む遺跡の詳細な描写」

7. 透明性や反射などの複雑な光の効果

透明な物体や光の反射、複雑な陰影をリアルに再現することは、AIにとって非常に困難です。これらの効果は視覚的に複雑で、高度な理解が必要です。

例：「クリスタルガラス製の花瓶に反射する朝日の複雑な光の効果」

8. 動物の正確な解剖学的特徴

特定の動物の解剖学的特徴を正確に再現するのはAIにとって難しいです。珍しい種や複雑な体のポーズを持つ動物の場合、体の比率や特徴が不自然に見えることがあります。

例：「飛び跳ねるチーターの詳細な筋肉の動きと毛皮のテクスチャー」

9. 複数の視点を含むシーンの生成

異なる視点からのシーンを一つの画像にまとめる際、AIは適切な視点や相互関係を維持するのに苦労します。これは、空間的な深さや遠近法の適切な表現を必要とします。

例：「空から見下ろす角度と通りを歩く人々の視点を同時に捉えた市場の活動的なシーン」

10. 特定の風景の正確な再現

特定の地理的場所や有名な風景を詳細に再現することは、AIにとって難しいです。その場所の特徴的な要素や気候条件などを正確に表現することができず、似たような風景になってしまいます。

例：「春の京都の哲学の道を正確に描いた、桜の木々が並ぶ風景」

11. 異なる文化的アイテムの組み合わせ

異なる文化的背景を持つアイテムや衣装を一つの画像内で適切に組み合わせることは、AIにとって難しい課題です。文化間の細かい違いや文脈を正確に捉えることができれば、精度が向上する可能性はあります。

例：「インドのサリーと日本の着物を組み合わせた新しいファッションスタイルの提案」

12. 時間的な進行を表すシーン

時間が経過する様子を表現するシーン（例えば、日の出から日没までの風景の変化）を生成することは、AIにとって特に難しいです。これは、時間の流れとそれに伴う環境の変化を一枚の画像に表現することが本質的に困難です。

例：「一日のうちに四季が変わる幻想的な森の描写」

13. 実際の物理法則に反したシーン

物理法則を無視したシーン（例えば、空中に浮かぶ車や逆さまの建物など）を生成する際、AIはこれらの不自然な要素をリアリスティックに統合するのが苦手です。現実世界の物理的な制約に基づいて学習されるため、非現実的なシナリオの表現には限界があります。

このことを「バイアスセット」と言います。生成される画像は学習データに基づくため、たとえば「看護師を描いて」と送信すると、女性が描かれてしまうことが多く、差別の観点からもAIが克服すべき点として問題になっています。

例：「空中に浮かぶ車と逆さまの建物」（「全ての車を浮かせて」と指示しても、地面に走っている車と空中に浮いている車が両方描かれてしまいます。）

今後もAIが苦手なリストは減っていく

本記事では、AIが苦手とする13の分野を明らかにしました。この記事を書いてから、2つのリストを削除しています。画像生成AIは、凄まじい速度で日々進化を遂げていることが分かります。

しかしながら、その能力には依然として限界が存在します。とくに難しい点は「正確」であるということでしょう。また、著作権問題や法整備など、人間側が克服すべき問題もたくさんあります。

より柔軟で洗練された画像生成AIが実現すれば、私たちの生活や文化への貢献がますます大きくなると考えられます。まずは現在浮かび上がっている課題に挑戦していくことが、画像生成技術の進歩において不可欠です。

ABOUT ME

記事URLをコピーしました