数時間、Openaiは、ChatGPTを介して画像を直接生成および変更できるマルチモーダルモデルであるGPT-4Oの新しいバージョンを展開しています。無料でアクセスしやすいこのアップデートでは、詳細なビジュアルと正確な統合テキストを約束します。 Xai Grokモデルと比較して、それが本当に価値があるものを確認しました。

OpenaiGPT-4Oモデルを介して画像の生成を統合することにより、重要なChatGPTアップデートを起動しました。彼が置き換えたDall-E 3とは異なり、GPT-4Oは、無料プランのものを含むすべてのChATGPTユーザーが1日3つの画像の制限で利用できます。より多くの、プロ、チームレベルの加入者は、より集中的な使用のために高い割当を持っています。
この新しいモデルは、テキストと画像を一貫した方法で組み合わせるように設計されています。 GPT-4oは、画像を一度に生成する古典的な拡散技術を使用する代わりに、自己回帰アプローチを採用し、ビジュアルを徐々に構築します。これにより、特に単語を表示するパネルや標識に役立つテキストレンダリングを詳細に改善し、テキストレンダリングを改善できます。
Shutterstockなどの公開データと私的パートナーシップに向けられたGPT-4oは、より現実的でより一貫した画像を提供しようとしています。Openaiは、C2PAメタデータを統合してAIによって生成された画像を識別することにより、モデルのセキュリティを強化したと主張しています。不適切なコンテンツ、特に実際の人々が関与するコンテンツを避けるための措置も実施されています。

機能と統合
GPT-4Oは、固定画像とマルチメディアコンテンツの作成の両方にモデルを使用できるOpenaiビデオ生成ツールであるSoraに統合されます。Openaiはまた、モデルが精度を失うことなく、最大20の異なるオブジェクトを含む複雑な要求を処理できることを示しています。
このツールは、テキストをその前身よりも画像に統合することをより適切に作成することになっています。また、GPT-4oはロゴやステッカーの透明な画像を生成できるだけでなく、ユーザーがダウンロードした画像からも機能することにも注意してください。

Xai Grokとの比較
GPT-4Oをテストするために、モデルと比較しましたグロック画像生成の質で有名なXaiから、その不完全なテキスト管理について批判されています。2つのモデルのパフォーマンスを評価するために、3つのプロンプトが使用されました。
プロンプト1:彼がCuckoo Vive Mac4everを書いた手に看板を持つ女性の画像を私に生成してください。


プロンプト2:Mac4ever Shopと呼ばれるブランドのある店舗を含む、店のあるスコットランドタイプのストリートの写真を私に生成してください。


プロンプト3:水着を着たビーチで若い女性の写真を粉砕してください。


各モデルによって生成された画像は、一般的に非常に優れており、特にテキストのビジュアルへの統合の品質において。GPT-4Oは、テキストのレンダリングのより良い一貫性を表示する場合がありますが、いずれにしても非常に良いと思われます。

制限と可能性
GPT-4oにはまだいくつかの障害があります。このツールは、非常に詳細なリクエストを管理したり、特定の画像部分、特に顔や多言語テキストを正確に編集するのに苦労しています。そうであるように、結果は一般に、前世代で得られた結果よりも一貫性があります。
セキュリティの観点から、Openaiは、強化フィルターが不適切なコンテンツ、特にヌードやグラフィックの暴力を含むコンテンツをブロックするために整っていることを示しています。生成された画像は、メタデータによって自動的にマークされ、その起源を確認します。
したがって、Openaiは、この新機能を使用して、GPT-4Oを画像生成の最高のモデルと競合できるマルチモーダルツールとして配置します。画像へのテキストの統合はより正確であり、テクノロジーは複雑な要求を扱うことができ、ある程度の成功を収めます。