Google は、Google Labs を通じてテストされた新しい AI ツール Whisk を発表しました。従来の画像ジェネレーターとは異なり、Whisk はテキストによる説明だけに依存しません。ここでは、独自の画像が、独自のビジュアルを生成するためのプロンプトとして機能します。複数のビジュアルを追加して主題、シーン、スタイルを定義すれば、あとは AI に任せることができます。

どのように機能するのでしょうか?
背後にあるアイデア泡立てるは明らかです。仕事が楽になります。延々とプロンプトを書く必要はありません。ビジュアルをインポートするだけ、または提案されたビジュアルを使用することもできます。グーグル。必要に応じて、テキストを少し追加して結果を調整することもできますが、これは必須ではありません。画像が生成されたら、プロンプトや詳細を調整して編集することができます。
使用されている技術
Whisk は、Google の 2 つのテクノロジー、Gemini と Imagen 3 を使用しています。ジェミニAI 言語モデルである画像を分析し、テキスト形式で詳細な説明を生成します。これらの記述は画像生成モデルである Imagen 3 に渡され、この情報に基づいてビジュアルが生成されます。ただし、Whisk は正確なイメージを再現するわけではないことに注意してください。彼はそこからインスピレーションを得て、その本質を捉えた作品を生み出します。テストの結果、私は自分の写真を使用したことが確認されましたが、最終的には結果には実際の私は含まれていませんでした。

具体例
具体的には、猫の写真、ビーチの風景、漫画風のイラストをアップロードすると、この3要素をイメージしたビジュアルが得られます。椅子、自分の写真、雲を使ってテストしてみたところ、たとえこのようなビジュアルで何ができるかはよくわかりませんでしたが、かなり一貫したものが得られました。

制作のためのツールではなく、実験のためのツール
Google自身もこう言っています:Whiskは、すぐに使える最終的な作品ではなく、迅速なブレインストーミングのために設計されています。生成されたビジュアルには精度やロジックが欠けている可能性があります。何よりも、アイデアをテストしたり、スタイルを探索したり、「生の」ビジュアルを数秒で作成したりできるツールです。
機能の面では、インターフェースはステッカー、エナメルピン、プラッシュの 3 つの事前定義されたスタイルを提供します。詳細モードでは、テキストをさらに追加して結果を調整できます。現時点では、可能性は限られたままですが、これが実験であることを考えると当然のことです。
泡立てる現時点では米国内で Google Labs 経由でのみアクセスできますが、ご使用の環境では問題なく動作します。VPN通常の Google アカウント(フランスで作成されたものであっても)。このツールは無料で、ユーザーは自分の作品を直接アップロードできます。Google は、Whisk を改良し、将来的には機能を拡張するために最初のフィードバックを期待しています。