グロックは目を(またはほとんど)見ます

grok ia -xai Company of Elon Musk-によって開発された - 新機能Grok Visionと呼ばれます。 2025年4月23日に明らかにされたこのテクノロジーにより、AIは、リアルタイムでインストールされている電話で電話で撮影された画像を分析できます。 Openaiが既にChatGptライブカメラやGemini LiveでGoogleで提供しているように。

Grok xAI Elon Musk

世界をリアルタイムで見る(そしてコメントする)AI

Xの後退式で、XaiはGrok Visionを提示しました。この関数により、スマートフォンのカメラを介してオブジェクト、シーン、テキスト、または日常的な要素を認識できるようになりました。単に環境を撮影することで、ユーザーはGROKライブ情報を尋ねることができます。パネル、製品、ドキュメント、さらには風景でもあります。

たとえば、ユーザーは、AIと口頭でチャットしながら、リアルタイムで自分の庭を説明するようにGrokに依頼しました。ちなみに、Grok Voiceも改善されています:アシスタントは、XaiのエンジニアであるEbby Amirによって確認されたように、フランス語、スペイン語、トルコ語、日本語、ヒンディー語を含むいくつかの言語で声を出すことができます。

iPhoneでのみ…今のところ

Grok Visionは現在、iOSでのみ利用可能です。機能性は現在、特定の市場に制限されていますが、おそらく規制上の考慮事項(特に視覚データの保護にリンクされています)。 Xaiは、Androidまたはヨーロッパでの展開の可能性の日付をまだ指定していません。

競合他社のように、Xaiは、ユーザーとAIの間の流体マルチモーダル相互作用に依存しています。ここのカメラは、マイクやキーボードのように、新しい知覚チャネルになります。

ChatGptとGeminiをリコールする関数

グロークビジョンは革命ではなく、他の人はすでに道を開いています。Openaiは2024年12月にChatGptのライブカメラに参加し、Googleは2025年3月以来有料加入者にGemini Liveを提供しています。これらのAIは、文脈的な会話を維持しながら、ライブで撮影されたシーンを解釈することもできます。

違いは、最初のデモンストレーションによると、対話の流動性と視覚分析の速度について演じています。 Xaiは、ユーザーの日々のニーズにより適応することになっている、よりパーソナライズされたアプローチを主張しています。この関数は、テキストの単純な復号化から複雑なシーンの分析まで、広いスペクトルを掃引します。いずれにせよ、Xaiは、ユーザーの物理的な世界を見、理解し、対話することができる、彼のアシスタントを本物のデジタルコンパニオンにしたいという彼の欲求を確認します