にわかには信じられなかったGeminiであるが、さっそくきな臭い話が流れてくる。
マルチモーダルAI「Gemini」の性能をアピールするGoogleの公式ムービーはフェイクだったという指摘 - GIGAZINE
・・・う〜ん。
How it’s Made: Interacting with Gemini through multimodal prompting - Google for Developers
実際、Google自身が舞台裏を明かしている。
1番の衝撃であった、動画からアヒル人形の素材を指摘する場面についての言及はないが、GIGAZINEでは嫌疑が示されている。
まあ、状況を見ると、これはコンセプトムービーだった、という感じではある。
動画・画像・音声・テキストなど複数の要素をリアルタイムに統合的に入力できる「マルチモーダル」という概念はAIの進化としては正当なものである。
それが一気に実現するのかと思っていたのだが、どうもニュアンス的には違うっぽい。
ChatGPTが現れたときに、文脈で質問やら文章の生成ができるという衝撃があったが、それをも超える概念が現れたことに期待が膨らんでいたのだが、まだ疑っていた方がいいみたいである。
ただ方向性は示されたので、今後の進展に期待したい。