【画像生成AI】Whiskとは？プロンプト不要の「混ぜる」画像生成AIを徹底レビュー

引用元：https://blog.google/intl/ja-jp/company-news/technology/whisk/

2025/12/11

皆さんは画像生成AIを使用していますか？
その中で以下のようなことを思ったことはありませんか？

「欲しい画像に近づけるために、長いプロンプトを書くのが面倒...」
「『プロンプトエンジニアリング』を頑張っているのに、なかなか思った通りの構図にならない...」

そんな悩みを抱えている方に朗報です！
Google Labsでひっそりと公開されている実験ツール「Whisk」が、これまでの画像生成の常識を覆そうとしています。

今回は、「言葉」ではなく「画像」を組み合わせて新しい画像を錬成する、新感覚のツール「Whisk」をご紹介します。

Whiskとは?

Whiskの使い方は驚くほどシンプルです。画面にはテキスト入力欄の代わりに、3つの画像をセットするスロットがあるだけです。

ここに画像をドラッグ＆ドロップすると、AIがそれぞれの要素を抽出して「ブレンド」してくれます。

たったこれだけです。
これだけで、例えば「うちの猫」が「宇宙船にいて」「ドット絵風」の画像を作成することができます。

これらの素材となる画像は自分の持っている画像でも、その場でプロンプトから生成することも可能です。

なぜ画像を置くだけで、こちらの意図が伝わるのでしょうか。
実はこの裏側では、Googleの最新モデル「Gemini」と「Imagen 4」が連携しています。

つまり、私たちが一生懸命プロンプトを書かなくても、AIが私たちの代わりに画像を読み取って、超高精度のプロンプトを裏で書いてくれているようなものです。これがWhiskの「直感的な操作」の正体です。

今回は「猫が宇宙でお昼寝をしているドット絵」の作成を目指しました。

まずは画面左側のサイドバーを開き、「テキストを入力」から素材となる画像をそれぞれ生成しました。
使用したプロンプトは以下のとおりです。

▲生成プロンプト「家の床の上でお昼寝をしている猫」

▲生成プロンプト「宇宙」

▲生成プロンプト「ドット絵の景色」

これで、「猫(モデル)」「宇宙(背景)」「ドット絵(スタイル)」にしました。

これら3つの画像をスロットにセットして生成ボタンを押しました。追加のプロンプトは入力していません。
結果は以下の通りです。

いかがでしょうか。当初の目標である「猫が宇宙でお昼寝をしているドット絵」が一発で作成できました。

次にスタイルを変更しました。
使用したプロンプトは以下の通りです。

▲生成プロンプト「浮世絵」

この浮世絵をスタイルとして追加して生成した結果がこちらです。

先ほどのものと変わらない構成で、浮世絵のようになりました。

モデルは2つまで追加できるので、以下の画像をモデルとして追加して合計4枚で生成してみました。

▲生成プロンプト「鉢に植えられたサボテン」

このサボテンをモデルとして追加して生成した結果がこちらです。

先ほどの画像の世界観を崩さず、自然にサボテンが登場しました。
このように「後から要素を足す」という修正も、画像をポンと置くだけで簡単に行えます。

生成した画像の左上に「アニメーション化」という機能があったので試してみました。
以下は「猫が起きる様子」というプロンプトを指定して動かしてみたものです。

Whiskの直感的な操作性と高い表現力は、個人の創作活動だけでなく、ビジネスシーンにおいても大きな可能性を秘めています。具体的には、以下のような場面での活用が期待できます。

現在、多くの画像生成AIが登場していますが、Whiskはそれらとどのように異なるのでしょうか。主要な生成AIツールと比較した際の特徴をまとめました。

ツール名	特徴・強み	Whiskとの違い
Midjourney / DALL·E	強力なテキストプロンプト中心の生成で細かな指示が得意。	Whiskは「画像を置くだけ」で意図を伝えられるため、非言語的なニュアンス共有に強みがあります。
Adobe Firefly	商用利用向けの権利クリアが特徴。	Whiskは研究ラボ発の実験的ツールで、現状はラボ利用前提だが直感的なUIで試行錯誤の速度が速いです。
Stable Diffusion系	ローカル実行やモデル改変でカスタマイズ性は高いものの、チューニングやプロンプト設計が必要。	Whiskはモデル・背景・スタイルの3スロットでセットアップが完了し、学習コストが低いです。