AIボイス・スプーフィングとは、AIが生成した合成音声を使って、実在する人物の声を本物そっくりにコピーし、だます行為のことです。攻撃者は経営者、マネージャー、サポート担当などになりすまし、送金させたり、認証情報を聞き出したり、機密性の高い処理を承認させたりします。
従来のフィッシングや「なりすまし電話」では、詐欺師本人が声を似せようとするしかありませんでした。今では、ポッドキャストやウェビナー、動画、オンライン会議の録音など、ほんの数十秒の音声があれば、攻撃者はターゲットの声をクローニングできます。一度声のモデルができてしまえば、AIツールがトーンや話し方、抑揚まで再現した音声を簡単に生成できます。
リモートワークやオンラインイベント、ウェブ会議が当たり前になったことで、「会社の声」はこれまで以上にネット上に出回っています。その結果、攻撃者は非常に本物らしいディープフェイク音声を作りやすくなり、特に「緊急」「上司からの指示」といった要素と組み合わさると、人間の疑いのハードルを簡単に超えてしまいます。
AIボイス・スプーフィングは、もはや一部の高度な攻撃ではありません。誰でも使えるレベルにまで下りてきた「量産可能な手口」です。オープンソースのモデルや商用の音声クローン・サービスにより、基本的なITスキルさえあれば、次のようなことが簡単にできてしまいます。
その結果生まれるのは、「声」を使った新しいソーシャルエンジニアリングです。メールなりすましが送信者の身元を簡単に偽装できるようにしたのと同じように、AIは「声」も簡単に偽装できるようにしました。
AIボイス攻撃は、基本的な流れは従来のソーシャルエンジニアリングと似ていますが、「信頼している人の声で話される」ため成功率が大幅に上がります。以下は、現実に起きているケースをもとにした典型的なシナリオです。
財務担当の社員が、表示上はCEOからの電話を受けます。聞こえてくる声も話し方も、普段のCEOとそっくりです。電話の相手は「極秘の取引が進行中で、今すぐ送金しないとチャンスを失う」と、もっともらしい理由をつけて急かします。
声もストーリーも本物に聞こえるため、担当者は通常の承認フローを飛ばしてしまうかもしれません。実際に、こうしたディープフェイク音声によって数十万ドル規模の被害が出たケースも報告されています。ある事例では、攻撃者がCEOの声を偽造して電話をかけ、約20万ドル超の送金をだまし取っています。
社内のITサービスデスクに、部門長そっくりの声から電話が入ります。「重要なプレゼン前にアカウントに入れなくなった。至急パスワードをリセットしてほしい」と、困っている様子で支援を求めてきます。
親切心から通常の確認プロセスを省いてしまうと、攻撃者に社内ネットワークへの入口を渡してしまうことになります。一度侵入を許すと、権限昇格やデータ窃取、さらなる攻撃の足がかりに悪用される可能性があります。
攻撃者は、ブランドの名前やロゴを使い、カスタマーサポート担当者の声をクローンして顧客やパートナーに電話をかけることもあります。「支払い情報の確認」「アカウント設定の変更」「確認用リンクをメールで送ったので開いてほしい」など、もっともらしい理由をつけて行動を促します。
企業側が一切関与していない場合でも、被害者の記憶には「○○社から電話が来てだまされた」という印象だけが残ります。結果としてブランドの信頼が損なわれ、正規のコミュニケーションに対する不信感につながります。
AIボイス・スプーフィングは、有名企業や上場企業だけの問題ではありません。リモートワークや分散チーム、電話・音声ベースのサポート窓口を持つ組織なら、規模を問わずターゲットになります。特に次のようなグループはリスクが高くなります。
日常的に「声=信頼のサイン」となっている環境ほど、ディープフェイク音声は強力な攻撃手段になります。
合成音声の品質はどんどん上がっていますが、攻撃者は最終的には人間の心理を突いてきます。従業員には、次のような兆候があったら必ず疑うよう教育する必要があります。
これらが組み合わさっているときは、内容がどれだけ「もっともらしく」聞こえても、必ず検証プロセスに切り替えるべきです。
攻撃者による「声のコピー」自体を止めることはできません。しかし、成功率を大きく下げることはできます。重要なのは、ポリシー、トレーニング、プロセスを組み合わせた防御です。
送金、アクセス権限、機密データなどに関わる行為は、必ず追加の確認ステップを要求するようルール化します。例:
これらのルールを社内で明確に共有し、「面倒でも確認するのが正しい対応」という文化をつくることが重要です。
電話が少しでも怪しいと感じたら、その場の会話を続けるのではなく、他のチャネルに切り替えるべきです。効果的な方法としては:
攻撃者は「声」は握っていても、これらすべてのチャネルを同時にコントロールできることはほとんどありません。
AIボイス詐欺が成功する理由の一つは、「1人の担当者」が高額の支払いなどを完結できてしまう体制にあります。組織としては次のような対策を検討すべきです。
こうしたプロセスは、AIボイス・スプーフィングだけでなく、内部不正や他の詐欺リスクも同時に下げてくれます。
多くの企業が、すでにフィッシングメール対策のトレーニングを実施しています。同じ枠組みの中に、「音声なりすまし」も組み込むべきです。例えば:
すでにメールのフィッシング教育があるのであれば、それを拡張する形で音声チャネルに関する内容も加えると自然です。
詳しくは次のガイドも参考になります:
音声による攻撃は、多くの場合メールと組み合わされて使われます。組み合わせることで、騙しのストーリーに「一貫性」と「説得力」が生まれるからです。例えば:
音声そのものには認証の仕組みがありませんが、メールにはあります。ここで重要になるのが、SPF・DKIM・DMARCといったメール認証標準です。
まだSPF、DKIM、DMARCを導入していない場合は、次のガイドを参考にしてください。
AIボイス・スプーフィングによって新しい攻撃チャネルが増えましたが、実際に詐欺を完結させる場は依然として「メール」であることがほとんどです。ディープフェイク電話の多くは、最終的に「怪しいメールに従わせる」ための前振りとして使われます。
DMARCeyeは、こうしたリスクに対抗するためのメール側の防御力を高めるツールです。DMARCレポートを自動で収集・可視化し、次のようなことを可能にします。
DMARCを適切に実施していれば、「偽の電話のあとに届く偽メール」が届きにくくなります。つまり、音声+メールの複合的ななりすましキャンペーン全体の成功率を下げることができるのです。
今すぐDMARCeyeの無料トライアルを開始して、メールドメインの保護を始めましょう。
メール以外のチャネルも含めた「なりすまし」全体の基礎を学びたい方は、なりすましとは?メール詐欺の基礎知識と防止方法もあわせてご覧ください。