CFO Deepfake (深度伪造 CFO):价值 2500 万美元的视频通话骗局

执行摘要:我们过去常说“眼见为实”。AI 已经杀死了这条规则。本文分析了 2500 万美元的香港 Deepfake 劫案,并为加密团队建立了新的“真人证明”协议。
免责声明:本文引用 2024 年香港 Arup 案件仅用于教育目的。
Midjourney 提示词 (Prompts)
/imagine prompt: A Zoom call grid, one face is glitching into digital polygons, the others are stoic and identical, "AI Impersonation" --ar 16:9/imagine prompt: A holographic mask floating in front of a hacker's face, the mask looks like a corporate executive, "Deepfake Identity" --ar 16:9/imagine prompt: Two people touching their noses simultaneously on a video call, a green "Verified" checkmark appears, "Challenge Protocol" --ar 16:9
1. 劫案:一屋子的假人
2024 年初,香港一家跨国公司的一名财务人员收到了 CFO 的消息:为一项保密收购转移 2500 万美元。
这名员工很怀疑。这是一笔巨款。
因此,他们要求进行视频通话。
通话中:
员工加入了一个 Zoom 会议。他看到了 CFO。他看到了其他认识的同事。他们看起来很真实。声音听起来也很真实。他们讨论了这笔交易。
员工进行了转账。
反转:
除了受害者,那通电话里的每一个人都是 AI 深度伪造 (Deepfake)。骗子利用高管的公开视频素材,训练了能够实时模仿他们的模型。

2. 为什么语音克隆对加密领域很危险
在加密领域,我们经常依赖“语音确认”来进行大额场外交易 (OTC) 或多签 (Multisig) 签名。
像 ElevenLabs 这样的工具只需 30 秒的音频就能克隆一个人的声音。
- 场景: 你收到联合创始人发来的 Telegram 语音消息:“嘿,我把 Ledger 弄丢了。你能签署多签交易把资金转移到备用钱包吗?”
- 声音听起来一模一样。有他们的语调,他们的口头禅。
- 如果你签了,资金就没了。

3. “恐怖谷” (Uncanny Valley) 已不复存在
现代实时 Deepfake(如香港案件中提到的那些)可以处理:
- 口型同步(嘴部动作与音频匹配)。
- 头部运动和眨眼。
- 光线变化。
你不能再依赖“寻找故障 (Glitches)”了。技术发展太快了。
4. 解决方案:挑战协议 (Challenge Protocols)
如果你不能相信你的眼睛或耳朵,你必须相信 逻辑 和 密码学。
“物理挑战” (The Physical Challenge)
AI 难以实时处理复杂、特定的肢体互动。
如果你在通话中感到怀疑,请让对方:
- “把头完全转向左边,然后摸你的右耳。”
- “把手在脸前慢慢挥过。” (这通常会破坏 AI 的面具滤镜)。

“带外验证” (Out-of-Band Verify)
永远不要在接收请求的同一渠道上验证请求。
- 如果请求来自 Zoom,请通过 Signal 文字验证。
- 如果请求来自 Telegram,请拨打他们的 电话。
注意: 即使你的电话也可能通过 SIM 卡交换受到攻击。在信任通话之前,确保你已经 消灭短信验证 并切换到硬件密钥。
“安全词” (The Safe Word)
与你的联合创始人和家人建立一个“胁迫代码”或“安全词”。
这是一个你在正常对话中绝不会使用的词。如果索要钱财的语音消息没有包含这个词,那就是假的。
结论
“数字信任”的时代已经结束。我们正在进入 零信任 (Zero Trust) 时代。无论是 2500 万美元的企业转账还是 5000 美元的加密交易,在执行 交易 之前先验证 人。
