阿隆自留地

hacknews-daily

一个 Shodan IP 揭开了 OpenAI 与美国政府的身份监控基础设施

文章摘要

2026 年初,安全研究人员 vmfunc、MDL 和 Dziurwa 公开了一份调查报告,起点是 Shodan 上的一个普通 IP 地址:34.49.93.177

这个 IP 解析到 openai-watchlistdb.withpersona.com,托管在 Google Cloud Platform 的独立非 Cloudflare 基础设施上。Certificate Transparency(CT)日志显示,这个子域名自 2023 年 11 月 起就在运行——整整比 OpenAI 公开披露身份核查服务早了 18 个月。

更戏剧性的是,研究人员通过 Persona 政府端点 withpersona-gov.com/vite-dev/ 路径,发现了 53MB 未经保护的 TypeScript 源码映射文件(source maps),包含 2456 个独立源文件,几乎是完整的前端代码库。

这些源码揭示的内容,远超一般意义上的身份核查(KYC):SAR/FinCEN 可疑活动申报(含完整工作流和"发送至 FinCEN"按钮)、FINTRAC 情报项目代号(Project Anton、Athena、Chameleon、Guardian、Legion、Protect、Shadow)、人脸识别黑名单(ListFace,3 年数据留存)、13 种追踪名单类型、政治敏感人士(PEP)筛查,以及 api.openai.com 出现在 Content Security Policy(CSP)头部——正式确认 OpenAI API 被集成在政府监控流程中。


背景与问题

要理解这份报告的重量,需要先了解 Persona 是谁,以及它在 OpenAI 的身份核查生态中扮演什么角色。

Persona(withpersona.com)是一家成立于 2018 年的 KYC/AML(了解客户/反洗钱)服务商,由 Peter Thiel 旗下 Founders Fund 支持,客户包括 OpenAI、Lyft、Lime、Roblox 和 Discord 等科技公司。按公司自己的说法,其平台每月为"数百万用户"提供服务。

OpenAI 在最近一年内开始推行账号真实身份核查,理由是防止 API 滥用、遵守金融监管和出口控制法规。从表面上看,这是一种合规措施,与许多 B2B SaaS 公司的操作类似。

但研究人员发现的基础设施规模,和"普通合规措施"之间存在显著的张力。

首先,openai-watchlistdb.withpersona.com 这个子域名中的 watchlistdb(监控名单数据库)一词,已经明确超出了普通身份核查的范畴。其次,该服务在公开披露前 18 个月就开始运行,且使用了专用、非 Cloudflare 保护的 GCP 基础设施——这种配置选择,与需要尽量屏蔽外部曝光的敏感服务使用场景吻合。

随着源码分析深入,一个完整的政府级监控基础设施轮廓逐渐清晰。


核心内容解析

3.1 核心观点提取

CT 日志与基础设施时间线

研究人员使用 Certificate Transparency 日志追踪了 Persona 与 OpenAI 相关服务的建立时间:

  • openai-watchlistdb.withpersona.com:最初 TLS 证书签发于 2023 年 11 月
  • openai-watchlistdb-testing.withpersona.com:存在独立测试环境
  • onyx.withpersona-gov.com:出现于 2026 年 2 月 4 日——研究发布前 3 周
  • withpersona-gov.com FedRAMP 授权时间:2025 年 10 月 7 日(Low Impact 级别)

18 个月的秘密运行期,意味着超过 1.5 年时间里,外界对这套系统的存在一无所知。

ONYX:命名之争

onyx.withpersona-gov.com 的出现触发了研究人员的特别关注:美国移民和海关执法局(ICE)曾通过 Fivecast 公司签署了一份 420 万美元的合同,用于部署名为 ONYX 的 AI 监控系统,用于追踪移民相关情报。

同名并非巧合——Persona CEO Rick Song 在研究人员的 18 个问题中正式回应称:他们的 ONYX 产品"是以神奇宝贝 Onix(石英怪)命名的",否认与 ICE 的 Fivecast ONYX 存在关联。

这个回应在技术社区引发了截然不同的反应:有人认为同名确实可能是巧合,有人则认为在这个背景下声称"是宝可梦"是一种辩解弹幕而非实质性澄清。

53MB 源码映射文件:FedRAMP 的一次严重合规失败

技术上,研究人员发现源码的路径是 /vite-dev/——这是 Vite(现代前端构建工具)在开发模式下暴露的调试路径,包含完整的未压缩 TypeScript 源码映射文件。

在一个已获得 FedRAMP Low Impact 认证的政府端点上,暴露未混淆的生产代码库,是一次明确的安全合规失败。FedRAMP 的 NIST SP 800-53 控制框架明确要求对代码和配置信息进行访问控制和最小权限原则(Least Privilege)保护。

Persona CEO 的回应是:源码映射"不是漏洞",只是未压缩的前端代码,不影响系统安全性。从最狭义的信息安全定义来说("有人能入侵系统吗?"),这个说法有一定道理;但从 FedRAMP 合规的角度,这明显是合规失败——因为 FedRAMP 的要求不只是"不被黑",还包括"不暴露不必要的系统信息"。

3.2 技术深度分析

源码揭示的功能清单

研究人员通过分析 2456 个 TypeScript 源文件,提取出了以下关键功能的证据:

1. SAR/FinCEN 可疑活动申报

Platform 中存在完整的 SAR(Suspicious Activity Report)工作流,包括一个"Send to FinCEN"(发送至美国财政部金融情报网络)的操作按钮,对应美国《银行保密法》(BSA)下的合规申报义务。

这本身是合法的金融合规功能,但它存在于一个身份核查平台中意味着:Persona 不只是在"验证你是谁",还在评估你是否需要被申报给联邦情报机构。

2. FINTRAC 情报项目代号

代码中发现了加拿大金融情报监测与分析中心(FINTRAC)的 STR(Suspicious Transaction Report)申报功能,以及 7 个 FINTRAC 情报项目内部代号:

enum FintracProgramCode {
  PROJECT_ANTON = "FINTRAC_ANTON",
  PROJECT_ATHENA = "FINTRAC_ATHENA",
  PROJECT_CHAMELEON = "FINTRAC_CHAMELEON",
  PROJECT_GUARDIAN = "FINTRAC_GUARDIAN",
  PROJECT_LEGION = "FINTRAC_LEGION",
  PROJECT_PROTECT = "FINTRAC_PROTECT",
  PROJECT_SHADOW = "FINTRAC_SHADOW",
}

这些代号是 FINTRAC 的真实情报项目标识符(Project GUARDIAN 是已公开的打击有组织犯罪融资项目),它们出现在 Persona 的代码中,意味着 Persona 的平台直接与 FINTRAC 的情报分析系统对接。

3. 人脸识别黑名单(ListFace)

代码中定义了 13 种追踪名单类型,其中 ListFace 对应基于生物特征(面部图像)的黑名单系统,注释标注保留时间为 3 年(biometric_retention: "3_years")。

这意味着对于被加入 ListFace 名单的用户,Persona 系统将在 3 年内保留其面部生物特征数据,用于后续比对。这与欧盟 GDPR 的生物特征数据"最小化存储"原则存在直接张力。

4. OpenAI API 在 CSP 中出现

在政府端点的 HTTP 响应头 Content-Security-Policy 中,api.openai.com 被列在允许的外部资源域名中:

Content-Security-Policy: connect-src ... api.openai.com ...

这正式确认了 OpenAI 的 API 被集成在 Persona 政府版监控流程中——不只是 OpenAI 以 Persona 为 KYC 供应商,而是 OpenAI 的大模型能力也被反向注入到针对 OpenAI 用户的身份审查流程里,形成了一个闭环。

5. FingerprintJS 与行为追踪

代码中使用了 FingerprintJS Pro(浏览器指纹识别库)、DataDog RUM(真实用户监控)和 Amplitude(用户行为分析)。这些工具的组合意味着在完成身份核查的过程中,用户的设备指纹、浏览行为和交互方式也被同步收集,远超"验证文件真伪"的范围。

3.3 实践应用场景

从安全研究方法论的角度看,这次发现展示了几个可复用的 OSINT(开源情报)技巧:

Certificate Transparency 日志追踪:CT 日志(crt.sh 等)是发现隐藏子域名和服务时间线的强力工具。任何 HTTPS 证书签发都会被 CT 日志记录,且无法删除。研究人员就是通过 CT 日志确定了 openai-watchlistdb 服务"秘密运行 18 个月"这一事实。

Shodan 反向查询:Shodan 允许按 IP 组织、IP 网段、SSL 证书 CN 等维度查询服务器,能发现那些没有公开 DNS 但仍然对外开放服务的系统。Persona 的 watchlist 数据库没有出现在任何公开文档中,但 Shodan 在扫描时记录了它的存在。

前端路径猜测/vite-dev/ 是 Vite 开发服务器的默认暴露路径。如果一个生产站点意外地保留了这个路径,就相当于暴露了完整的开发时源文件树。对任何安全研究人员来说,这是一个值得在已知服务上系统性检查的低果实(low-hanging fruit)。


深度分析与思考

4.1 文章价值与意义

这份报告的价值,正在于它让一个通常只存在于政策讨论层面的抽象问题——"AI 公司是否在参与政府监控"——变成了带有时间戳、域名记录和 TypeScript 枚举值的具体现实。

研究人员明确声明:他们没有入侵任何系统,所有发现都来自公开可访问的信息源。这是一次经典的安全研究展示:通过观察公开暴露的信息,构建一个系统内部运作方式的完整图景,并将结果负责任地披露。

在这个意义上,真正的问题不是"有没有 watchlist 数据库"——这在 KYC/AML 监管框架下是合法存在的基础设施——而是:这套基础设施的规模和功能,是否在用户意识到和同意的范围之内?一个用 OpenAI 服务的用户,是否知道自己的面部图像可能被存储在一个 3 年保留期的生物特征黑名单中?

4.2 对读者的实际应用价值

如果你是安全从业者: CT 日志 + Shodan + 路径猜测这三段式,是一套成本极低、覆盖面宽的被动情报收集方法。结合自动化扫描,可以持续监控某个组织的基础设施变化,无需任何权限或系统访问。

如果你是企业合规人员: 这次事件清晰地展示了"通过 FedRAMP 认证"和"实际符合 FedRAMP 安全要求"之间的差距。FedRAMP 认证是一次性的审计,而运营安全是持续的。Persona 获得 FedRAMP 授权之后,没有移除 /vite-dev/ 路径——这是一个典型的"通过了审计但没有建立持续安全运营习惯"的案例。

如果你是 OpenAI 的用户: api.openai.com 出现在政府端点 CSP 中的这一发现,意味着讨论"你的数据是否安全"需要扩展到:你与哪些依赖 OpenAI API 的第三方有身份核查关系?这些第三方的政府版产品是否使用了同样的数据流?

4.3 可能的实践场景

欧盟监管机构的关注点很可能在这里: FINTRAC 代号和 ListFace 生物特征数据的发现,直接触及了 GDPR Article 9(生物特征数据的特殊类别保护)和 AI Act(高风险 AI 系统定义中明确包含生物特征实时识别系统)。如果欧洲数据保护机构介入调查,Persona 的欧洲业务可能面临重大法律风险。

"watchlist 数据库"对新闻自由的潜在影响: 如果记者、社会活动人士或学术研究人员被添加到任何一类"adverse media"(相关负面媒体报道)追踪名单中,他们每次尝试使用 OpenAI 服务时都可能在后台触发筛查。这个场景在技术上是可能的,而 Persona 的隐私政策中关于名单类型的说明极为有限。

安全研究的法律边界: 这份报告展示了一个重要先例:通过 Shodan(公开扫描服务)和 CT 日志(公开记录),研究人员可以对一家 FedRAMP 授权的政府服务商的代码库进行相当深入的分析,而不触碰任何法律红线。这对未来的政府 IT 采购透明度讨论具有参考价值。

4.4 个人观点与思考

最值得关注的,也许不是 Persona 这一家公司,而是它所揭示的一个系统性模式:随着 AI 平台进入金融、政府和执法合规领域,KYC/AML 服务和监控基础设施之间的界限正在消失。

在传统监管框架下,银行的反洗钱系统和政府的情报数据库是分开的——它们通过正式的法律渠道(SAR 申报、法院命令)交换信息。但一个同时服务 OpenAI、Discord、金融机构和联邦政府的 KYC 平台,天然地处于这条界限上。每一次新功能落地,都是在把"民用合规访问"和"政府情报访问"之间的那根线向前推一点。

这不是一个非法的过程,但它是一个需要公开可见并接受民主监督的过程。而 /vite-dev/ 路径的意外暴露,让这个过程第一次有了具体、可分析的形态。


技术栈/工具清单

基础设施层:

  • Google Cloud Platformopenai-watchlistdb.withpersona.com 托管平台(34.49.93.177)
  • FedRAMP Low Impact(2025 年 10 月 7 日授权)withpersona-gov.com 政府端点合规认证
  • Vite:前端构建工具,/vite-dev/ 路径泄露 53MB TypeScript 源码映射

研究工具:

  • Shodan:互联网设备搜索引擎,发现非标 IP
  • Certificate Transparency (crt.sh):TLS 证书透明日志,追踪服务建立时间线
  • TypeScript Source Maps.ts.map 文件,将压缩 JS 映射回原始 TypeScript 源码

Persona 平台功能(从源码识别):

  • SAR/FinCEN 工作流:可疑活动申报,含"Send to FinCEN"界面
  • FINTRAC STR 申报:支持 7 个情报项目代号(Anton/Athena/Chameleon/Guardian/Legion/Protect/Shadow)
  • ListFace:人脸识别黑名单,3 年生物特征留存
  • PEP 筛查:政治敏感人士(Politically Exposed Person)数据库比对
  • 13 种追踪名单类型:包括 adverse media(负面媒体报道)筛查
  • FingerprintJS Pro:浏览器设备指纹识别
  • DataDog RUM + Amplitude:用户行为追踪
  • api.openai.com CSP:OpenAI 大模型集成于政府端身份审查流程

ONYX 子域名: onyx.withpersona-gov.com(2026 年 2 月 4 日出现,Persona 称以宝可梦 Onix 命名)


相关资源与延伸阅读

  1. 原始研究报告:OpenAI, the US Government, and Persona Built an Identity Surveillance Machine(vmfunc)
  2. Hacker News 讨论串(562 pts, 174 comments)
  3. Shodan 互联网设备搜索引擎
  4. Certificate Transparency 日志查询(crt.sh)
  5. FedRAMP 授权计划文档(美国总务管理局)
  6. NIST SP 800-53:联邦信息系统安全控制标准
  7. FinCEN SAR 申报指南(美国财政部)
  8. FINTRAC 公开情报项目列表(加拿大金融情报机构)
  9. EU AI Act 高风险 AI 系统定义(欧盟议会)
  10. GDPR Article 9:生物特征数据特殊保护规定
  11. Vite 开发服务器安全配置文档
  12. FingerprintJS Pro 产品页
  13. ICE ONYX AI 监控合同(USASpending.gov)
  14. Persona 官方隐私政策
  15. EFF:生物特征监控法律追踪