一个 Shodan IP 揭开了 OpenAI 与美国政府的身份监控基础设施
文章摘要
2026 年初,安全研究人员 vmfunc、MDL 和 Dziurwa 公开了一份调查报告,起点是 Shodan 上的一个普通 IP 地址:34.49.93.177。
这个 IP 解析到 openai-watchlistdb.withpersona.com,托管在 Google Cloud Platform 的独立非 Cloudflare 基础设施上。Certificate Transparency(CT)日志显示,这个子域名自 2023 年 11 月 起就在运行——整整比 OpenAI 公开披露身份核查服务早了 18 个月。
更戏剧性的是,研究人员通过 Persona 政府端点 withpersona-gov.com 的 /vite-dev/ 路径,发现了 53MB 未经保护的 TypeScript 源码映射文件(source maps),包含 2456 个独立源文件,几乎是完整的前端代码库。
这些源码揭示的内容,远超一般意义上的身份核查(KYC):SAR/FinCEN 可疑活动申报(含完整工作流和"发送至 FinCEN"按钮)、FINTRAC 情报项目代号(Project Anton、Athena、Chameleon、Guardian、Legion、Protect、Shadow)、人脸识别黑名单(ListFace,3 年数据留存)、13 种追踪名单类型、政治敏感人士(PEP)筛查,以及 api.openai.com 出现在 Content Security Policy(CSP)头部——正式确认 OpenAI API 被集成在政府监控流程中。
背景与问题
要理解这份报告的重量,需要先了解 Persona 是谁,以及它在 OpenAI 的身份核查生态中扮演什么角色。
Persona(withpersona.com)是一家成立于 2018 年的 KYC/AML(了解客户/反洗钱)服务商,由 Peter Thiel 旗下 Founders Fund 支持,客户包括 OpenAI、Lyft、Lime、Roblox 和 Discord 等科技公司。按公司自己的说法,其平台每月为"数百万用户"提供服务。
OpenAI 在最近一年内开始推行账号真实身份核查,理由是防止 API 滥用、遵守金融监管和出口控制法规。从表面上看,这是一种合规措施,与许多 B2B SaaS 公司的操作类似。
但研究人员发现的基础设施规模,和"普通合规措施"之间存在显著的张力。
首先,openai-watchlistdb.withpersona.com 这个子域名中的 watchlistdb(监控名单数据库)一词,已经明确超出了普通身份核查的范畴。其次,该服务在公开披露前 18 个月就开始运行,且使用了专用、非 Cloudflare 保护的 GCP 基础设施——这种配置选择,与需要尽量屏蔽外部曝光的敏感服务使用场景吻合。
随着源码分析深入,一个完整的政府级监控基础设施轮廓逐渐清晰。
核心内容解析
3.1 核心观点提取
CT 日志与基础设施时间线
研究人员使用 Certificate Transparency 日志追踪了 Persona 与 OpenAI 相关服务的建立时间:
openai-watchlistdb.withpersona.com:最初 TLS 证书签发于 2023 年 11 月openai-watchlistdb-testing.withpersona.com:存在独立测试环境onyx.withpersona-gov.com:出现于 2026 年 2 月 4 日——研究发布前 3 周withpersona-gov.comFedRAMP 授权时间:2025 年 10 月 7 日(Low Impact 级别)
18 个月的秘密运行期,意味着超过 1.5 年时间里,外界对这套系统的存在一无所知。
ONYX:命名之争
onyx.withpersona-gov.com 的出现触发了研究人员的特别关注:美国移民和海关执法局(ICE)曾通过 Fivecast 公司签署了一份 420 万美元的合同,用于部署名为 ONYX 的 AI 监控系统,用于追踪移民相关情报。
同名并非巧合——Persona CEO Rick Song 在研究人员的 18 个问题中正式回应称:他们的 ONYX 产品"是以神奇宝贝 Onix(石英怪)命名的",否认与 ICE 的 Fivecast ONYX 存在关联。
这个回应在技术社区引发了截然不同的反应:有人认为同名确实可能是巧合,有人则认为在这个背景下声称"是宝可梦"是一种辩解弹幕而非实质性澄清。
53MB 源码映射文件:FedRAMP 的一次严重合规失败
技术上,研究人员发现源码的路径是 /vite-dev/——这是 Vite(现代前端构建工具)在开发模式下暴露的调试路径,包含完整的未压缩 TypeScript 源码映射文件。
在一个已获得 FedRAMP Low Impact 认证的政府端点上,暴露未混淆的生产代码库,是一次明确的安全合规失败。FedRAMP 的 NIST SP 800-53 控制框架明确要求对代码和配置信息进行访问控制和最小权限原则(Least Privilege)保护。
Persona CEO 的回应是:源码映射"不是漏洞",只是未压缩的前端代码,不影响系统安全性。从最狭义的信息安全定义来说("有人能入侵系统吗?"),这个说法有一定道理;但从 FedRAMP 合规的角度,这明显是合规失败——因为 FedRAMP 的要求不只是"不被黑",还包括"不暴露不必要的系统信息"。
3.2 技术深度分析
源码揭示的功能清单
研究人员通过分析 2456 个 TypeScript 源文件,提取出了以下关键功能的证据:
1. SAR/FinCEN 可疑活动申报
Platform 中存在完整的 SAR(Suspicious Activity Report)工作流,包括一个"Send to FinCEN"(发送至美国财政部金融情报网络)的操作按钮,对应美国《银行保密法》(BSA)下的合规申报义务。
这本身是合法的金融合规功能,但它存在于一个身份核查平台中意味着:Persona 不只是在"验证你是谁",还在评估你是否需要被申报给联邦情报机构。
2. FINTRAC 情报项目代号
代码中发现了加拿大金融情报监测与分析中心(FINTRAC)的 STR(Suspicious Transaction Report)申报功能,以及 7 个 FINTRAC 情报项目内部代号:
enum FintracProgramCode {
PROJECT_ANTON = "FINTRAC_ANTON",
PROJECT_ATHENA = "FINTRAC_ATHENA",
PROJECT_CHAMELEON = "FINTRAC_CHAMELEON",
PROJECT_GUARDIAN = "FINTRAC_GUARDIAN",
PROJECT_LEGION = "FINTRAC_LEGION",
PROJECT_PROTECT = "FINTRAC_PROTECT",
PROJECT_SHADOW = "FINTRAC_SHADOW",
}
这些代号是 FINTRAC 的真实情报项目标识符(Project GUARDIAN 是已公开的打击有组织犯罪融资项目),它们出现在 Persona 的代码中,意味着 Persona 的平台直接与 FINTRAC 的情报分析系统对接。
3. 人脸识别黑名单(ListFace)
代码中定义了 13 种追踪名单类型,其中 ListFace 对应基于生物特征(面部图像)的黑名单系统,注释标注保留时间为 3 年(biometric_retention: "3_years")。
这意味着对于被加入 ListFace 名单的用户,Persona 系统将在 3 年内保留其面部生物特征数据,用于后续比对。这与欧盟 GDPR 的生物特征数据"最小化存储"原则存在直接张力。
4. OpenAI API 在 CSP 中出现
在政府端点的 HTTP 响应头 Content-Security-Policy 中,api.openai.com 被列在允许的外部资源域名中:
Content-Security-Policy: connect-src ... api.openai.com ...
这正式确认了 OpenAI 的 API 被集成在 Persona 政府版监控流程中——不只是 OpenAI 以 Persona 为 KYC 供应商,而是 OpenAI 的大模型能力也被反向注入到针对 OpenAI 用户的身份审查流程里,形成了一个闭环。
5. FingerprintJS 与行为追踪
代码中使用了 FingerprintJS Pro(浏览器指纹识别库)、DataDog RUM(真实用户监控)和 Amplitude(用户行为分析)。这些工具的组合意味着在完成身份核查的过程中,用户的设备指纹、浏览行为和交互方式也被同步收集,远超"验证文件真伪"的范围。
3.3 实践应用场景
从安全研究方法论的角度看,这次发现展示了几个可复用的 OSINT(开源情报)技巧:
Certificate Transparency 日志追踪:CT 日志(crt.sh 等)是发现隐藏子域名和服务时间线的强力工具。任何 HTTPS 证书签发都会被 CT 日志记录,且无法删除。研究人员就是通过 CT 日志确定了 openai-watchlistdb 服务"秘密运行 18 个月"这一事实。
Shodan 反向查询:Shodan 允许按 IP 组织、IP 网段、SSL 证书 CN 等维度查询服务器,能发现那些没有公开 DNS 但仍然对外开放服务的系统。Persona 的 watchlist 数据库没有出现在任何公开文档中,但 Shodan 在扫描时记录了它的存在。
前端路径猜测:/vite-dev/ 是 Vite 开发服务器的默认暴露路径。如果一个生产站点意外地保留了这个路径,就相当于暴露了完整的开发时源文件树。对任何安全研究人员来说,这是一个值得在已知服务上系统性检查的低果实(low-hanging fruit)。
深度分析与思考
4.1 文章价值与意义
这份报告的价值,正在于它让一个通常只存在于政策讨论层面的抽象问题——"AI 公司是否在参与政府监控"——变成了带有时间戳、域名记录和 TypeScript 枚举值的具体现实。
研究人员明确声明:他们没有入侵任何系统,所有发现都来自公开可访问的信息源。这是一次经典的安全研究展示:通过观察公开暴露的信息,构建一个系统内部运作方式的完整图景,并将结果负责任地披露。
在这个意义上,真正的问题不是"有没有 watchlist 数据库"——这在 KYC/AML 监管框架下是合法存在的基础设施——而是:这套基础设施的规模和功能,是否在用户意识到和同意的范围之内?一个用 OpenAI 服务的用户,是否知道自己的面部图像可能被存储在一个 3 年保留期的生物特征黑名单中?
4.2 对读者的实际应用价值
如果你是安全从业者: CT 日志 + Shodan + 路径猜测这三段式,是一套成本极低、覆盖面宽的被动情报收集方法。结合自动化扫描,可以持续监控某个组织的基础设施变化,无需任何权限或系统访问。
如果你是企业合规人员: 这次事件清晰地展示了"通过 FedRAMP 认证"和"实际符合 FedRAMP 安全要求"之间的差距。FedRAMP 认证是一次性的审计,而运营安全是持续的。Persona 获得 FedRAMP 授权之后,没有移除 /vite-dev/ 路径——这是一个典型的"通过了审计但没有建立持续安全运营习惯"的案例。
如果你是 OpenAI 的用户: api.openai.com 出现在政府端点 CSP 中的这一发现,意味着讨论"你的数据是否安全"需要扩展到:你与哪些依赖 OpenAI API 的第三方有身份核查关系?这些第三方的政府版产品是否使用了同样的数据流?
4.3 可能的实践场景
欧盟监管机构的关注点很可能在这里: FINTRAC 代号和 ListFace 生物特征数据的发现,直接触及了 GDPR Article 9(生物特征数据的特殊类别保护)和 AI Act(高风险 AI 系统定义中明确包含生物特征实时识别系统)。如果欧洲数据保护机构介入调查,Persona 的欧洲业务可能面临重大法律风险。
"watchlist 数据库"对新闻自由的潜在影响: 如果记者、社会活动人士或学术研究人员被添加到任何一类"adverse media"(相关负面媒体报道)追踪名单中,他们每次尝试使用 OpenAI 服务时都可能在后台触发筛查。这个场景在技术上是可能的,而 Persona 的隐私政策中关于名单类型的说明极为有限。
安全研究的法律边界: 这份报告展示了一个重要先例:通过 Shodan(公开扫描服务)和 CT 日志(公开记录),研究人员可以对一家 FedRAMP 授权的政府服务商的代码库进行相当深入的分析,而不触碰任何法律红线。这对未来的政府 IT 采购透明度讨论具有参考价值。
4.4 个人观点与思考
最值得关注的,也许不是 Persona 这一家公司,而是它所揭示的一个系统性模式:随着 AI 平台进入金融、政府和执法合规领域,KYC/AML 服务和监控基础设施之间的界限正在消失。
在传统监管框架下,银行的反洗钱系统和政府的情报数据库是分开的——它们通过正式的法律渠道(SAR 申报、法院命令)交换信息。但一个同时服务 OpenAI、Discord、金融机构和联邦政府的 KYC 平台,天然地处于这条界限上。每一次新功能落地,都是在把"民用合规访问"和"政府情报访问"之间的那根线向前推一点。
这不是一个非法的过程,但它是一个需要公开可见并接受民主监督的过程。而 /vite-dev/ 路径的意外暴露,让这个过程第一次有了具体、可分析的形态。
技术栈/工具清单
基础设施层:
- Google Cloud Platform:
openai-watchlistdb.withpersona.com托管平台(34.49.93.177) - FedRAMP Low Impact(2025 年 10 月 7 日授权):
withpersona-gov.com政府端点合规认证 - Vite:前端构建工具,
/vite-dev/路径泄露 53MB TypeScript 源码映射
研究工具:
- Shodan:互联网设备搜索引擎,发现非标 IP
- Certificate Transparency (crt.sh):TLS 证书透明日志,追踪服务建立时间线
- TypeScript Source Maps:
.ts.map文件,将压缩 JS 映射回原始 TypeScript 源码
Persona 平台功能(从源码识别):
- SAR/FinCEN 工作流:可疑活动申报,含"Send to FinCEN"界面
- FINTRAC STR 申报:支持 7 个情报项目代号(Anton/Athena/Chameleon/Guardian/Legion/Protect/Shadow)
- ListFace:人脸识别黑名单,3 年生物特征留存
- PEP 筛查:政治敏感人士(Politically Exposed Person)数据库比对
- 13 种追踪名单类型:包括 adverse media(负面媒体报道)筛查
- FingerprintJS Pro:浏览器设备指纹识别
- DataDog RUM + Amplitude:用户行为追踪
- api.openai.com CSP:OpenAI 大模型集成于政府端身份审查流程
ONYX 子域名: onyx.withpersona-gov.com(2026 年 2 月 4 日出现,Persona 称以宝可梦 Onix 命名)
相关资源与延伸阅读
- 原始研究报告:OpenAI, the US Government, and Persona Built an Identity Surveillance Machine(vmfunc)
- Hacker News 讨论串(562 pts, 174 comments)
- Shodan 互联网设备搜索引擎
- Certificate Transparency 日志查询(crt.sh)
- FedRAMP 授权计划文档(美国总务管理局)
- NIST SP 800-53:联邦信息系统安全控制标准
- FinCEN SAR 申报指南(美国财政部)
- FINTRAC 公开情报项目列表(加拿大金融情报机构)
- EU AI Act 高风险 AI 系统定义(欧盟议会)
- GDPR Article 9:生物特征数据特殊保护规定
- Vite 开发服务器安全配置文档
- FingerprintJS Pro 产品页
- ICE ONYX AI 监控合同(USASpending.gov)
- Persona 官方隐私政策
- EFF:生物特征监控法律追踪