Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save erbanku/ba9f57fe20ccd4d58c3032dfb1b9418d to your computer and use it in GitHub Desktop.
Save erbanku/ba9f57fe20ccd4d58c3032dfb1b9418d to your computer and use it in GitHub Desktop.
2025/09/12

清华大学数据大讲堂第十一讲总结:AI 时代下数据既要保护又要利用的思考与实践

时间:2025-09-12 19:21:36
主题:AI 时代的数据保护与利用、AI+网络安全、隐私计算与数据基础设施、AI 本身的安全治理

速读要点(Executive Summary)

  • 安全形势随技术演进阶段性跃迁:1995 病毒 → 2005 Web/SQL 注入 → 2015 云与大数据 → 2023-2025 大模型与智能体(Agent)。
  • AI+安全的根本变化:由“平台”走向“平台+大脑”,智能体复刻专家研判流程,显著提升告警降噪、研判与处置效率。
  • 动态数据安全成为主线:动态分类分级、动态授权、动态脱敏、动态策略与动态风险感知,支撑高频/跨域的数据流通。
  • API 成为数据流通高频载体:需从“机器/IP”转向“业务账号/场景”的精细化治理。
  • 数据基础设施+可信数据空间融合落地:以“技术+制度+市场”三位一体推动数据要素价值释放的“最后一公里”。
  • 隐私计算“三驾马车”:TEE(可信执行环境)、MPC(安全多方计算)、HE(同态加密),结合 PSI/PIR 应用,按场景选型。
  • 典型实证:
    • 车企安全运营:日均研判30万告警,效率约为人工40倍,准确率>99%。
    • 三甲医院:500+核心库、数千字段自动分类分级,识别约15%隐私/敏感医疗数据。
    • 央企 API:峰值500万次/日,定制协议适配与“按人按场景”精治。
    • 亚冬会:首创十大安全智能体,效率与质量双提升。
  • 高质量数据与合成数据并行:行业“关键对话/链路数据”稀缺,需用合成数据补齐长尾。
  • AI 的安全(而非 AI+安全):提示词注入、数据泄露、供应链等成为 Top 风险;MCP 工具链与 AI IDE 成新攻面。
  • 治理框架“四横四纵”:技术、管理、流程、组织 × 战略规划、标准规范、监督审计、持续改进。

时间轴:技术发展与安全议题演进

timeline
    title 安全演进时间轴
    1995 : 互联网普及初期\nTCP/IP 未纳入安全设计\n典型:DoS/病毒
    2005 : Web 应用兴起\nHTTP 与三/四层架构承载高价值数据\n典型:SQL 注入/数据泄露
    2015 : 云与大数据普及\n云上新风险叠加传统攻防
    2023-2025 : 大模型与智能体崛起\n自动化/智能化攻防、MCP/工具链新风险
Loading

AI 驱动的安全运营(SecOps)范式

  • 智能体目标:复刻资深工程师“告警→研判→调查→处置→复盘”的端到端流程。
  • 核心收益:海量告警自动分级与降噪;“真正高危”优先;人机协同闭环与知识持续沉淀。
flowchart LR
    A[海量告警与事件] --> B[上下文整合\nLLM+领域知识库]
    B --> C{智能体研判}
    C -->|误报/未成功| D[自动降噪/归档]
    C -->|真实高危| E[溯源与处置剧本编排\n(自动化/半自动化)]
    E --> F[人在回路审批/隔离/封堵]
    F --> G[复盘与知识更新\n策略/特征/Playbook]
    G --> B
Loading

安全智能体成熟度分级(节选)

等级 能力特征 代表任务 人在回路
L0 无智能 固定规则告警 人工
L1 辅助智能 告警释义、报告草拟
L2 条件辅助 初步聚合/去重、IOC 关联 中-高
L3 条件自主 多源证据研判、恶意邮件深析(头/体/附件/OCR/二维码/溯源)
L4 高度自主 自动化渗透测试、自动响应与编排 低(保留关键审批)

注:报告案例显示,在大型车企达到“日均30万条/40倍效率/≈99%准确率”的量化成效。


动态数据安全:从“静态防护”走向“流动治理”

  • 五大能力:
    1. 动态分类分级
    2. 动态访问/权限(基于行为与风险)
    3. 动态脱敏(同数异策,按场景差异化)
    4. 动态策略自动调整
    5. 动态风险感知与预警(贯穿业务流程)
flowchart LR
    S[AI 驱动的数据发现与分类分级] --> P[分级信息联动\nAPI网关/DB防火墙/DLP]
    P --> M[场景化动态脱敏\n(目的/终端/频次/环境)]
    M --> A[行为与风险驱动的动态授权\nRBAC+ABAC+UEBA]
    A --> R[连续风险感知与预警]
    R --> T[策略自动调优]
    T --> S
Loading

要点举例:

  • AI 更懂“上下文敏感度”——同为“地址”,可因视为工商注册地址(低敏)或个人居住地址(高敏)。
  • API 精治:识别输入/输出、敏感度与业务标签,按“人/角色/场景”而非“IP/机器”治理。

数据基础设施 × 可信数据空间:融合架构

flowchart TB
    subgraph L1[连接层]
      C1[多源连接器/网关]
    end
    subgraph L2[空间服务平台]
      S1[三统一/空间运维]
      S2[隐私计算引擎\nTEE / MPC / HE]
    end
    subgraph L3[上层平台]
      U1[数据流通与利用平台]
      U2[公共服务平台\n(公共数据授权/隐私计算平台/智能体开发平台)]
    end
    C1 --> S1 --> S2 --> U1
    S2 --> U2
Loading
  • 建设导向:场景牵引、产业协同;聚焦“最后一公里”的价值闭环(供需撮合、流通合规、收益分配、技术普惠)。

隐私计算技术选型对比

技术 形态/信任假设 性能/通用性 典型优势 主要挑战/风险 适配场景
TEE(可信执行环境) 需可信第三方/硬件根信任 近明文性能,通用性强 易落地、兼容多模型训练/推理 硬件安全与抗量子密码体系要求 多方共训、模型托管、产业协作
MPC(多方安全计算) 去中心化、各方等权 受算法与带宽影响 无需可信第三方,数据“不出域” 算子复杂、工程与网络成本 金融/运营商/政务跨域联合分析
HE(同态加密) 密文上计算 理论优雅、实务偏慢 强隐私保护 性能与算子限制 特定算子、合规高敏场景
PSI/PIR 协议类工具 高效解决特定问题 交集可见/条件隐藏 组合工程化 黑产治理、反诈、私有查询

典型案例:

  • 番茄生长模型(TEE):多农场数据在可信环境建模,服务更多农场且“不出域”。
  • 医学 AI 赛事(TEE):多队伍在同一平台高性能训练/推理。
  • 反诈“两卡”治理(MPC+PSI):公安、银行、运营商多赢协同。

典型案例速览

行业/场景 痛点 关键举措 成果
大型车企安全运营 告警海量、专家稀缺 安全智能体复刻研判流程、自动降噪 日均研判≈30万;效率≈40倍;准确率>99%
三甲医院数据安全 多系统分散、底数不清 AI 分类分级、DB 审计、DBFW、静态脱敏、DLP 500+库/数千字段自动分级;≈15%为隐私/敏感医疗数据
央企 API 治理 协议自研、调用峰值 500万/日 协议适配、业务账号治理、分级授权与脱敏 从“IP/机器”转向“人/角色/场景”的精治
大型赛会安保 时效性强、态势复杂 十大安全智能体、平台+大脑 质/效双提升,发现/处置更及时

大模型安全:风险与对策

风险类别 具体问题 对策要点
提示词注入/工具链 MCP 工具被劫持、恶意工具污染上下文;AI IDE 远程命令被触发 工具/资源白名单、最小权限与沙箱;上下文分域与脱敏;联网抓取加“内容防注入”网关
数据安全 训练/推理泄露、语料合规 数据分级与可追溯;差分隐私/加密;数据水印与蜜罐样本;合规审批
供应链安全 开源模型/依赖漏洞 SBOM/模型清单、依赖审计;签名与完整性校验;持续SCA/SAST/DAST
生成内容安全 不良信息/错误代码 安全策略与内容审核;“双模型”交叉校验;代码生成联动安全单测/修复建议
基础设施/接口 API 越权、配置缺陷 零信任架构、细粒度鉴权;API 网关/速率限制;审计溯源

治理框架“四横四纵”:

横向 说明 纵向 说明
技术 加密/验证/运行防护/检测响应 战略规划 路线图与阶段目标
管理 角色、职责与制度 标准规范 统一标准与落地细则
流程 开发/部署/运营全链闭环 监督审计 合规验证与效果评估
组织 跨部门协作与应急机制 持续改进 度量驱动的优化循环

面向政府与企业的落地清单(精简版)

  • 建“平台+大脑”:为现有安全平台叠加智能体,优先在告警降噪、恶意邮件、自动化渗测、事件编排落地可量化场景。
  • 推动“动态数据安全”五件套:AI 分类分级→策略联动→场景化脱敏→动态授权→持续感知与调优。
  • API 精治工程:按“业务账号/角色/场景”赋权与审计,统一网关与协议适配,建立灰度发布与回滚。
  • 选择隐私计算路线:以 TEE 提速“多方共训与托管”,以 MPC 实现“无第三方信任”的跨域联合;必要时叠加 PSI/PIR。
  • 强化 LLM 安全基线:工具白名单与沙箱、上下文隔离、联网抓取防注入、模型/依赖供应链审计、生成代码安全闸门。
  • 数据要素“最后一公里”:供需撮合、收益分配、普惠门槛与生态扶持并行,场景牵引形成可复用样板。

Q&A 摘要(节选)

  • 安全产业趋势:短中期将呈“少量人+大量 Agent”的运营格局,提升质效而非简单替代人。
  • 业务系统“内生安全”的边界:端侧安全能力提升是好事,但现实场景更复杂,需要外部安全能力协同与情报合力。
  • 政府视角:既要安全用数,也要治理 AI 安全;需以顶层设计统筹“技术/制度/流程/组织”,并以典型场景先行先试。

——以上为本次讲座的结构化总结与可落地要点。若需,我可以基于你的具体行业/系统,出一版更贴合的“场景化动态数据安全实施路线图”。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment