AIGT detection 实践 - 07/23/2025

分享下鉴别 AI 生成文本（AIGT detection）的一些实践：

通常该任务定义成：对于输入文本的二分类判断（ai or human），如果是由 human 与 ai 共同生成，可尝试拆分粒度进行二分类（文章 -> 主题 -> 段落 -> 句子）分享主要来自：Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods

白盒检测 - 通过 perplexity、熵的特征 LLMs 生成文本是根据解码策略去生成下一个 token，常规有 top-k、top-p、beam search 等策略，能保证输出内容之间的相关概率分布质量。其中 perplexity 代表了输出内容的概率分布，如果内容中每个 token 相关概率都很高，那 perplexity 就低，常规而言 AIGT perplexity 都较低在白盒场景下（已知模型的概率值），就可以通过 0 样本的方式去卡阈值，代表工作有 DetectGPT、GPTZero （因为都是白盒，需要了解模型概率才行，而实际业务场景无法获取闭源模型的概率）
黑盒检测 - 监督训练
- 通过模型重新生成文本与原有文本进行比较，有更强的泛化性，代表工作有：Ghostbuster
- 分析内容特征做监督训练：LLMs 生成的内容往往流畅、重复性高、词汇多样性低，以及标定符号、段落格式，措施特征等，代表工作有：SeqXGPT
- 监督训练 - 分类任务：训练 bert 模型评估，但有明显泛化问题（比如不同语种）整体来看，现有技术在特定场景、特定模型下能有一些准确率，但需与闭源模型 “协同进化” 才能持续保证效果。

Labels: 🎯技术向

Original post: https://simonaking.com/blog/weibo

SimonAKing/content.md

JxdCap commented Jul 19, 2025

Uh oh!