klzgrad

调查目的：了解当前各基于TLS的协议方案中ClientHello的指纹独特性。理论背景见 https://arxiv.org/abs/1607.01639 。

指纹数据库：

naiveproxy v78.0.3904.70-4

（利益相关：我是这个的作者）

为什么流量可以进行分类

这里的“流量”一般定义为中间人观测到的一组由（时间，方向，包大小）元数据组成的序列 [Cai2014]。其源头是应用层的读写操作，经过传输层协议的变换（分片、协议状态机、加密等），流量序列产生一定变化。但是这种变化非常有限，因为流量的发生过程本质是确定性的，随机因素较小，因此对于特定环境中的特定应用（浏览器访问 google.com）各种流量特征体现出相当大的一致性和独特性，这就使“从流量特征识别应用”的监督学习问题成为可能。虽然有若干不利因素使得确定性下降，例如多层次上软件多版本的排列组合爆炸、有状态的缓存、流水线和连接复用、用户随机行为，但是因为版本的幂律分布、应用层读写操作间的依赖关系、流量特征和检测算法的改进等原因，分类依然具有相当的可行性。

分类的对象：流量应用分类与网站指纹攻击

根据分类的对象产生了两个相近但是不同的研究领域。从流量特征中分类应用类型的被称为流量分类（traffic classification），从流量特征中分类所访问网站或者网页的被称为网站指纹（website fingerprinting）。以机器学习的方法而论前者是比后者更弱但本质相同的一个问题。

这两类攻击的威胁类型不同。流量分类威胁的是可用性，如果GFW检出流量是隧道应用然后进行封锁，则破坏了可用性。而网站指纹威胁的是匿名性和隐私，如果从隐秘流量中检出是谁在访问哪个网站，则破坏了匿名性，丝绸之路就是这样被FBI破获的。

朴素VPN：一个纯内核级静态隧道

由于路由管控系统的建立，实时动态黑洞路由已成为最有效的封锁手段，TCP连接重置和DNS污染成为次要手段，利用漏洞的穿墙方法已不再具有普遍意义。对此应对方法是多样化协议的VPN来抵抗识别。这里介绍一种太简单、有时很朴素的“穷人VPN”。

朴素VPN只需要一次内核配置（Linux内核），即可永久稳定运行，不需要任何用户态守护进程。所有流量转换和加密全部由内核完成，原生性能，开销几乎没有。静态配置，避免动态握手和参数协商产生指纹特征导致被识别。并且支持NAT，移动的内网用户可以使用此方法。支持广泛，基于L2TPv3标准，Linux内核3.2+都有支持，其他操作系统原则上也能支持。但有两个局限：需要root权限；一个隧道只支持一个用户。

朴素VPN利用UDP封装的静态L2TP隧道实现VPN，内核XFRM实现静态IPsec。实际上IP-in-IP隧道即可实现VPN，但是这种协议无法穿越NAT，因此必须利用UDP封装。内核3.18将支持Foo-over-UDP，在UDP里面直接封装IP，与静态的L2TP-over-UDP很类似。

	$ LD_PRELOAD=$PWD/sendmsg.so dig twitter.com @8.8.8.8
	;; Warning: Message parser reports malformed message packet. <-- malformed 因为把压缩指针当作域名一部分了
	;; Question section mismatch: got twitter.com/RESERVED0/CLASS256

	; <<>> DiG 9.9.5-3-Ubuntu <<>> twitter.com @8.8.8.8
	;; global options: +cmd
	;; Got answer:
	;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 44722
	;; flags: qr rd ra; QUERY: 1, ANSWER: 4, AUTHORITY: 0, ADDITIONAL: 1

klzgrad

naiveproxy v78.0.3904.70-4

为什么流量可以进行分类

分类的对象：流量应用分类与网站指纹攻击

朴素VPN：一个纯内核级静态隧道

创建一个朴素VPN