ohyeah521

调查目的：了解当前各基于TLS的协议方案中ClientHello的指纹独特性。理论背景见 https://arxiv.org/abs/1607.01639 。

指纹数据库：

naiveproxy v78.0.3904.70-4

（利益相关：我是这个的作者）

为什么流量可以进行分类

这里的“流量”一般定义为中间人观测到的一组由（时间，方向，包大小）元数据组成的序列 [Cai2014]。其源头是应用层的读写操作，经过传输层协议的变换（分片、协议状态机、加密等），流量序列产生一定变化。但是这种变化非常有限，因为流量的发生过程本质是确定性的，随机因素较小，因此对于特定环境中的特定应用（浏览器访问 google.com）各种流量特征体现出相当大的一致性和独特性，这就使“从流量特征识别应用”的监督学习问题成为可能。虽然有若干不利因素使得确定性下降，例如多层次上软件多版本的排列组合爆炸、有状态的缓存、流水线和连接复用、用户随机行为，但是因为版本的幂律分布、应用层读写操作间的依赖关系、流量特征和检测算法的改进等原因，分类依然具有相当的可行性。

分类的对象：流量应用分类与网站指纹攻击

根据分类的对象产生了两个相近但是不同的研究领域。从流量特征中分类应用类型的被称为流量分类（traffic classification），从流量特征中分类所访问网站或者网页的被称为网站指纹（website fingerprinting）。以机器学习的方法而论前者是比后者更弱但本质相同的一个问题。

这两类攻击的威胁类型不同。流量分类威胁的是可用性，如果GFW检出流量是隧道应用然后进行封锁，则破坏了可用性。而网站指纹威胁的是匿名性和隐私，如果从隐秘流量中检出是谁在访问哪个网站，则破坏了匿名性，丝绸之路就是这样被FBI破获的。

	#!/usr/bin/env python
	#-- coding: utf-8 --

	'''
	Copyleft (c) 2015 breakwa11
	https://github.com/breakwa11/shadowsocks-rss
	'''

	import logging
	import socket

	import base64
	import zlib
	import argparse


	def decode_command(cmd):

	try:
	# base64 decode the command
	p1 = base64.b64decode(cmd)