joekir · April 7, 2018 23:01
diff --git a/README.md b/README.md
diff --git a/buildnrun.sh b/buildnrun.sh
 #!/bin/bash

 javac -d target/ src/*
 cd target
 java MurmurTest
 cd ../
diff --git a/inverter.py b/inverter.py
 #!/usr/bin/python2.7

 from z3 import *
 import sys

 """
  See https://raw.githubusercontent.com/yonik/java_util/master/src/util/hash/MurmurHash3.java
  for implementation of the code modelled below
  
  The one downside is that the logic is so complex in some of the switch statements below
  that I had to concretize the length of the input data array, this is ok as usually you can 
  iteratively tune this until you get meaningful plaintext inputs, or it follows a fixed schema, etc.  
 """
 def dk(i):
  return "k"+str(i)

 def dh(i):
  return "h"+str(i)

 def solve():
  s = SolverFor("BV")
  s.set("local_ctx",True)
  
  # Concrete
  roundedEnd = length & 0xfffffffc
  c1 = 0xcc9e2d51
  c2 = 0x1b873593
  seed = 0xefef # this is fixed in the impl I'm looking into
  
  # Based on array theory, maps an Int32 to a Byte
  data = Array('data', BitVecSort(32), BitVecSort(8))
  
  kvecs = {}  
  hvecs = {}

  # ha and ka are allocation counters for each map
  ka = 0
  ha = 0

  # init hvecs to seed
  hvecs[dh(ha)] = BitVec(dh(ha),32)
  s.add(hvecs[dh(ha)] == seed)
  ha += 1 
  
  i=0
  while i < roundedEnd:
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == ((SignExt(24,data[i]) & 0xff) | ((SignExt(24,data[i+1]) & 0xff) << 8) | ((SignExt(24,data[i+2]) & 0xff) << 16) | (SignExt(24, data[i+3]) << 24)))
    ka += 1

    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == kvecs[dk(ka-1)] * c1)
    ka +=1

    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == ((kvecs[dk(ka-1)] << 15) | LShR(kvecs[dk(ka-1)],17)))
    ka += 1
    
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == kvecs[dk(ka-1)] * c2)
    ka +=1

    hvecs[dh(ha)] = BitVec(dh(ha),32)
    s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ kvecs[dk(ka-1)]))
    ha += 1    
 
    hvecs[dh(ha)] = BitVec(dh(ha),32) 
    s.add(hvecs[dh(ha)] == ((hvecs[dh(ha-1)] << 13) | LShR(hvecs[dh(ha-1)],19)))
    ha += 1
    
    hvecs[dh(ha)] = BitVec(dh(ha),32) 
    s.add(hvecs[dh(ha)] == ((hvecs[dh(ha-1)] * 5) + 0xe6546b64))
    ha += 1
    i += 4
 
  # had to concretize this as the logic (ROT32) in the `switch == 1`
  # statement below cannot be inlined to the z3.If statement
  # SSA means lots of duplication here, sorry..
  switch = length & 3
  
  if switch == 3:
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == ((SignExt(24,data[roundedEnd + 2]) & 0xff) << 16))
    ka += 1    

    # fallthrough 1 
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] | ((SignExt(24,data[roundedEnd + 1]) & 0xff) << 8)))
    ka +=1

    # fallthrough 2
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] | (SignExt(24,data[roundedEnd]) & 0xff)))
    ka +=1  
  
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c1))
    ka +=1  
    
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == ((kvecs[dk(ka-1)] << 15) | LShR(kvecs[dk(ka-1)],17)))
    ka +=1  
    
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c2))
    ka +=1  
    
    hvecs[dh(ha)] = BitVec(dh(ha),32) 
    s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ kvecs[dk(ka-1)]))
    ha += 1 
 
  if switch == 2:
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == ((SignExt(24,data[roundedEnd + 1]) & 0xff) << 8))
    ka +=1

    # fallthrough 2
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] | (SignExt(24,data[roundedEnd]) & 0xff)))
    ka +=1  
  
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c1))
    ka +=1  
    
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == ((kvecs[dk(ka-1)] << 15) | LShR(kvecs[dk(ka-1)],17)))
    ka +=1  
    
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c2))
    ka +=1  

    hvecs[dh(ha)] = BitVec(dh(ha),32) 
    s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ kvecs[dk(ka-1)]))
    ha += 1 
  
  if switch == 1:
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (SignExt(24,data[roundedEnd]) & 0xff))
    ka +=1  
  
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c1))
    ka +=1  
    
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == ((kvecs[dk(ka-1)] << 15) | LShR(kvecs[dk(ka-1)],17)))
    ka +=1  
    
    kvecs[dk(ka)] = BitVec(dk(ka),32) 
    s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c2))
    ka +=1  

    hvecs[dh(ha)] = BitVec(dh(ha),32) 
    s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ kvecs[dk(ka-1)]))
    ha += 1 
  
  hvecs[dh(ha)] = BitVec(dh(ha),32) 
  s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ length))
  ha += 1 
  
  hvecs[dh(ha)] = BitVec(dh(ha),32) 
  s.add(hvecs[dh(ha)] == LShR(hvecs[dh(ha-1)],16))
  ha += 1 
  
  hvecs[dh(ha)] = BitVec(dh(ha),32) 
  s.add(hvecs[dh(ha)] == hvecs[dh(ha-2)] ^ hvecs[dh(ha-1)]) 
  ha += 1 

  hvecs[dh(ha)] = BitVec(dh(ha),32) 
  s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] * 0x85ebca6b))
  ha += 1 

  hvecs[dh(ha)] = BitVec(dh(ha),32) 
  s.add(hvecs[dh(ha)] == LShR(hvecs[dh(ha-1)],13))
  ha += 1 

  hvecs[dh(ha)] = BitVec(dh(ha),32) 
  s.add(hvecs[dh(ha)] == hvecs[dh(ha-2)] ^ hvecs[dh(ha-1)]) 
  ha += 1 
  
  hvecs[dh(ha)] = BitVec(dh(ha),32) 
  s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] * 0xc2b2ae35))
  ha += 1 

  hvecs[dh(ha)] = BitVec(dh(ha),32) 
  s.add(hvecs[dh(ha)] == LShR(hvecs[dh(ha-1)],16))
  ha += 1 

  s.add(hash_result == hvecs[dh(ha-2)] ^ hvecs[dh(ha-1)]) 

  ch = s.check()
  print ch
  if ch.r == 1:
    model = s.model()
    print "\ninverting 0x%x returns:" % hash_result 
    data = model[data]
    for i in range(0 ,length):
      print data.entry(i)
  else:
    print s.unsat_core()


 # should really use proper argparse here, but lazy
 if not sys.stdin.isatty():
  # piped from build output
  hash_result = int(sys.stdin.read(),0) 
  length = int(sys.argv[1])

 elif len(sys.argv) != 3:
  print "Sorry, calling format has to be like ./inverter.py 0x(<murmurhash>) original_data_length"
  sys.exit(1)

 else:
  # just called directly
  hash_result = int(sys.argv[1],0)
  length = int(sys.argv[2]) 
 
 solve() 
diff --git a/MurmurHash3Test.java b/MurmurHash3Test.java
 class MurmurTest {
  public static void main(String args[]){
    byte[] data = { 90, 1, 2, 44};
    System.out.format("0x%x\n", murmurhash3_x86_32(data, 0, data.length, 0xefef));
  }

  /*
   * This is verbatim from:
   * https://raw.githubusercontent.com/yonik/java_util/master/src/util/hash/MurmurHash3.java
  */
  public static int murmurhash3_x86_32(byte[] data, int offset, int len, int seed) {
  
    int c1 = 0xcc9e2d51;
    int c2 = 0x1b873593;
  
    int h1 = seed;
    int roundedEnd = offset + (len & 0xfffffffc);  // round down to 4 byte block
 
    for (int i=offset; i<roundedEnd; i+=4) {
      // little endian load order
      int k1 = (data[i] & 0xff) | ((data[i+1] & 0xff) << 8) | ((data[i+2] & 0xff) << 16) | (data[i+3] << 24);
      k1 *= c1;
      k1 = (k1 << 15) | (k1 >>> 17);  // ROTL32(k1,15);
      k1 *= c2;
  
      h1 ^= k1;
      h1 = (h1 << 13) | (h1 >>> 19);  // ROTL32(h1,13);
      h1 = h1*5+0xe6546b64;
    }
  

    // tail
    int k1 = 0;
  
    switch(len & 0x03) {
      case 3:
        k1 = (data[roundedEnd + 2] & 0xff) << 16;
        // fallthrough
      case 2:
        k1 |= (data[roundedEnd + 1] & 0xff) << 8;
        // fallthrough
      case 1:
        k1 |= (data[roundedEnd] & 0xff);
        k1 *= c1;
        k1 = (k1 << 15) | (k1 >>> 17);  // ROTL32(k1,15);
        k1 *= c2;
        h1 ^= k1;
    }
  
    // finalization
    h1 ^= len;
  
    // fmix(h1);
    h1 ^= h1 >>> 16;
    h1 *= 0x85ebca6b;
    h1 ^= h1 >>> 13;
    h1 *= 0xc2b2ae35;
    h1 ^= h1 >>> 16;
  
    return h1;
  }
 }
	#!/bin/bash

	javac -d target/ src/*
	cd target
	java MurmurTest
	cd ../
	#!/usr/bin/python2.7

	from z3 import *
	import sys

	"""
	See https://raw.githubusercontent.com/yonik/java_util/master/src/util/hash/MurmurHash3.java
	for implementation of the code modelled below

	The one downside is that the logic is so complex in some of the switch statements below
	that I had to concretize the length of the input data array, this is ok as usually you can
	iteratively tune this until you get meaningful plaintext inputs, or it follows a fixed schema, etc.
	"""
	def dk(i):
	return "k"+str(i)

	def dh(i):
	return "h"+str(i)

	def solve():
	s = SolverFor("BV")
	s.set("local_ctx",True)

	# Concrete
	roundedEnd = length & 0xfffffffc
	c1 = 0xcc9e2d51
	c2 = 0x1b873593
	seed = 0xefef # this is fixed in the impl I'm looking into

	# Based on array theory, maps an Int32 to a Byte
	data = Array('data', BitVecSort(32), BitVecSort(8))

	kvecs = {}
	hvecs = {}

	# ha and ka are allocation counters for each map
	ka = 0
	ha = 0

	# init hvecs to seed
	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == seed)
	ha += 1

	i=0
	while i < roundedEnd:
	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == ((SignExt(24,data[i]) & 0xff) \| ((SignExt(24,data[i+1]) & 0xff) << 8) \| ((SignExt(24,data[i+2]) & 0xff) << 16) \| (SignExt(24, data[i+3]) << 24)))
	ka += 1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == kvecs[dk(ka-1)] * c1)
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == ((kvecs[dk(ka-1)] << 15) \| LShR(kvecs[dk(ka-1)],17)))
	ka += 1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == kvecs[dk(ka-1)] * c2)
	ka +=1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ kvecs[dk(ka-1)]))
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == ((hvecs[dh(ha-1)] << 13) \| LShR(hvecs[dh(ha-1)],19)))
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == ((hvecs[dh(ha-1)] * 5) + 0xe6546b64))
	ha += 1
	i += 4

	# had to concretize this as the logic (ROT32) in the `switch == 1`
	# statement below cannot be inlined to the z3.If statement
	# SSA means lots of duplication here, sorry..
	switch = length & 3

	if switch == 3:
	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == ((SignExt(24,data[roundedEnd + 2]) & 0xff) << 16))
	ka += 1

	# fallthrough 1
	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] \| ((SignExt(24,data[roundedEnd + 1]) & 0xff) << 8)))
	ka +=1

	# fallthrough 2
	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] \| (SignExt(24,data[roundedEnd]) & 0xff)))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c1))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == ((kvecs[dk(ka-1)] << 15) \| LShR(kvecs[dk(ka-1)],17)))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c2))
	ka +=1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ kvecs[dk(ka-1)]))
	ha += 1

	if switch == 2:
	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == ((SignExt(24,data[roundedEnd + 1]) & 0xff) << 8))
	ka +=1

	# fallthrough 2
	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] \| (SignExt(24,data[roundedEnd]) & 0xff)))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c1))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == ((kvecs[dk(ka-1)] << 15) \| LShR(kvecs[dk(ka-1)],17)))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c2))
	ka +=1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ kvecs[dk(ka-1)]))
	ha += 1

	if switch == 1:
	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (SignExt(24,data[roundedEnd]) & 0xff))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c1))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == ((kvecs[dk(ka-1)] << 15) \| LShR(kvecs[dk(ka-1)],17)))
	ka +=1

	kvecs[dk(ka)] = BitVec(dk(ka),32)
	s.add(kvecs[dk(ka)] == (kvecs[dk(ka-1)] * c2))
	ka +=1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ kvecs[dk(ka-1)]))
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] ^ length))
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == LShR(hvecs[dh(ha-1)],16))
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == hvecs[dh(ha-2)] ^ hvecs[dh(ha-1)])
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] * 0x85ebca6b))
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == LShR(hvecs[dh(ha-1)],13))
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == hvecs[dh(ha-2)] ^ hvecs[dh(ha-1)])
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == (hvecs[dh(ha-1)] * 0xc2b2ae35))
	ha += 1

	hvecs[dh(ha)] = BitVec(dh(ha),32)
	s.add(hvecs[dh(ha)] == LShR(hvecs[dh(ha-1)],16))
	ha += 1

	s.add(hash_result == hvecs[dh(ha-2)] ^ hvecs[dh(ha-1)])

	ch = s.check()
	print ch
	if ch.r == 1:
	model = s.model()
	print "\ninverting 0x%x returns:" % hash_result
	data = model[data]
	for i in range(0 ,length):
	print data.entry(i)
	else:
	print s.unsat_core()


	# should really use proper argparse here, but lazy
	if not sys.stdin.isatty():
	# piped from build output
	hash_result = int(sys.stdin.read(),0)
	length = int(sys.argv[1])

	elif len(sys.argv) != 3:
	print "Sorry, calling format has to be like ./inverter.py 0x(<murmurhash>) original_data_length"
	sys.exit(1)

	else:
	# just called directly
	hash_result = int(sys.argv[1],0)
	length = int(sys.argv[2])

	solve()
	class MurmurTest {
	public static void main(String args[]){
	byte[] data = { 90, 1, 2, 44};
	System.out.format("0x%x\n", murmurhash3_x86_32(data, 0, data.length, 0xefef));
	}

	/*
	* This is verbatim from:
	* https://raw.githubusercontent.com/yonik/java_util/master/src/util/hash/MurmurHash3.java
	*/
	public static int murmurhash3_x86_32(byte[] data, int offset, int len, int seed) {

	int c1 = 0xcc9e2d51;
	int c2 = 0x1b873593;

	int h1 = seed;
	int roundedEnd = offset + (len & 0xfffffffc); // round down to 4 byte block

	for (int i=offset; i<roundedEnd; i+=4) {
	// little endian load order
	int k1 = (data[i] & 0xff) \| ((data[i+1] & 0xff) << 8) \| ((data[i+2] & 0xff) << 16) \| (data[i+3] << 24);
	k1 *= c1;
	k1 = (k1 << 15) \| (k1 >>> 17); // ROTL32(k1,15);
	k1 *= c2;

	h1 ^= k1;
	h1 = (h1 << 13) \| (h1 >>> 19); // ROTL32(h1,13);
	h1 = h1*5+0xe6546b64;
	}


	// tail
	int k1 = 0;

	switch(len & 0x03) {
	case 3:
	k1 = (data[roundedEnd + 2] & 0xff) << 16;
	// fallthrough
	case 2:
	k1 \|= (data[roundedEnd + 1] & 0xff) << 8;
	// fallthrough
	case 1:
	k1 \|= (data[roundedEnd] & 0xff);
	k1 *= c1;
	k1 = (k1 << 15) \| (k1 >>> 17); // ROTL32(k1,15);
	k1 *= c2;
	h1 ^= k1;
	}

	// finalization
	h1 ^= len;

	// fmix(h1);
	h1 ^= h1 >>> 16;
	h1 *= 0x85ebca6b;
	h1 ^= h1 >>> 13;
	h1 *= 0xc2b2ae35;
	h1 ^= h1 >>> 16;

	return h1;
	}
	}