๋ฒ์ญ Project Zero: Searching statically-linked vulnerable library functions in executable code
์ทจ์ฝํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ static link (์ ์ ๋งํฌ)๋ ์ ์ฌํ ํ์ผ๋ค์ binary ๋ ๋ฒจ์์ ํ์งํ๊ธฐ๊ฐ ์ด๋ ต๋ค
์ด ๊ธ์์ ๋ฐ์ด๋๋ฆฌ ํ์ผ์ ์ ์ ์ผ๋ก ๋ถ์ํ์ฌ ์ทจ์ฝํ ์คํ ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฅผ ํ์งํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ด๊ณ ์๋ค.
์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ทจ์ฝ์ ์ด ์์ฃผ ๋ฐ๊ฒฌ๋๋ค. ์ด๋ฅผ ์ฌ์ฉํ ๋ ์ํํ๋ฏ๋ก ์ฃผ์ํด์ผํ๋ค.
dynamic linked ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํจ์นํ ๋์๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ง ๊ต์ฒดํ๋ฉด ๋์ง๋ง static linked ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํจ์นํ๊ธฐ ์ํด์๋ ๋งํน๋ ๋ฐ์ด๋๋ฆฌ๋ฅผ ์ ๋ฐ์ดํธ ํด์ผํ๋ค.
๊ตณ์ด ์๋ก์ด ์ทจ์ฝ์ ์ ์ฐพ์ผ๋ ค๊ณ ํ์ง ์์๋ ํ๊ฒ์์ ์ทจ์ฝ์ ์ ์ฝ๊ฒ ์ฐพ์์ ์๋ ๊ธฐํ์ด๋ค.
์ด์ ๊ด๋ จ๋ ๋๊ตฌ๊ฐ ๋ถ์กฑํ์ฌ ๋์ ์ด๊ธฐ๋ ํ๋ค.
- ๊ณ ์ ํ ๋ฌธ์์ด ๊ฒ์
- ์ถ์ธก
BinDiff
ํด ์ฌ์ฉ
๋น๊ต์ ํฐ ํฌ๊ธฐ๋ก ํจ์จ์ ์ธ fuzzy search
Fuzzy Search
๊ฐ ํ์ํ ์ด์ : compiler์ ์ฐจ์ด(๋ค์์ฑ), ์ต์ ํ(optimization) ๋ณํ, ์ฝ๋ ๋ณํ์ ๋ฐ๋ผ noise๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ง์ถค๋ฒ ๊ฒ์ฌ๋ ๋ง์ถค๋ฒ ์ค๋ฅ ๊ต์ ์ ์ฌ์ฉ๋๋ ์๊ณ ๋ฆฌ์ฆ.
์ ํํ ํค์๋๋ก ๊ฒ์ํ์ง ์์๋ ์ ์์ด ๊ฒ์์ ๊ด๋ จ์ด ๊น์/์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ํ์ํด์ค๋ค.
Example : Misissippi -> Mississippi
์ ์ฌํ ๊ฒฐ๊ณผ์ ๊ด๋ จ๋ ์ ์ฌ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ด๋ฏ๋ก ์ด ์ฐ๊ตฌ ์งํ์ ์ ํฉํ๋ค.
์ ์ ์ด๊ณ ์ ํํ ๊ฒ์๋ณด๋ค ํจ์จ์ ์ด๋ค.
์ปดํ์ผ๋ฌ์ ์ปดํ์ผ ์ต์ , ์ต์ ํ์ ๋ฐ๋ผ CFG๊ฐ ๋ค๋ฅด๊ฒ ๋ณํํ๋ค.
code duplication, instruction movement and scheduling์ผ๋ก ์ธํด disassembly๋ค์ด ๋ค์ํด์ง๋ค.
ํจ์์ ๋ณํ๋ฅผ ์๋ณํด์ผํ๊ธฐ ๋๋ฌธ์ ํ์ํ๋ค.
๊ฒ์์์ง์์ ์ค๋ณต๋ ๋ฌธ์๋ฅผ ์ ๊ฑฐํ ๋ ์ฌ์ฉํ๋ ์๊ณ ๋ฆฌ์ฆ.
Locality Sensitive Hashing
์๊ณ ๋ฆฌ์ฆ ๊ณผ์ ์ ์ผ๋ถ๋ถ์ด๋ค.
์ ์ฌํ ์ฝ๋๋ฅผ ํ์งํ ๋ ํ์ํ๋ค.
- feature์ n ๋นํธ๊ฐ 0์ด๋ฉด n๋ฒ์งธ float point์์ 1์ ๋นผ๊ณ 1์ด๋ฉด ๋ํ๋ค
- float point vector -> 128bit vector๋ก ๋ณํ : +๋ 1๋ก, -๋ 0์ผ๋ก ๋ณ๊ฒฝ
๊ณ์ฐํ fingerprint(hash)๋ฅผ XOR ํ POPCNT ๋ฅผ ์ํํ๋ฉด hamming distance
๋ฅผ ๊ตฌํ ์ ์๋ค.
์ ์ฌํ๋ค๊ณ ํ์งํ ํน์ง์ด ํ์ํ๋ค.
-
cfg์ sub graph
-
asm mnemonic์ ngram(์ฐ์๋ ์งํฉ)
-
ํจ์ prologue
ํจ์์ prologue๋ ์ ์ฌํจ์ ํ๋ณ์ ์ฌ์ฉํ ์ ์๋ค.
๊ฐ์ฅ ๊ทผ์ ํ ํด์๋ฅผ ๊ฐ๋จํ ๊ทผ์ฌํ๋ ๋ฐฉ๋ฒ
Locality Sensitive Hashing
- ํจ์์ ๋ํ similarity-preserving hash๋ฅผ ๊ณ์ฐํ์ฌ ํฌ๊ธฐ๊ฐ ์ ํด์ง์ง ์์ ๊ฐ์ฅ ์ ์ฌํ ํด์๋ฅผ ์ฐพ๊ธฐ์ํด ์ฌ์ฉ
๋๋คํ ์ ์ ๊ทธ์ด ํํฐ์ ์ ๋๋ํ ํํฐ์ ์ bucket์ ๋ฃ๊ณ ๋ถ๋ฅํ๋ค.
ANNS(Approximate Nearest-Neighbor Search)
์ ์ข
๋ฅ์ด๋ค.
๋ฒกํฐ ๊ณต๊ฐ์ ๋ฎ์ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ๋ถํ ํ์ฌ hash๋ฅผ ๊ตฌํ๊ณ data bucket์ ๋ด์ ์ ์ฌ๋๋ฅผ ํ๋ณํ๋ค.
์ฐจ์์ด ๋์ data set๋ค์ ๋ฎ์ ์ฐจ์์ผ๋ก ๋ณํ ํ๋ค.
์ผ์ ๋ฒ์๋ด์ ์ ๋ค์ ํ ๋ฒํท์ผ๋ก ๋ถ๋ฅํ๋ค.
bit vector๋ฅผ ์ ๋ ฅํ๋ฏ๋ก ์ด ๋นํธ๋ค์ subsampleํ๋ค. -> ๋นํธ์ ์์ด์ ๊ตฌํ๋ค.
k๊ฐ์ ์๋ก ๋ค๋ฅธ ํด์๋ฅผ ๊ตฌํ๊ธฐ ์ํด k๊ฐ์ ์์ด์ ๊ตฌํ๋ค. 128bit ์์ด์ ์ฝ์คํธ๊ฐ ํฌ์ง ์์ ์ ๋นํ๋ค.
<PermutationIndex, k-th-permutation-of-input-hash, result-id>
<k, perm_k(input) & (0xFFL << 56), 0>
binary search๋ฅผ k๋ฒ ์ํํ์ฌ ์ป์ hash bucket๋ค์ ํ๋ณด์ ๋ฃ์ผ๋ฉด ์ด๋ค๊ณผ ์ ๋ ฅ๋ hash๊ฐ์ hamming distance๋ฅผ ๊ตฌํ ์ ์๋ค.
๋ฉ๋ชจ๋ฆฌ์ ์บ์์ ๊ฐ์ฅ ํจ์จ์ ์ธ ๋ฒ์ ์ ์ ๋ ฌ๋ flat array / vector๋ฅผ ์ฌ์ฉํ๋ค.
์ถ๊ฐ๋ฅผ ์ํด์ std::set
๊ฐ ํจ์จ์ ์ด๊ณ ์ฝ๊ธฐ๊ฐ ๋ง์ ๊ฒฝ์ฐ ์ ๋ ฌ๋ ๋ฒกํฐ๊ฐ ํจ์จ์ ์ด๋ค.
์ ๋ ฅ ์ ์ ๋ชจ๋ feature์ ์ค์๋๊ฐ ๊ฐ๊ฒ ์ฒ๋ฆฌ๋๋ ๋ฌธ์ ๊ฐ ์์๋ค.
๋คํํ float point vector์ +1 -1ํ๋ ๋์ ์ weight(๊ฐ์ค์น)๋ฅผ ๋ํ๊ฑฐ๋ ๋นผ๋ ๋ฐฉ๋ฒ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค.
ML์ Automatic Differentiation
(๋ฏธ๋ถ ์๋ํ)๊ฐ ํต์ฌ์ด๋ค. -> Cheap Gradient Principle
์ ์ ์ฉ์ ๋์์ด ๋๋ค.
์ค์ฐจํจ์์ธ Loss Function
์ ๊ฐ์ ์ต์ํ ํด์ผํ๋ค. -> ๊ฐ์ค์น๊ฐ ํฌํจ๋ ํจ์๋ฅผ ๊ตฌํด์ผํ๋ค.
๊ฐ๋ค
ํน์ ๊ฐ์ง ์๋ค
๋ก ๋ถ๋ฅ๋ ๋ฐ์ดํฐ๋ก ํจ์จ์ ์ธ loss function์ ์ง์ ํ ์ ์๋ค.
๊ฑฐ๋ฆฌ๋ ๋ ๋นํธ ๋ฒกํฐ ์ฌ์ด์ ํด๋ฐ ๊ฑฐ๋ฆฌ์ด๋ฏ๋ก ๊ธฐ์ธ๊ธฐ๊ฐ 0์ผ ํ๋ฅ ์ด ๋๋ค.
๊ฐ๋จํ ํด๊ฒฐ๋ฒ์ ํด์๋ฅผ ๊ณ์ฐํ ๋ ๋ง์ง๋ง ๊ณผ์ ์ ์ ์ธํ๋ ๊ฒ์ด๋ค.
Hash ๋น๊ต ๋์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ์ธก์ ์ผ๋ก ๋์ฒดํ๋ค. -> ๋นํจ์จ์
๊ฐ์ฅ ๊ฐ๋จํ ํด๊ฒฐ์ ์ ์ฌํ ๋ ํจ์์ ๊ฐ์ค์น๋ฅผ 0์ผ๋ก ์ค์ด๋ ๊ฒ.
๊ฑฐ๋ฆฌ๊ฐ ๋ฉ๋ ํจ์๊ฐ ์ ์ฌํ๋ค๊ณ ํ๋ณํ๊ฑฐ๋ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ธ ๋ ์ ์ฌํ์ง ์๋ค๊ณ ํ๋ณํ๋ฉด penalize
ํด์ผํ๋ค.
๋ ๊ฐ์ด ๊ฐ์ ๋ถํธ -> - ํจ์ or 0 ํจ์
๋ ๊ฐ์ด ๋ค๋ฅธ ๋ถํธ -> + ํจ์.
๊ธฐ์ธ๊ธฐ / ์ธ์ผํฐ๋ธ : ๊ฐ์ ๋ถํธ์ ๋ฐฉํฅ์ผ๋ก ์ ๋ ฅ์ ์ด๋
x์ y์ ๋ถํธ๊ฐ ๋ค๋ฅผ ๋ ์์ค๊ฐ์ด ๋๊ณ ๊ฐ์ผ๋ฉด ์์ค์ด 0์ด๋๋ค.
๋ฌธ์ ์ : ๊ทธ๋ํ๊ฐ ํํํ์ฌ ๊ฐ์ด ์ผ์ ํ๋ค.
์กฐ๊ฑด์ ๋ง๋ ํจ์๋ฅผ ๊ตฌํ์๋ค.
ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ ์ ์๊ฒ ๋์๋ค.
- ๋ฐ์ดํฐ ์์ฑ์ด ๊ฐ๋จํด์ผํจ.
- compiler์ ๋ค์ํ version๊ณผ ๋ค์ํ option์ ์ค์ ํ์ฌ ์คํ ์์ค ์ฝ๋ ์ปดํ์ผ
- ํ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ด๋ค ์ปดํ์ผ ์ต์ ๊ณผ ๋ฒ์ ์ผ๋ก ์ปดํ์ผ๋์ด ์๋์ง ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅํํ ๋น๊ต๊ตฐ์ ๋ง์ด ๋ง๋ค์ด์ผํ๋ค.
- symbol info parsing - ๋ณํํ/๋ค์ํ ํจ์๋ค์ ๊ทธ๋ฃน์ ๋ง๋ค๋ ํ์
- ์ปดํ์ผ ์ต์ ์ ๋ฐ๋ฅธ ๋ค์ํ ํจ์๋ฅผ ๊ทธ๋ฃนํ
- ์ ์ฌํ์ง ์์ ์์ ๋ค๋ฅธ ๊ธฐํธ์ ๋ค๋ฅธ ํจ์๋ก ์ ์ํ ์ ์์.
ํ์ง๋ง symbol parsing ๊ณผ CFG ์ฌ๊ตฌ์ฑ์ ๋ง์ ๊ตฌํ ๋ฌธ์ ๊ฐ ์กด์ฌ
PDB ํ์ผ์ parsingํ๋ cross platform ๋๊ตฌ๊ฐ ์๋ค.
GCC, CLANG ๋์ฒดํ๋ค๋ฉด ํด๊ฒฐํ ์ ์์ง๋ง Visual Studio์ ํจ๊ป ๋น๋ํ์ง ์๋ ํ๋ก์ ํธ๋ ๋ ์ ๋ค. -> ๋์ฒด๊ฐ ๋ถ๊ฐ๋ฅํ๋ค.
VS์ GCC๋ก ๊ฐ์ codebase๋ฅผ ์์ ์ ์ผ๋ก ๋ง๋๋ ๊ฒ์ ํฌ๊ธฐํ์๋ค.
C++ mangling convention์ด ์ปดํ์ผ๋ฌ๋ง๋ค ๋ค๋ฅด๋ค. -> ๊ฐ์ ํจ์์ ์ด๋ฆ์ด ๋ค๋ฅด๋ค.
Type info๋ฅผ ์ ๊ฑฐํ๊ณ hackishํ ํด๋ก ์ธ ์ปดํ์ผ๋ฌ๋ค์ ํ๊ธฐ๋ฒ์ ํต์ผํ์ฌ ํด๊ฒฐํ ์ ์๋ค.
๋์ค์ด์
๋ธ๋ฌ์์ switch๋ฌธ์ ์ฒ๋ฆฌํ ๋ ์ค๋ฅ๊ฐ ๋ฐ์ : ํจ์ ์๋ฆผ, basic block ํ ๋น ๋ฌธ์
-fPIE
์ -fPIC
๋ก ์ปดํ์ผ๋ gcc binary๋ ๋ ๋ฌธ์ ๊ฐ ๋ง๋ค. ์์ฆ linux ์์คํ
์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ์ค์ ๋์ด์๋ค.
Stack Cookie Check ํ ๋ return์ ํ์ง ์์ ๋์ค์ด์
๋ธ๋ฌ์ CFG์์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
๋ ์์ ์ ์ธ disassembly๋ก ํด๊ฒฐํ ์ ์์ง๋ง -fno-PIE
-fno-PIC
์ต์
์ผ๋ก ํด๊ฒฐํ ์ ๋ฐ์ ์๋ค.
testdata/generate_training_data.py
์คํฌ๋ฆฝํธ๋ก ์์ฑํ ์ ์๋ค.
testdata/ELF
์ testdata/PE
ํด๋์ ์๋ ๋ชจ๋ binary file์ ๋ถ์ํ๋ค.
ELF : DWARF debug info๊ฐ ์์ ๊ฒฝ์ฐ objdump
๋ก ์ถ์ถ
PE : Linux์์ PDB ๋ถ์ ๋ฐฉ๋ฒ์ ์ฐพ์์ ์์์. DIA2Dump
ํด ์ฌ์ฉ
EXE ID : SHA256
./extracted_symbols_<EXEID>.txt
[exe ID] [exe path] [function address] [base64 encoded symbol] false
./functions_<EXEID>.txt
[exe ID]:[function address] [sequence of 128-bit hashes per feature]
./[training|validation]_data_[seen|unseen]/attract.txt
./repulse.txt
[exe ID]:[function address] [exe ID]:[function address]
Training/Validation์ ๋ฐ๋ก ๋๋์ด ์์ฑํ ์ด์ : ๋ฐ์ดํฐ๋ฅผ ๋จผ์ ํ์ตํ ๋ค์ ๋ถ๋ฆฌ ์ํจํ ๋๋จธ์ง๋ฅผ ํ์ง ํด์ผํ๊ธฐ ๋๋ฌธ์ด๋ค.
(1) ํ์ตํ ํจ์๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๋ณํ๋ฅผ ํ์ง
-
ํจ์์ ๋ณํ๋ฅผ ๋ถ๋ฆฌ
-
๋๋จธ์ง๋ฅผ ํ์ต
-
๋ถ๋ฆฌํ ํจ์ validation
(2) ํ์ต๋์ ํจ์๋ฅผ ์ฌ์ฉํ ์ ์๋ ๋ฒ์ ์ด ์๋๋ผ๋ ํจ์์ ๋ณํ๋ฅผ ํ์ง
- ๊ฐ์ฅ ์ ์ฉํ์ง๋ง ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅ.
- training/validation data๋ฅผ Function group(๊ฐ์ ํจ์ ์ฝ๋๊ฐ ๋ณํํ ์งํฉ)์ ๋ฐ๋ผ ๋๋์ด์ผ ํ๋ค.
- Function group์ ๋ถ๋ฆฌ ํ ๋ค๋ฅธ function group์ ํ์ต ๋ถ๋ฆฌํ ๊ทธ๋ฃน์ validationํด์ผ ํ๋ค.
TensorFlow
Julia
+AutoDiff
ํ์ง๋ง dependency๋ฅผ ์ค์ด๊ธฐ์ํด C++์ ์ฌ์ฉํ์ฌ loss function ์ค์ .
SPII C++๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฌ์ฉํ์ฌ ์ต์ํ
- ์ฅ์ : ๊น๋ํ๊ณ ์ข์ ํ๋ก๊ทธ๋๋ฐ model
- ๋จ์ : CPU๋ง ์ฌ์ฉ. GPU๋ก ๋์ฒด ํ์.
thomasdullien@machine-learning-training:~/sources/functionsimsearch/bin$ ./trainsimhashweights -data=/mnt/training_data/training_data_seen/ โweights=weights_seen.txt
L-BFGS
๊ฐ 500๋ฒ ๋ฐ๋ณต ๋๊ณ ํ์ต์ 20๋ฒํ ๋๋ง๋ค snapshot ์์ฑ๋จ.
Limited-memory BFGS - Wikipedia
Quasi-Newton
๋ฐฉ๋ฒ์ค ํ๋๋ก ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
Quasi-Newton method - Wikipedia
Hessian ํ๋ ฌ์ ๋ฏธ๋ถ ์์ด ํจ์๊ฐ์ผ๋ก ๊ทผ์ฌํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ทธ๋ํ๋ x์ถ์ ์คํ y์ถ์ ์ ์ฌํ ํจ์์ ์ ์ฌํ์ง ์์ ํจ์์ ๋นํธ(๊ฑฐ๋ฆฌ) ์ฐจ์ด๋ฅผ ๋ํ๋ธ๋ค. 420 ์คํ ์ดํ๋ก ๊ทธ๋ํ๊ฐ ๊ฐ์.
๋์ด์ ์ต์ ํ์ ํ์๊ฐ ์์ด์ง.
๊ฑฐ๋ฆฌ ์ฐจ์ด๊ฐ 10๋นํธ์์ 25๋นํธ๋ก ํฅ์ ๋์๋ค. -> ํจ์์ ๋ณํ๋ฅผ ์ธ์ํ๋ ํ์ต์ด ์ ์ฉ๋์๋ค.
- ๊ณ ์ฐจ์ ์๊ฐํํ์ฌ ๋ถ์ -
t-SNE
orMDS
์ฌ์ฉ - AUC (Area-under-ROC-curve) ๋ถ์
- ๊ตฌํ feature ๊ฐ์ค์น๋ฅผ ๋ถ์ํ์ฌ ํ์ต๊ฒฐ๊ณผ ๋ถ์
T-distributed Stochastic Neighbor Embedding
๊ณ ์ฐจ์์ ์ ์ฐจ์์ผ๋ก ์ค์ด๋ ์ฐจ์๊ฐ์ ์๊ฐํ.
T ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ์ ์ฌ๋๊ฐ ๋น์ทํ๊ฒ๋ผ๋ฆฌ ๋ฌถ์ด ์๊ฐํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
./plot_function_groups.py ../bin/symbols.txt ../bin/unit_index.txt /tmp/unit_features.html
./plot_function_groups.py ../bin/symbols.txt ../bin/learnt_index.txt /tmp/learnt_features.html
๋ชจ๋ feature๊ฐ ํ์ตํจ๊ณผ๋ฅผ ๋ณด์ด์ง ์์๋ค. ๋ช๋ช feature๋ ํ์ตํจ๊ณผ๊ฐ ๋จ์ด์ก๋ค.
- TP(True Positive) : True๋ฅผ True๋ผ ํ๋๊ฒ
- TPR(True Positive Rate) : ์ ๋ฐ๋
- FP(False Positive) or Type 1 Error : False์ธ๊ฒ์ True๋ผ ํ๋๊ฒ.
- FPR(False Positive Rate) : ์์๋
- IRR(Irrelevant Result Rate): ๋ถ์ ํฉ๋
- ROC-Curve : x์ถ์ด FPR, y์ถ์ด TPR์ธ ๊ทธ๋ํ
Hash bucket ์ผ๋ง๋ ์ ํํด์ผํ๋์ง ์ ํ ๋์ ๊ทผ์ฌ์จ๊ณผ ์ ํ๋๋ฅผ ๊ณ์ฐํ๋๋ฐ ๋์์ด ๋๋ค.
ROC ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์คํฌ๋ฆฝํธ๋ฅผ ๊ฐ๋ฐํ๋ค.
testdata/evaluate_ROC_curve.py --symbols=/media/thomasdullien/roc/symbols.txt --dbdump=/media/thomasdullien/roc/search.index.txt --index=/media/thomasdullien/roc/search.index
gnuplot
์ ์ด์ฉํด ๊ทธ๋ํ ์์ฑ
gnuplot -c ./testdata/plot_results_of_evaluate_ROC_curve.gnuplot ./untrained_roc.txt
gnuplot -c ./testdata/tpr_fpr_curve.gnuplot ./untrained_roc.txt ./trained_roc.txt
- TPR์ด 50%๊ฐ ๋์๋ 20%๊ฐ irrelevantํ๋ค. Cut-off distance๋ 25๋นํธ ์ ๋์ด๋ค.
- TPR์ด 55%๊ฐ ๋๋๊ฒ์ ๋ณด์ 35๋นํธ ๋ถํฐ irrelevant ํ๋ค. ๊ฐ์ค์น๋ฅผ ๋ ํ์ตํ์ฌ ๊ฐ์ ํ ์ ์๋ค.
- TPR๊ณผ FPR์ด ํํํ๋ค.
- ๋นํธ๋ฅผ ํ์ฅ์์ผ search space๊ฐ ์ ์ ๊ฐ์ํ๊ณ ์๋ค.
- relevant๋ฅผ ๊ฐ์ ํด์ผํ๋ค.
- Recall ํฅ์๊ณผ ์ ํ๋ ์ ํ ๋น๊ต
- 10๋นํธ ์ชฝ์์ IRR์ด 15%->5% ๊ฐ์
- TPR ๊ฐ์
- 33% ์ฑ๊ณต
- IRR ํจ์จ์ ์ข์์ผ๋ ๊ฒฐ๊ณผ๋ ๋จ์ด์ง
- 15%์ IRR์ ์ฑํํ๋ฉด 45% ์ฑ๊ณต๋ฅ ์ ๊ฐ์ง์์ (ํ์ต ์ )
- 5% IRR ์ฑํ์ 40% ์ฑ๊ณต๋ฅ ์ด ๊ฐ์ (ํ์ต ํ)
- IRR์ ๋ฎ์ถ๋๋ฐ์๋ ํ์ต์ด ํจ๊ณผ์
- ํ์ตํ์ง ์์ ๊ฒฐ๊ณผ๊ฐ ๋ ์ข์์.
Out-of-sample : ํ์ตํ์ง ์์ ํ๋ณธ์ ์์ธก
์ง๋ฌธ(2)๋ฅผ ์ํด ์ง๋ฌธ(1)์ ํ๊ท ๊ฑฐ๋ฆฌ ์ฐจ์ด๋ก ์๊ฐํํ ๊ทธ๋ํ
80 ํ์ต ์คํ ์ดํ 11.42๋นํธ์์ 12.81๋นํธ๋ก ์ฌ๋๋ค.
IDA
, Radare
, Binary Ninja
, Miasm
๋ฑ RE๋๊ตฌ์ ์ฐ๋์ ์ํดFunctionSimSearch
๋ Python Binding์ ์ ๊ณตํ๋ค.
jsonstring = (... load the JSON ... )
fg = functionsimsearch.FlowgraphWithInstructions()
fg.from_json(jsonstring)
hasher = functionsimsearch.SimHasher("../testdata/weights.txt")
function_hash = hasher.calculate_hash(fg)
JSON๊ธฐ๋ฐ์ Python API๋ก ์ฌ์ฉํ์ฌ Flow Graph๋ฅผ ๋ํ๋ผ์ ์๋ค.
{
"edges": [ { "destination": 1518838580, "source": 1518838565 }, (...) ],
"name": "CFG",
"nodes": [
{
"address": 1518838565,
"instructions": [
{ "mnemonic": "xor", "operands": [ "EAX", "EAX" ] },
{ "mnemonic": "cmp", "operands": [ "[ECX + 4]", "EAX" ] },
{ "mnemonic": "jnle", "operands": [ "5a87a334" ] } ]
}, (...) ]
}
์ด json ๋ฐ์ดํฐ๋ค์ input์ผ๋ก ๋ฃ์ด์ฃผ๋ฉด Python Tuple๋ก function hash๊ฐ ๋์จ๋ค.
-
IDA Plugin - functionsimsearch/ida_example.py at master ยท googleprojectzero/functionsimsearch ยท GitHub
-
Binary Ninja - functionsimsearch/pybindings/binary_ninja_plugin at master ยท googleprojectzero/functionsimsearch ยท GitHub
ida_example.py
๋ฅผ ์ฌ์ฉํ์ฌ mpengine.dll
์ ์กด์ฌํ๋ unrar
Open Source Library ์ฝ๋๋ฅผ ๋ถ์ํ๋๋ก ํ๋ค.
Result is 125.000000 - build.VS2015\unrar32\Release\UnRAR.exe 'memcpy_s' (1 in inf searches)
Result is 125.000000 - build.VS2015\unrar32\MinSize\UnRAR.exe 'memcpy_s' (1 in inf searches)
Result is 125.000000 - build.VS2015\unrar32\FullOpt\UnRAR.exe 'memcpy_s' (1 in inf searches)
--------------------------------------
Result is 108.000000 - build.VS2015\unrar32\MinSize\UnRAR.exe '?RestartModelRare@ModelPPM@@AAEXXZ' (1 in 12105083908.189119 searches)
Result is 107.000000 - build.VS2013\unrar32\MinSize\UnRAR.exe '?RestartModelRare@ModelPPM@@AAEXXZ' (1 in 3026270977.047280 searches)
Result is 107.000000 - build.VS2010\unrar32\MinSize\UnRAR.exe '?RestartModelRare@ModelPPM@@AAEXXZ' (1 in 3026270977.047280 searches)
--------------------------------------
Result is 106.000000 - build.VS2010\unrar32\Release\UnRAR.exe '?Execute@RarVM@@QAEXPAUVM_PreparedProgram@@@Z' (1 in 784038800.726675 searches)
Result is 106.000000 - build.VS2010\unrar32\FullOpt\UnRAR.exe '?Execute@RarVM@@QAEXPAUVM_PreparedProgram@@@Z' (1 in 784038800.726675 searches)
Result is 105.000000 - build.VS2010\unrar32\MinSize\UnRAR.exe '?Execute@RarVM@@QAEXPAUVM_PreparedProgram@@@Z' (1 in 209474446.235050 searches)
--------------------------------------
Result is 106.000000 - build.VS2010\unrar32\MinSize\UnRAR.exe '?ExecuteCode@RarVM@@AAE_NPAUVM_PreparedCommand@@I@Z' (1 in 784038800.726675 searches)
--------------------------------------
Result is 105.000000 - ar\build.VS2015\unrar64\Debug\UnRAR.exe 'strrchr' (1 in 209474446.235050 searches)
Result is 105.000000 - ar\build.VS2013\unrar64\Debug\UnRAR.exe 'strrchr' (1 in 209474446.235050 searches)
Result is 105.000000 - ar\build.VS2012\unrar64\Debug\UnRAR.exe 'strrchr' (1 in 209474446.235050 searches)
--------------------------------------
Result is ??
?? ๋ 128bit ํด์์ค ๋ช ๋นํธ๊ฐ ์ ์ฌํ์ง ๋ํ๋ธ ๊ฒ์ด๋ค.
- ๋นํธ ์ ์ฌ๋ : 97.6%
- ์ ์ฌ ๋นํธ ์ : 125bit/128bit
- ์ฌ์ํ ๋ณํ ์ธ ๊ฑฐ์ ์ผ์น
- CFG ์ผ์น
- ๋นํธ ์ ์ฌ๋ : 84.3%
- ์ ์ฌ ๋นํธ ์ : 108bit / 128bit
- Structure Offset์ ๊ฝค ๋ณํ
- CFG ๋ง์ด ๋ฐ๋์ง ์์.
- ์ฒซ basic block์ ์ฐจ์ด๊ฐ ๋ณด์ -> ๊ทธ๋๋ ์ ์ฌํจ
- ๋นํธ ์ ์ฌ๋ : 82.8%
- ์ ์ฌ ๋นํธ ์ : 106bit/128bit
- 0x17D7840 ์์๊ฐ ๊ฐ์.
- ๋นํธ ์ ์ฌ๋ : 97.6%
- ์ ์ฌ ๋นํธ์ : 125bit/128bit
- ๋นํธ๊ฐ ๋งค์ฐ ์ ์ฌํ๋ค๊ณ ํ๋ณํ์์ง๋ง False Positive ์
- ๋ค๋ฅธ ํจ์์ด์ง๋ง ๋นํธ๊ฐ ์ ์ฌํ๋ค๊ณ ํ๋ณ.
operater==
์์ ์ฝ๊ฒ ๋ฐ์ ๊ฐ๋ฅ
์์ Adobe Reader๊ฐlibtiff
์ ๊ตฌ๋ฒ์ ์ ์ฌ์ฉํ์ฌ ์ทจ์ฝ์ ์ด ๋ฐ์ํ์ ์ด ์๋ค.
- ๋ค์ํ ๋ฒ์ ์ Visual Studio์ ๋ค์ํ Compile Setting์ผ๋ก ์ปดํ์ผํ ๋๋ ํ ๋ฆฌ
- PDB ํ์ผ ๋๋ฒ๊น
์ ์ํด
DIA2Dump
๋ฅผ ์ฌ์ฉํ์ฌ.debugdump
ํ์ผ์ ์ป๋๋ค.
for i in $(find /media/thomasdullien/storage/libtiff/PE/ -name tiff.dll); do./addfunctionstoindex --input=$i --format=PE --index=/var/tmp/work/simhash.index; done
tiff.dll
์ SimHash index๋ฅผ ์์ฑํ๋ค.
~/Desktop/sources/functionsimsearch/testdata/generate_training_data.py --work_directory=/var/tmp/work/ --executable_directory=/media/thomasdullien/storage/libtiff/ --generate_fingerprints=True --generate_json_data=False
cat /var/tmp/work/extracted_symbols* > /var/tmp/work/simhash.index.meta
generate_training_data
ํจ์์ symbol๋ค์ ๋ง๋ค๊ณ training data๋ฅผ ์์ฑํ๋ค.
for i in $(find /media/DLLs -iname ./*.dll); do echo $i; ./matchfunctionsindex --index=/var/tmp/work/simhash.index --input $i; done
matchfunctionsindex
๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑํ ๋ฐ์ดํฐ์ ์ธ๋ฑ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ dll์ ํ์ํ๋ค.
/home/thomasdullien/Desktop/sources/adobe/binaries/AGM.dll
(...)
/home/thomasdullien/Desktop/sources/adobe/binaries/BIBUtils.dll
(...)
[!] (3191/3788 - 23 branching nodes) 0.851562: cf1cc98bead49abf.53135c10 matches 39dd1e8a79a9f2bc.1001d43d /home/thomasdullien/Desktop/tiff-3.9.5-builds/PE/vs2015.32bits.O1/libtiff.dll PackBitsEncode( tiff*, unsigned char*, int, unsigned short)
/media/dlls/Windows/SysWOW64/WindowsCodecs.dll
[!] Executable id is cf1cc98bead49abf
[!] Loaded search index, starting disassembly.
[!] Done disassembling, beginning search.
[!] (3191/3788 - 23 branching nodes) 0.851562: cf1cc98bead49abf.53135c10 matches 39dd1e8a79a9f2bc.1001d43d /home/thomasdullien/Desktop/tiff-3.9.5-builds/PE/vs2015.32bits.O1/libtiff.dll PackBitsEncode( tiff*, unsigned char*, int, unsigned short)
[!] (3192/3788 - 23 branching nodes) 0.804688: cf1cc98bead49abf.53135c12 matches 4614edc967480a0d.1002329a /home/thomasdullien/Desktop/tiff-3.9.5-builds/PE/vs2013.32bits.O2/libtiff.dll
[!] (3192/3788 - 23 branching nodes) 0.804688: cf1cc98bead49abf.53135c12 matches af5e68a627daeb0.1002355a /home/thomasdullien/Desktop/tiff-3.9.5-builds/PE/vs2013.32bits.Ox/libtiff.dll
[!] (3192/3788 - 23 branching nodes) 0.804688: cf1cc98bead49abf.53135c12 matches a5f4285c1a0af9d9.10017048 /home/thomasdullien/Desktop/tiff-3.9.5-builds/PE/vs2017.32bits.O1/libtiff.dll PackBitsEncode( tiff*, unsigned char*, int, unsigned short)
[!] (3277/3788 - 13 branching nodes) 0.828125: cf1cc98bead49abf.5313b08e matches a5f4285c1a0af9d9.10014477 /home/thomasdullien/Desktop/tiff-3.9.5-builds/PE/vs2017.32bits.O1/libtiff.dll
WindowsCodecs.dll
์ libtiff.dll
์ด ๋งค์น ํ๋๊ฒ์ ์ฐพ์๋ค.
CFG๊ฐ ๊ทธ๋ฆฌ ์ ์ฌํ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ ์๋ค.
ํ๋ํด๋ณด๋ฉด ์ ์ฌํ ๋ถ๋ถ์ด ์กด์ฌํ๋ค.
PDB์์ ์ป์ ํจ์ ์ด๋ฆ์ธ PackBitsEncode
๊ฐ ์ผ์น ํ๊ธฐ ๋๋ฌธ์ ํ์ ์ด ๊ฐ๋ฅํ๋ค.
์กฐ์ฌ๊ฒฐ๊ณผ WindowsCodecs.dll
์์ libtiff
3.9.5 version์ ์ฌ์ฉํ ๊ฒ์ ์์๋๋ค. - libjpeg
๋ฅผ link ํ๊ณ ์๋ค.
-
์์ฆ CPU๋ ํฐ ๋ฉ๋ชจ๋ฆฌ๋ก Linear Sweep์ด ๋น ๋ฅด๋ค.
-
Hash Load - XOR - Calc Bitํ๊ณ ์์ต๊ฐ์ ํด์๋ฅผ ๊ฒ์ฌํ๋ค.
-
์ผ๋ง๋ ๋ง์ ํด์๋ฅผ ๋น๊ตํด์ผํ๋์ง๋ ๋ถ๋ถ๋ช ํ๋ค.
-
Search index๋ over-engineered(๊ณผ๋)ํ ์ ์๋ค.
-
ํจ์จ์ ์ธ ์คํ ๋ฆฌ์ง ๊ด๋ฆฌ๋ก ์ธํด ๊ฐ๋จํ Linear Sweep์ด ๋ ๋์ ์๋ ์๋ค.
-
Static Linked LIbrary๋ฅผ ์ฐพ์๋ ๋๋ถ๋ถ(90%) known/magic string์ ๊ฒ์ํ๋๊ฒ์ด ๊ฐ์ฅ ํจ๊ณผ์ ์ผ ๊ฒ์ด๋ค.
-
ํน์ดํ ๋ฌธ์์ด์ด ๋ง์ ๊ฒฝ์ฐ ๊ฒฐ๊ณผ๋ ์ข์์ง๋ค.
-
์ฐ๊ตฌํ ํด์ ์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฝ๋๋ฅผ ๋ถ์ฌ๋ฃ์ด ์ปดํ์ผ ํ์๋ ์ ์ฉํ๋ค. (๋ฌธ์์ด์ด ์๋ ์ํฉ์ ์ ์ฉํ๋ค.)
-
mpengine.dll
์ ์ ์ฉ๋ ์ ์์๋ค.
-
40%์ ๊ฒฐ๊ณผ๋ง ํ์ ํ ์ ์๋ค.
-
IRR์ ์ค์ด๊ณ TPR์ 90%์ด์์ผ๋ก ๊ฐ์ ํด์ผํ๋ค.
- C++๋ก loss function์ ์ฝ๋ฉํ์๊ธฐ ๋๋ฌธ์ ํ์ต์ ์๊ฐ์ด ์ค๋๊ฑธ๋ฆฐ๋ค.
- Single language codebase๋ก๋ ์ข๋ค.
- GPU๋ก ํ์ต์ ๋ณ๋ ฌํ ํ๋ฉด ๋ ์ฌ์ธ ๊ฒ์ด๋ค.
- ํฐ ๋ฐ์ดํฐ๋ L-BFGS์ ๋ถ์ ํฉํ๋ค.
- Beyond triplet loss: a deep quadruplet network for person re-identification
- ์ง๊ด์ ์ธ ๊ด์ ์์ ํจ๊ณผ๊ฐ ์์์ ์๋ค.
- mnemonic tuple, CFG, 4์ ๋ฐฐ์๊ฐ์๋ ์์ ๋ฑ ํ์ฌ features๋ ์ข์ง ์๋ค.
- ์ค์ํ ์ ๋ณด๊ฐ์๋ operand, structure offset, strings์ ๊ณ ๋ ค๋์ง ์์๋ค.
- ๊ทธ๋ํ ํ์ตํ๋ ๋ง์ ML ์ฐ๊ตฌ๊ฐ ์งํ๋์๋ค.
- ๊ด๋ จ ๋ ผ๋ฌธ - CCS'17
- ๋ฌธ์์ด ๋งค์น๋ก ํ์งํ ์ ์๋ ๋ถ๋ถ์ ํ์งํ ์ ์์ ๊ฒ์ด๋ค.
- ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ฐ์ ธ์ ์ฌ์ฉํ ํจ์๋ ๋ฐ์ด๋๋ฆฌ ๋ ๋ฒจ์์ ์ธ์ ํ๊ฒ ๋ฐฐ์น ๋์ด์๋ค.
- ์ด ์ ๋ณด๋ฅผ ํ์ฉํ๋ฉด ๋ ํ์คํด์ง ๊ฒ์ด๋ค.
- ANN ์ ๋ฐ์ดํฐ ๊ตฌ์กฐ๊ฐ ๋ณต์กํ๊ธฐ ๋๋ฌธ์ Linear Sweep์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ๋นํจ์จ์ ์ผ์ ์๋ค.
- ์ ์ฅ์ ์ค๋ฒํค๋๊ฐ ๋ฐ์ํ๋ค.
- Linear Sweep ์ ์ฌ์ฉํ ๋ LSH ๊ฐ์ ๋นํธ ์์ด๋ณด๋ค ํจ๊ณผ์ ์ด์ด์ผํ๋ค.
- functionsimsearch/01-motivation-and-overview.md at master ยท googleprojectzero/functionsimsearch ยท GitHub
- Near Duplicate Documents Detection ยท aragorn/home Wiki ยท GitHub
- Random Projection and Locality Sensitive Hashing | LOVIT x DATA SCIENCE
- LSH.9 Locality-sensitive hashing: how it works - YouTube
- Quasi-Newton method - Wikipedia
- Receiver operating characteristic - Wikipedia