holloway · November 21, 2014 05:12 · holloway · Nov 21, 2014 · damhuonglan · Sep 24, 2018
diff --git a/gistfile1.py b/gistfile1.py
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-

 import sys

 pdf = open(sys.argv[1], "rb").read()
 minimum_seek = 20
 startfix = 0
 endfix = 2
 i = 0

 formats = {
    "jpeg": {
        "start": b'\xff\xd8',
        "end": b'\xff\xd9'
    }
 }

 filenumber = 0
 while True:
    istream = pdf.find(b'stream', i)
    if istream < 0:
        break
    print(istream)
    iend = pdf.find(b'endstream', istream)
    if iend < 0:
        raise Exception("Didn't find end of stream!")

    istart = pdf.find(formats["jpeg"]["start"], istream, istream + minimum_seek)
    if istart < 0:
        iend = pdf.find(b'endstream', istart)
        data = pdf[istream:iend]
        datafile = open("data%d" % filenumber, "wb")
        datafile.write(data)
        datafile.close()    
        i = istream + minimum_seek
        filenumber += 1
        continue
    iend = pdf.find(formats["jpeg"]["end"], iend - minimum_seek)
    if iend < 0:
        raise Exception("Didn't find end of JPG!")

    istart += startfix
    iend += endfix
    print("JPG %d from %d to %d" % (filenumber, istart, iend))
    jpg = pdf[istart:iend]
    jpgfile = open("jpg%d.jpg" % filenumber, "wb")
    jpgfile.write(jpg)
    jpgfile.close()
     
    filenumber += 1
    i = iend
	#!/usr/bin/env python3
	# -- coding: utf-8 --

	import sys

	pdf = open(sys.argv[1], "rb").read()
	minimum_seek = 20
	startfix = 0
	endfix = 2
	i = 0

	formats = {
	"jpeg": {
	"start": b'\xff\xd8',
	"end": b'\xff\xd9'
	}
	}

	filenumber = 0
	while True:
	istream = pdf.find(b'stream', i)
	if istream < 0:
	break
	print(istream)
	iend = pdf.find(b'endstream', istream)
	if iend < 0:
	raise Exception("Didn't find end of stream!")

	istart = pdf.find(formats["jpeg"]["start"], istream, istream + minimum_seek)
	if istart < 0:
	iend = pdf.find(b'endstream', istart)
	data = pdf[istream:iend]
	datafile = open("data%d" % filenumber, "wb")
	datafile.write(data)
	datafile.close()
	i = istream + minimum_seek
	filenumber += 1
	continue
	iend = pdf.find(formats["jpeg"]["end"], iend - minimum_seek)
	if iend < 0:
	raise Exception("Didn't find end of JPG!")

	istart += startfix
	iend += endfix
	print("JPG %d from %d to %d" % (filenumber, istart, iend))
	jpg = pdf[istart:iend]
	jpgfile = open("jpg%d.jpg" % filenumber, "wb")
	jpgfile.write(jpg)
	jpgfile.close()

	filenumber += 1
	i = iend