sergray · October 29, 2013 12:37
diff --git a/report_avangard_transit.py b/report_avangard_transit.py
 # coding=utf8
 """
 Генератор CSV отчета из PDF отчетов банка Авангард о поступлении средств на
 транзитный валютный счет. 

 По умолчанию читает из стандартного ввода данные извлеченные из PDF при помощи
 textpdf.py утилиты.

 Генерируемый CSV отчет печатается в стандартный вывод и включает следующие колонки:
 * date - дата получения средств
 * doc  - номер уведомления
 * usd  - полученная сумма в долларах
 * xchg - курс обмена на дату получения
 * rub  - полученная сумма в рублях
 """
 import csv
 import re

 from decimal import Decimal


 ACCOUNT = ''  # заменить на свой номер счета \d{21}\s{1}\d{2}

 rx = re.compile(
 	"(?P<prefix>\d+)\t(?P<date>\d{2}/\d{2}/\d{2}) (?P<doc>\d+)\t" + \
 	ACCOUNT + "\t(?P<dollars>[^0][\d ]+\.\d{2})"
 )


 def main(src):
 	out = csv.writer(sys.stdout)

 	delim = '\t'

 	decimal_value = lambda str: Decimal(str.replace(' ', ''))
 	extract_field = lambda line, col: line.split(delim)[col]

 	rows = []
 	for line in src:
 		mo = rx.match(line)
 		if not mo:
 			continue
 		src.next()  # пропуск строки "Итого"
 		dollars = decimal_value(extract_field(src.next(), 2))
 		rubles = decimal_value(extract_field(src.next(), 2))
 		exch_rate = decimal_value(extract_field(src.next(), 2))
 		# sanity checks
 		assert(decimal_value(mo.group('dollars')) == dollars)
 		calc_rub = exch_rate * dollars
 		assert(calc_rub.quantize(Decimal('0.01')) == rubles)
 		rows.append([mo.group('date'), mo.group('doc'), dollars, exch_rate, rubles])

 	if rows:
 		out.writerow(['date', 'doc', 'usd', 'xchg', 'rub'])
 		out.writerows(rows)


 if __name__ == '__main__':
 	import sys
 	main(sys.stdin)
diff --git a/textpdf.py b/textpdf.py
 """
 Prints inline text boxes from PDF using pdfminer.

 Assumes that PDF is autogenerated and inline boxes are on the same height and have the same font size/style.

 Requires pdf2txt.py from pdfminer and lxml, so please do::
   
    pip install pdfminer lxml

 Usage example::

    pdf2txt.py -t xml input.pdf  | python text_pdf.py

 """
 from __future__ import print_function
 from lxml import etree
 from itertools import groupby


 def line2box(textline):
    left, top, right, bottom = map(float, textline.get('bbox').split(','))
    word = u''.join(c.text for c in textline.getchildren())
    return -top, left, word


 def process(page):
    textlines = page.xpath('.//textline')
    boxes = map(line2box, textlines)
    boxes.sort()
    page_id = page.get('id')
    for k, g in groupby(boxes, lambda b: b[0]):
        print(page_id, *[b[2].rstrip().encode('utf-8') for b in g], sep='\t')


 def main(src):
    tree = etree.parse(src)
    pages = tree.xpath('//page')
    for page in pages:
        process(page)


 if __name__ == '__main__':
    import sys
    main(sys.stdin)
	# coding=utf8
	"""
	Генератор CSV отчета из PDF отчетов банка Авангард о поступлении средств на
	транзитный валютный счет.

	По умолчанию читает из стандартного ввода данные извлеченные из PDF при помощи
	textpdf.py утилиты.

	Генерируемый CSV отчет печатается в стандартный вывод и включает следующие колонки:
	* date - дата получения средств
	* doc - номер уведомления
	* usd - полученная сумма в долларах
	* xchg - курс обмена на дату получения
	* rub - полученная сумма в рублях
	"""
	import csv
	import re

	from decimal import Decimal


	ACCOUNT = '' # заменить на свой номер счета \d{21}\s{1}\d{2}

	rx = re.compile(
	"(?P<prefix>\d+)\t(?P<date>\d{2}/\d{2}/\d{2}) (?P<doc>\d+)\t" + \
	ACCOUNT + "\t(?P<dollars>[^0][\d ]+\.\d{2})"
	)


	def main(src):
	out = csv.writer(sys.stdout)

	delim = '\t'

	decimal_value = lambda str: Decimal(str.replace(' ', ''))
	extract_field = lambda line, col: line.split(delim)[col]

	rows = []
	for line in src:
	mo = rx.match(line)
	if not mo:
	continue
	src.next() # пропуск строки "Итого"
	dollars = decimal_value(extract_field(src.next(), 2))
	rubles = decimal_value(extract_field(src.next(), 2))
	exch_rate = decimal_value(extract_field(src.next(), 2))
	# sanity checks
	assert(decimal_value(mo.group('dollars')) == dollars)
	calc_rub = exch_rate * dollars
	assert(calc_rub.quantize(Decimal('0.01')) == rubles)
	rows.append([mo.group('date'), mo.group('doc'), dollars, exch_rate, rubles])

	if rows:
	out.writerow(['date', 'doc', 'usd', 'xchg', 'rub'])
	out.writerows(rows)


	if __name__ == '__main__':
	import sys
	main(sys.stdin)
	"""
	Prints inline text boxes from PDF using pdfminer.

	Assumes that PDF is autogenerated and inline boxes are on the same height and have the same font size/style.

	Requires pdf2txt.py from pdfminer and lxml, so please do::

	pip install pdfminer lxml

	Usage example::

	pdf2txt.py -t xml input.pdf \| python text_pdf.py

	"""
	from __future__ import print_function
	from lxml import etree
	from itertools import groupby


	def line2box(textline):
	left, top, right, bottom = map(float, textline.get('bbox').split(','))
	word = u''.join(c.text for c in textline.getchildren())
	return -top, left, word


	def process(page):
	textlines = page.xpath('.//textline')
	boxes = map(line2box, textlines)
	boxes.sort()
	page_id = page.get('id')
	for k, g in groupby(boxes, lambda b: b[0]):
	print(page_id, *[b[2].rstrip().encode('utf-8') for b in g], sep='\t')


	def main(src):
	tree = etree.parse(src)
	pages = tree.xpath('//page')
	for page in pages:
	process(page)


	if __name__ == '__main__':
	import sys
	main(sys.stdin)