keithshep · August 29, 2015 14:26 · keithshep · Jul 27, 2015
diff --git a/biomart_id_lookup.py b/biomart_id_lookup.py
 import csv
 import requests

 def build_ensembl_biomart_dict(dataset_name, key_attr, val_attr):
    # see http://ensembl.org/biomart/martview/ for the web application
    biomart_request_url_template = \
        '''http://ensembl.org/biomart/martservice?query=''' \
        '''<?xml version="1.0" encoding="UTF-8"?>''' \
        '''<!DOCTYPE Query>''' \
        '''<Query virtualSchemaName="default" formatter="CSV" header="0" uniqueRows="0" count="" datasetConfigVersion="0.6">''' \
        '''<Dataset name="{}" interface="default">''' \
        '''<Attribute name="{}"/>''' \
        '''<Attribute name="{}"/>''' \
        '''</Dataset>''' \
        '''</Query>'''
    biomart_request_url = biomart_request_url_template.format(dataset_name, key_attr, val_attr)
    req = requests.get(biomart_request_url, stream=True)

    return dict(csv.reader(req.iter_lines()))


 def main():
    nm_to_trans_dict = build_ensembl_biomart_dict(
        'hsapiens_gene_ensembl',
        'refseq_mrna',
        'ensembl_transcript_id')
    trans_to_gene_dict = build_ensembl_biomart_dict(
        'hsapiens_gene_ensembl',
        'ensembl_transcript_id',
        'ensembl_gene_id')


    nm_ids = ('NM_005665', 'NM_021797', 'NM_020440', 'NM_001039703',
              'NM_001009931', 'NM_002963', 'NM_001204087', 'NM_002455',
              'NM_001105205', 'NM_005598')
    for nm_id in nm_ids:
        trans_id = nm_to_trans_dict[nm_id]
        gene_id = trans_to_gene_dict[trans_id]
        print('NM ID: {}, transcript: {}, gene: {}'.format(nm_id, trans_id, gene_id))

 if __name__ == '__main__':
    main()
	import csv
	import requests

	def build_ensembl_biomart_dict(dataset_name, key_attr, val_attr):
	# see http://ensembl.org/biomart/martview/ for the web application
	biomart_request_url_template = \
	'''http://ensembl.org/biomart/martservice?query=''' \
	'''<?xml version="1.0" encoding="UTF-8"?>''' \
	'''<!DOCTYPE Query>''' \
	'''<Query virtualSchemaName="default" formatter="CSV" header="0" uniqueRows="0" count="" datasetConfigVersion="0.6">''' \
	'''<Dataset name="{}" interface="default">''' \
	'''<Attribute name="{}"/>''' \
	'''<Attribute name="{}"/>''' \
	'''</Dataset>''' \
	'''</Query>'''
	biomart_request_url = biomart_request_url_template.format(dataset_name, key_attr, val_attr)
	req = requests.get(biomart_request_url, stream=True)

	return dict(csv.reader(req.iter_lines()))


	def main():
	nm_to_trans_dict = build_ensembl_biomart_dict(
	'hsapiens_gene_ensembl',
	'refseq_mrna',
	'ensembl_transcript_id')
	trans_to_gene_dict = build_ensembl_biomart_dict(
	'hsapiens_gene_ensembl',
	'ensembl_transcript_id',
	'ensembl_gene_id')


	nm_ids = ('NM_005665', 'NM_021797', 'NM_020440', 'NM_001039703',
	'NM_001009931', 'NM_002963', 'NM_001204087', 'NM_002455',
	'NM_001105205', 'NM_005598')
	for nm_id in nm_ids:
	trans_id = nm_to_trans_dict[nm_id]
	gene_id = trans_to_gene_dict[trans_id]
	print('NM ID: {}, transcript: {}, gene: {}'.format(nm_id, trans_id, gene_id))

	if __name__ == '__main__':
	main()