derrick-daniel · December 22, 2023 15:04 · derrick-daniel · Dec 22, 2023
diff --git a/CARD-DB_to_Abricate-CARD-DB_format b/CARD-DB_to_Abricate-CARD-DB_format
 import json

 def format_sequence(sequence):
    return '\n'.join([sequence[i:i+60] for i in range(0, len(sequence), 60)])

 def process_category_name(name):
    words = name.split()
    if words[-1].lower() == 'antibiotic':
        return ' '.join(words[:-1])
    return ' '.join(words)

 def main():
    input_file = 'card-data/card.json'  # Path to the CARD JSON file
    output_file = 'sequences'  # Output file name

    with open(input_file, 'r') as file:
        card_data = json.load(file)

    with open(output_file, 'w') as out:
        for key, model in card_data.items():
            model_name = model['model_name']
            for seq_key, seq_data in model['model_sequences']['sequence'].items():
                dna_seq = seq_data['dna_sequence']
                accession = dna_seq['accession'].split('.')[0]
                fmin = dna_seq['fmin']
                fmax = dna_seq['fmax']
                sequence = format_sequence(dna_seq['sequence'])

                drug_classes = ';'.join([process_category_name(model['ARO_category'][cat_key]['category_aro_name'])
                                          for cat_key in model['ARO_category']
                                          if model['ARO_category'][cat_key]['category_aro_class_name'] == "Drug Class"])

                description = model['ARO_description']

                formatted_entry = f">card~~~{model_name}~~~{accession}:{fmin}-{fmax}~~~{drug_classes} {description}\n{sequence}\n"
                out.write(formatted_entry)

 if __name__ == "__main__":
    main()
	import json

	def format_sequence(sequence):
	return '\n'.join([sequence[i:i+60] for i in range(0, len(sequence), 60)])

	def process_category_name(name):
	words = name.split()
	if words[-1].lower() == 'antibiotic':
	return ' '.join(words[:-1])
	return ' '.join(words)

	def main():
	input_file = 'card-data/card.json' # Path to the CARD JSON file
	output_file = 'sequences' # Output file name

	with open(input_file, 'r') as file:
	card_data = json.load(file)

	with open(output_file, 'w') as out:
	for key, model in card_data.items():
	model_name = model['model_name']
	for seq_key, seq_data in model['model_sequences']['sequence'].items():
	dna_seq = seq_data['dna_sequence']
	accession = dna_seq['accession'].split('.')[0]
	fmin = dna_seq['fmin']
	fmax = dna_seq['fmax']
	sequence = format_sequence(dna_seq['sequence'])

	drug_classes = ';'.join([process_category_name(model['ARO_category'][cat_key]['category_aro_name'])
	for cat_key in model['ARO_category']
	if model['ARO_category'][cat_key]['category_aro_class_name'] == "Drug Class"])

	description = model['ARO_description']

	formatted_entry = f">card~~~{model_name}~~~{accession}:{fmin}-{fmax}~~~{drug_classes} {description}\n{sequence}\n"
	out.write(formatted_entry)

	if __name__ == "__main__":
	main()