gvyshnya · September 2, 2020 19:29
diff --git a/Parallel Audio Feature Extraction with Dask.py b/Parallel Audio Feature Extraction with Dask.py
    for ebird in final_data:
        print("Starting to process a new species: ", ebird)
        ebird_data = train_csv[train_csv['species'] == ebird]

        short_file_name = ebird_data['ebird_code'].unique()[0]
        print("Short file name: ", short_file_name)

        result = []

        for index, row in ebird_data.iterrows():
            # process each audio file
            f = delayed(extract_feautres)(row['full_path'])
            result.append(f)

        # combine chunks with transformed data into a single training set
        extracted_features = delayed(pd.concat)(result)

        df = extracted_features.compute()

        # save extracted features to CSV
        output_path = "".join([c.TRANSFORMED_DATA_PATH, short_file_name, ".csv"])
        df.to_csv(output_path, index=False)

        print("Finished processing: ", ebird)
	for ebird in final_data:
	print("Starting to process a new species: ", ebird)
	ebird_data = train_csv[train_csv['species'] == ebird]

	short_file_name = ebird_data['ebird_code'].unique()[0]
	print("Short file name: ", short_file_name)

	result = []

	for index, row in ebird_data.iterrows():
	# process each audio file
	f = delayed(extract_feautres)(row['full_path'])
	result.append(f)

	# combine chunks with transformed data into a single training set
	extracted_features = delayed(pd.concat)(result)

	df = extracted_features.compute()

	# save extracted features to CSV
	output_path = "".join([c.TRANSFORMED_DATA_PATH, short_file_name, ".csv"])
	df.to_csv(output_path, index=False)

	print("Finished processing: ", ebird)