pythonlessons · August 24, 2023 10:12
diff --git a/transformers_nlp_data_1.py b/transformers_nlp_data_1.py
 en_training_data_path = "Datasets/en-es/opus.en-es-train.en"
 en_validation_data_path = "Datasets/en-es/opus.en-es-dev.en"
 es_training_data_path = "Datasets/en-es/opus.en-es-train.es"
 es_validation_data_path = "Datasets/en-es/opus.en-es-dev.es"

 def read_files(path):
    with open(path, "r", encoding="utf-8") as f:
        en_train_dataset = f.read().split("\n")[:-1]
    return en_train_dataset

 en_training_data = read_files(en_training_data_path)
 en_validation_data = read_files(en_validation_data_path)
 es_training_data = read_files(es_training_data_path)
 es_validation_data = read_files(es_validation_data_path)

 max_lenght = 500
 train_dataset = [[es_sentence, en_sentence] for es_sentence, en_sentence in zip(es_training_data, en_training_data) if len(es_sentence) <= max_lenght and len(en_sentence) <= max_lenght]
 val_dataset = [[es_sentence, en_sentence] for es_sentence, en_sentence in zip(es_validation_data, en_validation_data) if len(es_sentence) <= max_lenght and len(en_sentence) <= max_lenght]
 es_training_data, en_training_data = zip(*train_dataset)
 es_validation_data, en_validation_data = zip(*val_dataset)

 print(len(es_training_data))
 print(len(es_validation_data))
 print(es_training_data[:3])
 print(en_training_data[:3])
	en_training_data_path = "Datasets/en-es/opus.en-es-train.en"
	en_validation_data_path = "Datasets/en-es/opus.en-es-dev.en"
	es_training_data_path = "Datasets/en-es/opus.en-es-train.es"
	es_validation_data_path = "Datasets/en-es/opus.en-es-dev.es"

	def read_files(path):
	with open(path, "r", encoding="utf-8") as f:
	en_train_dataset = f.read().split("\n")[:-1]
	return en_train_dataset

	en_training_data = read_files(en_training_data_path)
	en_validation_data = read_files(en_validation_data_path)
	es_training_data = read_files(es_training_data_path)
	es_validation_data = read_files(es_validation_data_path)

	max_lenght = 500
	train_dataset = [[es_sentence, en_sentence] for es_sentence, en_sentence in zip(es_training_data, en_training_data) if len(es_sentence) <= max_lenght and len(en_sentence) <= max_lenght]
	val_dataset = [[es_sentence, en_sentence] for es_sentence, en_sentence in zip(es_validation_data, en_validation_data) if len(es_sentence) <= max_lenght and len(en_sentence) <= max_lenght]
	es_training_data, en_training_data = zip(*train_dataset)
	es_validation_data, en_validation_data = zip(*val_dataset)

	print(len(es_training_data))
	print(len(es_validation_data))
	print(es_training_data[:3])
	print(en_training_data[:3])
No results found