alvarobartt · December 21, 2023 09:30
diff --git a/steps-unpacked-constant-length-dataset.py b/steps-unpacked-constant-length-dataset.py
 # Usage:
 # python steps-unpacked-constant-length-dataset.py \
 # 	--dataset-path "argilla/ultrafeedback-binarized-preferences-cleaned" \
 #	--hf-tokenizer "alignment-handbook/zephyr-7b-sft-full" \
 # 	--gradient-accumulation-steps 2 \
 # 	--per-eval-batch-size 32 \
 # 	--num-devices 8 \
 # 	--max-seq-length 2048 \
 # 	--num-of-sequences 1024 \
 # 	--chars-per-token 3.6

 from datasets import load_dataset
 from transformers import AutoTokenizer
 from trl.trainer.utils import ConstantLengthDataset

 import argparse


 def get_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--dataset-path", type=str)
    parser.add_argument("--hf-tokenizer", type=str)
    parsed.add_argument("--gradient-accumulation-steps", type=int)
    parsed.add_argument("--per-eval-batch-size", type=int)
    parsed.add_argument("--num-devices", type=int)
    parsed.add_argument("--max-seq-length", type=int)
 	parsed.add_argument("--num-of-sequences", type=int)
    parsed.add_argument("--chars-per-token", type=float)
    return parser.parse_args()


 def main() -> None:
 	args = get_args()
    print(f"Args: {args}")
  	
 	dataset = load_dataset(args.dataset_path, split="train")
  	tokenizer = AutoTokenizer.from_pretrained(args.hf_tokenizer)

  	def formatting_func(...) -> ...:
      ...
 	
 	dataset = ConstantLengthDataset(
 		tokenizer,
 		dataset["train"],
 		dataset_text_field="text",
 		formatting_func=formatting_func,
 		seq_length=args.max_seq_length,
 		infinite=False,
 		num_of_sequences=args.num_of_sequences,
 		chars_per_token=args.chars_per_token,
 		eos_token_id=tokenizer.eos_token_id,
 	)

 	counter = 0
 	for _ in dataset:
 		counter += 1
 	steps = counter / (len(dataset) / args.gradient_accumulation_steps / args.per_device_batch_size / args.num_devices)
 	print(f"1 training epoch equals to {steps} steps")
  
 if __name__ == "__main__":
    main()
	# Usage:
	# python steps-unpacked-constant-length-dataset.py \
	# --dataset-path "argilla/ultrafeedback-binarized-preferences-cleaned" \
	# --hf-tokenizer "alignment-handbook/zephyr-7b-sft-full" \
	# --gradient-accumulation-steps 2 \
	# --per-eval-batch-size 32 \
	# --num-devices 8 \
	# --max-seq-length 2048 \
	# --num-of-sequences 1024 \
	# --chars-per-token 3.6

	from datasets import load_dataset
	from transformers import AutoTokenizer
	from trl.trainer.utils import ConstantLengthDataset

	import argparse


	def get_args():
	parser = argparse.ArgumentParser()
	parser.add_argument("--dataset-path", type=str)
	parser.add_argument("--hf-tokenizer", type=str)
	parsed.add_argument("--gradient-accumulation-steps", type=int)
	parsed.add_argument("--per-eval-batch-size", type=int)
	parsed.add_argument("--num-devices", type=int)
	parsed.add_argument("--max-seq-length", type=int)
	parsed.add_argument("--num-of-sequences", type=int)
	parsed.add_argument("--chars-per-token", type=float)
	return parser.parse_args()


	def main() -> None:
	args = get_args()
	print(f"Args: {args}")

	dataset = load_dataset(args.dataset_path, split="train")
	tokenizer = AutoTokenizer.from_pretrained(args.hf_tokenizer)

	def formatting_func(...) -> ...:
	...

	dataset = ConstantLengthDataset(
	tokenizer,
	dataset["train"],
	dataset_text_field="text",
	formatting_func=formatting_func,
	seq_length=args.max_seq_length,
	infinite=False,
	num_of_sequences=args.num_of_sequences,
	chars_per_token=args.chars_per_token,
	eos_token_id=tokenizer.eos_token_id,
	)

	counter = 0
	for _ in dataset:
	counter += 1
	steps = counter / (len(dataset) / args.gradient_accumulation_steps / args.per_device_batch_size / args.num_devices)
	print(f"1 training epoch equals to {steps} steps")

	if __name__ == "__main__":
	main()