sayakpaul · June 28, 2025 22:53 · jordyBonnet · Sep 4, 2024 · fnauman · Dec 3, 2024
diff --git a/run_flux_under_24gbs.py b/run_flux_under_24gbs.py
 from diffusers import FluxPipeline, AutoencoderKL
 from diffusers.image_processor import VaeImageProcessor
 from transformers import T5EncoderModel, T5TokenizerFast, CLIPTokenizer, CLIPTextModel
 import torch
 import gc


 def flush():
    gc.collect()
    torch.cuda.empty_cache()
    torch.cuda.reset_max_memory_allocated()
    torch.cuda.reset_peak_memory_stats()


 def bytes_to_giga_bytes(bytes):
    return bytes / 1024 / 1024 / 1024


 flush()

 ckpt_id = "black-forest-labs/FLUX.1-schnell"
 prompt = "a photo of a dog with cat-like look"

 text_encoder = CLIPTextModel.from_pretrained(
    ckpt_id, subfolder="text_encoder", torch_dtype=torch.bfloat16
 )
 text_encoder_2 = T5EncoderModel.from_pretrained(
    ckpt_id, subfolder="text_encoder_2", torch_dtype=torch.bfloat16
 )
 tokenizer = CLIPTokenizer.from_pretrained(ckpt_id, subfolder="tokenizer")
 tokenizer_2 = T5TokenizerFast.from_pretrained(ckpt_id, subfolder="tokenizer_2")

 pipeline = FluxPipeline.from_pretrained(
    ckpt_id,
    text_encoder=text_encoder,
    text_encoder_2=text_encoder_2,
    tokenizer=tokenizer,
    tokenizer_2=tokenizer_2,
    transformer=None,
    vae=None,
 ).to("cuda")

 with torch.no_grad():
    print("Encoding prompts.")
    prompt_embeds, pooled_prompt_embeds, text_ids = pipeline.encode_prompt(
        prompt=prompt, prompt_2=None, max_sequence_length=256
    )

 del text_encoder
 del text_encoder_2
 del tokenizer
 del tokenizer_2
 del pipeline

 flush()

 pipeline = FluxPipeline.from_pretrained(
    ckpt_id,
    text_encoder=None,
    text_encoder_2=None,
    tokenizer=None,
    tokenizer_2=None,
    vae=None,
    torch_dtype=torch.bfloat16,
 ).to("cuda")

 print("Running denoising.")
 height, width = 768, 1360
 # No need to wrap it up under `torch.no_grad()` as pipeline call method
 # is already wrapped under that.
 latents = pipeline(
    prompt_embeds=prompt_embeds,
    pooled_prompt_embeds=pooled_prompt_embeds,
    num_inference_steps=4,
    guidance_scale=0.0,
    height=height,
    width=width,
    output_type="latent",
 ).images
 print(f"{latents.shape=}")

 del pipeline.transformer
 del pipeline

 flush()

 vae = AutoencoderKL.from_pretrained(ckpt_id, revision="refs/pr/1", subfolder="vae", torch_dtype=torch.bfloat16).to(
    "cuda"
 )
 vae_scale_factor = 2 ** (len(vae.config.block_out_channels))
 image_processor = VaeImageProcessor(vae_scale_factor=vae_scale_factor)

 with torch.no_grad():
    print("Running decoding.")
    latents = FluxPipeline._unpack_latents(latents, height, width, vae_scale_factor)
    latents = (latents / vae.config.scaling_factor) + vae.config.shift_factor

    image = vae.decode(latents, return_dict=False)[0]
    image = image_processor.postprocess(image, output_type="pil")
    image[0].save("image.png")
	from diffusers import FluxPipeline, AutoencoderKL
	from diffusers.image_processor import VaeImageProcessor
	from transformers import T5EncoderModel, T5TokenizerFast, CLIPTokenizer, CLIPTextModel
	import torch
	import gc


	def flush():
	gc.collect()
	torch.cuda.empty_cache()
	torch.cuda.reset_max_memory_allocated()
	torch.cuda.reset_peak_memory_stats()


	def bytes_to_giga_bytes(bytes):
	return bytes / 1024 / 1024 / 1024


	flush()

	ckpt_id = "black-forest-labs/FLUX.1-schnell"
	prompt = "a photo of a dog with cat-like look"

	text_encoder = CLIPTextModel.from_pretrained(
	ckpt_id, subfolder="text_encoder", torch_dtype=torch.bfloat16
	)
	text_encoder_2 = T5EncoderModel.from_pretrained(
	ckpt_id, subfolder="text_encoder_2", torch_dtype=torch.bfloat16
	)
	tokenizer = CLIPTokenizer.from_pretrained(ckpt_id, subfolder="tokenizer")
	tokenizer_2 = T5TokenizerFast.from_pretrained(ckpt_id, subfolder="tokenizer_2")

	pipeline = FluxPipeline.from_pretrained(
	ckpt_id,
	text_encoder=text_encoder,
	text_encoder_2=text_encoder_2,
	tokenizer=tokenizer,
	tokenizer_2=tokenizer_2,
	transformer=None,
	vae=None,
	).to("cuda")

	with torch.no_grad():
	print("Encoding prompts.")
	prompt_embeds, pooled_prompt_embeds, text_ids = pipeline.encode_prompt(
	prompt=prompt, prompt_2=None, max_sequence_length=256
	)

	del text_encoder
	del text_encoder_2
	del tokenizer
	del tokenizer_2
	del pipeline

	flush()

	pipeline = FluxPipeline.from_pretrained(
	ckpt_id,
	text_encoder=None,
	text_encoder_2=None,
	tokenizer=None,
	tokenizer_2=None,
	vae=None,
	torch_dtype=torch.bfloat16,
	).to("cuda")

	print("Running denoising.")
	height, width = 768, 1360
	# No need to wrap it up under `torch.no_grad()` as pipeline call method
	# is already wrapped under that.
	latents = pipeline(
	prompt_embeds=prompt_embeds,
	pooled_prompt_embeds=pooled_prompt_embeds,
	num_inference_steps=4,
	guidance_scale=0.0,
	height=height,
	width=width,
	output_type="latent",
	).images
	print(f"{latents.shape=}")

	del pipeline.transformer
	del pipeline

	flush()

	vae = AutoencoderKL.from_pretrained(ckpt_id, revision="refs/pr/1", subfolder="vae", torch_dtype=torch.bfloat16).to(
	"cuda"
	)
	vae_scale_factor = 2 ** (len(vae.config.block_out_channels))
	image_processor = VaeImageProcessor(vae_scale_factor=vae_scale_factor)

	with torch.no_grad():
	print("Running decoding.")
	latents = FluxPipeline._unpack_latents(latents, height, width, vae_scale_factor)
	latents = (latents / vae.config.scaling_factor) + vae.config.shift_factor

	image = vae.decode(latents, return_dict=False)[0]
	image = image_processor.postprocess(image, output_type="pil")
	image[0].save("image.png")