takuma104 · July 29, 2023 20:09
diff --git a/readme.md b/readme.md
diff --git a/diffusers_sd_xformers_flash_attention.py b/diffusers_sd_xformers_flash_attention.py
 import torch
 from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
 import matplotlib.pyplot as plt
 from PIL import Image
 import numpy as np

 plt.rcParams["figure.figsize"] = (10,5)
 plt.rcParams['figure.facecolor'] = 'white'

 def generate_tuxedo_cat_picture(fn_prefix, seed=0):
    prompt = "a tuxedo cat, oil painting"
    for n in range(4):
        generator = torch.Generator(device='cuda').manual_seed(seed)
        image = pipe(prompt, generator=generator, num_inference_steps=15,
                    guidance_scale=7.5).images[0]
        image.save(f"{fn_prefix}_{n}.png")

 def calc_difference_image(image0, image1, normalize=False):
    image0 = np.array(image0, dtype=np.int32)
    image1 = np.array(image1, dtype=np.int32)
    abs_diff = np.abs(image0 - image1)
    if normalize:
        abs_diff = abs_diff / abs_diff.max() * 255
    return Image.fromarray(abs_diff.astype(np.uint8))

 def render_figure(fn):
    def plot_row(axs, fn_prefix, name):
        for i, ax in enumerate(axs):
            if i == 0:
                ax.set_title(f'Ref ({name})')
                ax.imshow(Image.open(f'{fn_prefix}_{i}.png'))
            else:
                ax.set_title(f'Ref - Result#{i} ({name})')
                ref = Image.open(f'{fn_prefix}_{0}.png')
                res = Image.open(f'{fn_prefix}_{i}.png')
                ax.imshow(calc_difference_image(ref, res))

    fig, axs = plt.subplots(2, 4)
    for ax in axs.flatten():
        ax.set_aspect('equal', 'box')
        ax.axis('off')
    plot_row(axs[0], 'xformers_default', 'default')
    plot_row(axs[1], 'xformers_flash_attention', 'flashattn.')
    fig.tight_layout()
    fig.savefig(fn)

 if __name__ == '__main__':
    model_id = "stabilityai/stable-diffusion-2-1"
    pipe = StableDiffusionPipeline.from_pretrained(
        model_id, torch_dtype=torch.float16)
    pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
    pipe = pipe.to("cuda")

    seed = 7 # cherry-picked value

    # you mey repeat the following lines with different seed values 
    # to see the results with different seed values

    # Enable xFormers and leave the selection of the operator to the xformers as 
    # before. This will be usually selected the Cutlass backend.
    print('default auto backend ---')
    pipe.enable_xformers_memory_efficient_attention()
    generate_tuxedo_cat_picture('xformers_default', seed=seed)

    # Enable xFormers and force to use flash attention. (new)
    print('flash attention backend ---')
    pipe.enable_xformers_memory_efficient_attention(use_flash_attention=True)
    generate_tuxedo_cat_picture('xformers_flash_attention', seed=seed)

    render_figure(f'fig_xformers_flash_attention_seed_{seed}.png')

diff --git a/diffusers_sd_xformers_flash_attention_profile.py b/diffusers_sd_xformers_flash_attention_profile.py
 import torch
 from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

 # https://github.com/facebookresearch/xformers/blob/main/HOWTO.md
 def mem_profile_start():
    torch.cuda.empty_cache()
    torch.cuda.reset_peak_memory_stats()

 def mem_profile_end():
    torch.cuda.synchronize()
    max_memory = torch.cuda.max_memory_allocated() // 2 ** 20
    print(f"Peak memory use: {max_memory}MB")

 def generate_tuxedo_cat_picture(fn_prefix, seed=0):
    prompt = "a tuxedo cat, oil painting"
    for n in range(1):
        generator = torch.Generator(device='cuda').manual_seed(seed)
        image = pipe(prompt, generator=generator, num_inference_steps=15,
                    guidance_scale=7.5).images[0]
        image.save(f"{fn_prefix}_{n}.png")

 if __name__ == '__main__':
    model_id = "stabilityai/stable-diffusion-2-1"
    pipe = StableDiffusionPipeline.from_pretrained(
        model_id, torch_dtype=torch.float16)
    pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
    pipe = pipe.to("cuda")

    seed = 7 # cherry-picked value

    # you mey repeat the following lines with different seed values 
    # to see the results with different seed values

    # Enable xFormers and leave the selection of the operator to the xformers as 
    # before. This will be usually selected the Cutlass backend.
    print('default auto backend ---')
    pipe.enable_xformers_memory_efficient_attention()
    mem_profile_start()
    generate_tuxedo_cat_picture('xformers_default', seed=seed)
    mem_profile_end()

    # Enable xFormers and force to use flash attention. (new)
    print('flash attention backend ---')
    pipe.enable_xformers_memory_efficient_attention(use_flash_attention=True)
    mem_profile_start()
    generate_tuxedo_cat_picture('xformers_flash_attention', seed=seed)
    mem_profile_end()
	import torch
	from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
	import matplotlib.pyplot as plt
	from PIL import Image
	import numpy as np

	plt.rcParams["figure.figsize"] = (10,5)
	plt.rcParams['figure.facecolor'] = 'white'

	def generate_tuxedo_cat_picture(fn_prefix, seed=0):
	prompt = "a tuxedo cat, oil painting"
	for n in range(4):
	generator = torch.Generator(device='cuda').manual_seed(seed)
	image = pipe(prompt, generator=generator, num_inference_steps=15,
	guidance_scale=7.5).images[0]
	image.save(f"{fn_prefix}_{n}.png")

	def calc_difference_image(image0, image1, normalize=False):
	image0 = np.array(image0, dtype=np.int32)
	image1 = np.array(image1, dtype=np.int32)
	abs_diff = np.abs(image0 - image1)
	if normalize:
	abs_diff = abs_diff / abs_diff.max() * 255
	return Image.fromarray(abs_diff.astype(np.uint8))

	def render_figure(fn):
	def plot_row(axs, fn_prefix, name):
	for i, ax in enumerate(axs):
	if i == 0:
	ax.set_title(f'Ref ({name})')
	ax.imshow(Image.open(f'{fn_prefix}_{i}.png'))
	else:
	ax.set_title(f'Ref - Result#{i} ({name})')
	ref = Image.open(f'{fn_prefix}_{0}.png')
	res = Image.open(f'{fn_prefix}_{i}.png')
	ax.imshow(calc_difference_image(ref, res))

	fig, axs = plt.subplots(2, 4)
	for ax in axs.flatten():
	ax.set_aspect('equal', 'box')
	ax.axis('off')
	plot_row(axs[0], 'xformers_default', 'default')
	plot_row(axs[1], 'xformers_flash_attention', 'flashattn.')
	fig.tight_layout()
	fig.savefig(fn)

	if __name__ == '__main__':
	model_id = "stabilityai/stable-diffusion-2-1"
	pipe = StableDiffusionPipeline.from_pretrained(
	model_id, torch_dtype=torch.float16)
	pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
	pipe = pipe.to("cuda")

	seed = 7 # cherry-picked value

	# you mey repeat the following lines with different seed values
	# to see the results with different seed values

	# Enable xFormers and leave the selection of the operator to the xformers as
	# before. This will be usually selected the Cutlass backend.
	print('default auto backend ---')
	pipe.enable_xformers_memory_efficient_attention()
	generate_tuxedo_cat_picture('xformers_default', seed=seed)

	# Enable xFormers and force to use flash attention. (new)
	print('flash attention backend ---')
	pipe.enable_xformers_memory_efficient_attention(use_flash_attention=True)
	generate_tuxedo_cat_picture('xformers_flash_attention', seed=seed)

	render_figure(f'fig_xformers_flash_attention_seed_{seed}.png')
	import torch
	from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

	# https://github.com/facebookresearch/xformers/blob/main/HOWTO.md
	def mem_profile_start():
	torch.cuda.empty_cache()
	torch.cuda.reset_peak_memory_stats()

	def mem_profile_end():
	torch.cuda.synchronize()
	max_memory = torch.cuda.max_memory_allocated() // 2 ** 20
	print(f"Peak memory use: {max_memory}MB")

	def generate_tuxedo_cat_picture(fn_prefix, seed=0):
	prompt = "a tuxedo cat, oil painting"
	for n in range(1):
	generator = torch.Generator(device='cuda').manual_seed(seed)
	image = pipe(prompt, generator=generator, num_inference_steps=15,
	guidance_scale=7.5).images[0]
	image.save(f"{fn_prefix}_{n}.png")

	if __name__ == '__main__':
	model_id = "stabilityai/stable-diffusion-2-1"
	pipe = StableDiffusionPipeline.from_pretrained(
	model_id, torch_dtype=torch.float16)
	pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
	pipe = pipe.to("cuda")

	seed = 7 # cherry-picked value

	# you mey repeat the following lines with different seed values
	# to see the results with different seed values

	# Enable xFormers and leave the selection of the operator to the xformers as
	# before. This will be usually selected the Cutlass backend.
	print('default auto backend ---')
	pipe.enable_xformers_memory_efficient_attention()
	mem_profile_start()
	generate_tuxedo_cat_picture('xformers_default', seed=seed)
	mem_profile_end()

	# Enable xFormers and force to use flash attention. (new)
	print('flash attention backend ---')
	pipe.enable_xformers_memory_efficient_attention(use_flash_attention=True)
	mem_profile_start()
	generate_tuxedo_cat_picture('xformers_flash_attention', seed=seed)
	mem_profile_end()