jonaslsaa · September 4, 2025 14:05
diff --git a/bench.md b/bench.md
diff --git a/E=128,N=352,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/E=128,N=352,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
 {
    "1": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 4
    },
    "2": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 64,
        "num_warps": 4,
        "num_stages": 4
    },
    "4": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 4
    },
    "8": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 5
    },
    "16": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 4
    },
    "24": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 3
    },
    "32": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 32,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 3
    },
    "48": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 5
    },
    "64": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 4,
        "num_stages": 5
    },
    "96": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 64,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 32,
        "num_warps": 4,
        "num_stages": 5
    },
    "128": {
        "BLOCK_SIZE_M": 16,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 4,
        "num_stages": 5
    },
    "256": {
        "BLOCK_SIZE_M": 64,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 8,
        "num_stages": 3
    },
    "512": {
        "BLOCK_SIZE_M": 64,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 1,
        "num_warps": 8,
        "num_stages": 3
    },
    "1024": {
        "BLOCK_SIZE_M": 64,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 8,
        "num_stages": 3
    },
    "1536": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 128,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 8,
        "num_stages": 3
    },
    "2048": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 8,
        "num_stages": 4
    },
    "3072": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 8,
        "num_stages": 4
    },
    "4096": {
        "BLOCK_SIZE_M": 128,
        "BLOCK_SIZE_N": 256,
        "BLOCK_SIZE_K": 128,
        "GROUP_SIZE_M": 16,
        "num_warps": 8,
        "num_stages": 4
    }
 }
	{
	"1": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 128,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 4,
	"num_stages": 4
	},
	"2": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 64,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 64,
	"num_warps": 4,
	"num_stages": 4
	},
	"4": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 64,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 4,
	"num_stages": 4
	},
	"8": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 64,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 4,
	"num_stages": 5
	},
	"16": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 64,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 4,
	"num_stages": 4
	},
	"24": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 64,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 4,
	"num_stages": 3
	},
	"32": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 32,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 4,
	"num_stages": 3
	},
	"48": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 64,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 4,
	"num_stages": 5
	},
	"64": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 64,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 16,
	"num_warps": 4,
	"num_stages": 5
	},
	"96": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 64,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 32,
	"num_warps": 4,
	"num_stages": 5
	},
	"128": {
	"BLOCK_SIZE_M": 16,
	"BLOCK_SIZE_N": 128,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 4,
	"num_stages": 5
	},
	"256": {
	"BLOCK_SIZE_M": 64,
	"BLOCK_SIZE_N": 128,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 8,
	"num_stages": 3
	},
	"512": {
	"BLOCK_SIZE_M": 64,
	"BLOCK_SIZE_N": 128,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 1,
	"num_warps": 8,
	"num_stages": 3
	},
	"1024": {
	"BLOCK_SIZE_M": 64,
	"BLOCK_SIZE_N": 128,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 16,
	"num_warps": 8,
	"num_stages": 3
	},
	"1536": {
	"BLOCK_SIZE_M": 128,
	"BLOCK_SIZE_N": 128,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 16,
	"num_warps": 8,
	"num_stages": 3
	},
	"2048": {
	"BLOCK_SIZE_M": 128,
	"BLOCK_SIZE_N": 256,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 16,
	"num_warps": 8,
	"num_stages": 4
	},
	"3072": {
	"BLOCK_SIZE_M": 128,
	"BLOCK_SIZE_N": 256,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 16,
	"num_warps": 8,
	"num_stages": 4
	},
	"4096": {
	"BLOCK_SIZE_M": 128,
	"BLOCK_SIZE_N": 256,
	"BLOCK_SIZE_K": 128,
	"GROUP_SIZE_M": 16,
	"num_warps": 8,
	"num_stages": 4
	}
	}
No results found