Cuiqing Li (李崔卿) tiandiao123

AI Framework Engineer@AI Startup(上海), previous @ Meta(PyTorch), Bytedance (AML, AI LAB), Contributor of TVM, PyTorch and Colossal-AI

tiandiao123 / cutlass_gemm.cu

Created August 8, 2023 08:17

	#include <torch/extension.h>
	#include <cutlass/gemm/gemm.h>
	#include <cutlass/epilogue/thread/linear_combination.h>

	torch::Tensor bmm_fp16_fp16_f32(torch::Tensor A, torch::Tensor B, float alpha) {
	int batch_size = A.size(0);
	int M = A.size(1);
	int N = B.size(1);
	int K = A.size(2);

tiandiao123 / cutlass_fp16.cu

Created August 8, 2023 08:15

	#include <iostream>
	#include "cutlass/cutlass.h"
	#include "cutlass/gemm/device/gemm.h"
	#include "cutlass/util/host_tensor.h"
	#include "cutlass/util/reference/host/tensor_compare.h"
	#include "cutlass/util/reference/host/tensor_copy.h"
	#include "cutlass/util/reference/host/tensor_fill.h"
	#include "cutlass/util/tensor_view_io.h"
	#include "helper.h"

tiandiao123 / bloom.py

Created August 8, 2023 07:55

	import torch
	from inference import CaiInferenceConfig, convert_to_ds_model, recover_from_ds_model
	from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
	from argparse import ArgumentParser
	import time
	import torch
	from torch.profiler import profile, record_function, ProfilerActivity

	parser = ArgumentParser()
	parser.add_argument("--name", default="bigscience/bloom-560m", type=str, help="model_name")

tiandiao123 / llama2_test.py

Created August 7, 2023 08:36

	import torch
	import time
	from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
	from argparse import ArgumentParser
	from transformers import LlamaForCausalLM, LlamaTokenizer
	from inference import CaiInferenceConfig, convert_to_ds_model, recover_from_ds_model
	from torch.profiler import profile, record_function, ProfilerActivity
	from types import MethodType
	from typing import Optional, Sequence, Tuple, Union
	import torch

tiandiao123 / flash_attention_bias.py

Created August 3, 2023 14:01

tiandiao123 / llama.py

Created August 2, 2023 09:03

	import torch
	import time
	from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
	from argparse import ArgumentParser
	from transformers import LlamaForCausalLM, LlamaTokenizer
	from inference import CaiInferenceConfig, convert_to_ds_model, recover_from_ds_model



	parser = ArgumentParser()

tiandiao123 / test.py

Last active July 4, 2023 08:01

	import os
	import torch
	import numpy as np

	from deepspeed.ops.transformer.inference.triton.attention import compute_attention as deepspeed_compute_attention
	from inference.ops.self_attention import self_attention_compute_using_triton


	def run_func(func, qkv):
	func(qkv,

tiandiao123 / p_tasks.cpp

Created December 21, 2022 22:42

tiandiao123 / shared_future.cpp

Created December 21, 2022 21:45

	#include <future>
	#include <iostream>
	#include <thread>
	using namespace std;


	int factorial(std::shared_future<int> f){
	int N = f.get();
	int res = 1;
	for(int i=2;i<=N;i++){

tiandiao123 / promise_future.cpp

Created December 21, 2022 21:36

	#include <future>
	#include <iostream>
	#include <thread>
	using namespace std;


	int factorial(std::future<int>& f){
	int N = f.get();
	int res = 1;
	for(int i=2;i<=N;i++){