February 7, 2025 13:24 · January 30, 2025 10:21 · January 22, 2025 13:08 · January 8, 2025 01:38 · January 7, 2025 16:42 · June 23, 2024 13:28
 #include "ipc.hpp"
 #include <cassert>
 #include <cstring>
 #include <sys/ipc.h>
 #include <sys/sem.h>
 #include <sys/shm.h>

 void *Shm::create(int key, size_t size, int shmflg) {
  flag = shmflg;
  shmid = shmget(key, size, shmflg);
 #include "host_vector.hpp"
 #define DEVICE_CHECK(call)                                                                         \
  if ((call) != cudaSuccess) {                                                                     \
    throw std::runtime_error(#call " API call failed: " + GetLastErrorString() + " at " +          \
                             __FILE__ + ", line" + std::to_string(__LINE__));                      \
  }

 static std::string GetLastErrorString() { return cudaGetErrorString(cudaGetLastError()); }

 namespace details {
 #include "client.hpp"

 void Sock::bind(size_t port) {
  sock = zmq::socket_t(ctx, zmq::socket_type::router);
  sock.set(zmq::sockopt::linger, 0);
  sock.bind("tcp://*:" + std::to_string(port));
 }

 void Sock::close() {
  sock.close();
 #include <array>
 #include <functional>
 #include <iostream>
 #include <tuple>
 #include <unordered_map>

 template <class T, size_t N> union flat_array_t {
  using hash_t = std::tuple_element_t<
      sizeof(T) - 1,
      std::tuple<std::uint8_t, std::uint16_t, std::uint32_t, std::uint64_t>>;
 #include <iostream>

 struct default_tag {};
 struct case1_tag {};
 struct case2_tag {};

 template <size_t N> using selected_t = typename std::conditional<
  10 <= N && N <= 20,
  case1_tag,
  typename std::conditional<
 #include <iostream>
 #include <memory>
 #include <mutex>
 #include <thread>

 class MeanTracker {
    int total_ = 0;
    float mean_ = 0.f;

 public:
 #include <iostream>

 __device__ int warpInclusiveScan(int val) {
  int laneId = threadIdx.x % warpSize;
  for (int offset = 1; offset < 32; offset <<= 1) {
    int v = __shfl_up_sync(0xffffffff, val, offset);
    if (laneId >= offset) val += v;
  }
  return val;
 }
 diff --git a/python/aitemplate/backend/cuda/conv2d/common.py b/python/aitemplate/backend/cuda/conv2d/common.py
 index 8cf7fb2..ca13a72 100644
 --- a/python/aitemplate/backend/cuda/conv2d/common.py
 +++ b/python/aitemplate/backend/cuda/conv2d/common.py
 @@ -501,6 +501,7 @@ def emit_instance(op):
         emiter = cutlass_lib.conv2d_operation.EmitConv2dWithBroadcastInstance()
     else:
         emiter = cutlass_lib.conv2d_operation.EmitConv2dInstance()
 +    op.tile_description.stages = 2
     op_def = emiter.emit(op)

 static size_t GLOBAL_WORKSPACE_SIZE_DeviceConvFwdInstance_0 = 0;


 #include <cstdio>
 #include <stdexcept>

 #include "cutlass/cutlass.h"

 #include "cutlass/conv/kernel/default_conv2d_fprop.h"
	#include "ipc.hpp"
	#include <cassert>
	#include <cstring>
	#include <sys/ipc.h>
	#include <sys/sem.h>
	#include <sys/shm.h>

	void *Shm::create(int key, size_t size, int shmflg) {
	flag = shmflg;
	shmid = shmget(key, size, shmflg);
	#include "host_vector.hpp"
	#define DEVICE_CHECK(call) \
	if ((call) != cudaSuccess) { \
	throw std::runtime_error(#call " API call failed: " + GetLastErrorString() + " at " + \
	__FILE__ + ", line" + std::to_string(__LINE__)); \
	}

	static std::string GetLastErrorString() { return cudaGetErrorString(cudaGetLastError()); }

	namespace details {
	#include "client.hpp"

	void Sock::bind(size_t port) {
	sock = zmq::socket_t(ctx, zmq::socket_type::router);
	sock.set(zmq::sockopt::linger, 0);
	sock.bind("tcp://*:" + std::to_string(port));
	}

	void Sock::close() {
	sock.close();
	#include <array>
	#include <functional>
	#include <iostream>
	#include <tuple>
	#include <unordered_map>

	template <class T, size_t N> union flat_array_t {
	using hash_t = std::tuple_element_t<
	sizeof(T) - 1,
	std::tuple<std::uint8_t, std::uint16_t, std::uint32_t, std::uint64_t>>;
	#include <iostream>

	struct default_tag {};
	struct case1_tag {};
	struct case2_tag {};

	template <size_t N> using selected_t = typename std::conditional<
	10 <= N && N <= 20,
	case1_tag,
	typename std::conditional<
	#include <iostream>
	#include <memory>
	#include <mutex>
	#include <thread>

	class MeanTracker {
	int total_ = 0;
	float mean_ = 0.f;

	public:
	#include <iostream>

	__device__ int warpInclusiveScan(int val) {
	int laneId = threadIdx.x % warpSize;
	for (int offset = 1; offset < 32; offset <<= 1) {
	int v = __shfl_up_sync(0xffffffff, val, offset);
	if (laneId >= offset) val += v;
	}
	return val;
	}
	diff --git a/python/aitemplate/backend/cuda/conv2d/common.py b/python/aitemplate/backend/cuda/conv2d/common.py
	index 8cf7fb2..ca13a72 100644
	--- a/python/aitemplate/backend/cuda/conv2d/common.py
	+++ b/python/aitemplate/backend/cuda/conv2d/common.py
	@@ -501,6 +501,7 @@ def emit_instance(op):
	emiter = cutlass_lib.conv2d_operation.EmitConv2dWithBroadcastInstance()
	else:
	emiter = cutlass_lib.conv2d_operation.EmitConv2dInstance()
	+ op.tile_description.stages = 2
	op_def = emiter.emit(op)

	static size_t GLOBAL_WORKSPACE_SIZE_DeviceConvFwdInstance_0 = 0;


	#include <cstdio>
	#include <stdexcept>

	#include "cutlass/cutlass.h"

	#include "cutlass/conv/kernel/default_conv2d_fprop.h"