Alex Shevchenko skeeet

GPU Optimization for GameDev

ssh ubnt@<your-ip>
configure

This dataset contains ~443k anime face images of size 256x256 drawn by ~7,000 artists, obtained from Danbooru

We first downloaded JSON files of all existing posts numbered from 1 to 2,800,000 using their API. We filtered the posts by the following criteria:

	import torch
	from torch.nn.attention.flex_attention import create_block_mask, flex_attention
	torch.set_default_device('cuda')

	q, k, v = [torch.randn(8, 8, 1024, 64, requires_grad=True) for _ in range(3)]

	causal_mask = create_block_mask(lambda b, h, q_idx, kv_idx: q_idx >= kv_idx, None, None, 1024, 1024)
	uncausal_mask = create_block_mask(lambda b, h, q_idx, kv_idx: q_idx < kv_idx, None, None, 1024, 1024)
	ref_out = flex_attention(q, k, v)
	causal_out, causal_lse = flex_attention(q, k, v, block_mask=causal_mask, return_lse=True)

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torchvision import datasets, transforms
	import numpy as np
	import math


	def compute_activation_std(model, dataset, device='cpu', batch_size=32, num_workers=0, layer_names=None):
	activations = {}

	# https://youtu.be/DNKAvDeqH_Y
	# https://google.github.io/mediapipe/solutions/iris.html#ml-pipeline
	# https://google.github.io/mediapipe/solutions/face_mesh.html#python-solution-api

	import cv2 as cv
	import numpy as np
	from mediapipe import solutions

	LEFT_IRIS = [pair[0] for pair in solutions.face_mesh.FACEMESH_LEFT_IRIS]
	RIGHT_IRIS = [pair[0] for pair in solutions.face_mesh.FACEMESH_RIGHT_IRIS]

	#include <exception>
	#include <memory>
	#include <mutex>
	#include <queue>

	struct EmptyQueueException : std::exception {
	const char * what() const throw() {
	return "Empty queue";
	}
	};

	import torch
	from torch import nn
	from torch.autograd import Variable
	import torch.nn.functional as F

	class RNN(nn.Module):
	def __init__(self, input_size, hidden_size, output_size, n_layers=1):
	super(RNN, self).__init__()
	self.input_size = input_size
	self.hidden_size = hidden_size

	#include "Halide.h"
	#include "Halide/tools/halide_image_io.h"
	#include <iostream>

	// This code calculates a block based mean on some a-priori known image-dimensions (1 uint8_t channel)
	// An example image to process: http://i.imgur.com/Eyo0Xvc.png
	// No customized scheduling within this code, but the SO-answer gives some recommendation!

	int main(int argc, char **argv) {
	Halide::Buffer<uint8_t> input = Halide::Tools::load_image("TestImages/block_example.png");