vanbasten23’s gists

vanbasten23 / gist:4a983ec0b95ce28a823b8217193ad1f8

Created November 14, 2025 18:29

	1. Start the benchmark server in vscode as [this](https://gist.github.com/vanbasten23/dd4f3cbb314a7b9cf6c003103c23c019). Select the correct python intepreter.
	2. Then start the vllm server in debugger.
	3. After the server is up and running.
	4. Add the breakpoint (remember to turn of dynamo and jax jit)
	5. Use the [script](https://gist.github.com/vanbasten23/726b28f072993fb7587482672b9c96a9) to send benchmarking request. Make sure to use the correct conda/python.
	6. Then dump the input and output.


	=========================
	pip install flatbuffers

vanbasten23 / gist:726b28f072993fb7587482672b9c96a9

Created November 14, 2025 18:18

	#!/bin/bash

	# Usage:
	# bash run_tpu_benchmark_client.sh --model Qwen/Qwen2.5-1.5B-Instruct --tp 1

	LONGOPTS=model:,tp:,profile
	# Parse arguments
	PARSED=$(getopt --options=$OPTIONS --longoptions=$LONGOPTS --name "$0" -- "$@")
	if [[ $? -ne 0 ]]; then
	exit 2

vanbasten23 / gist:dd4f3cbb314a7b9cf6c003103c23c019

Created November 14, 2025 18:16

	{
	"name": "newjax_benchmark_server",
	"type": "debugpy",
	"request": "launch",
	"program": "/home/xiowei_google_com/miniconda3/envs/vllm_newjax/bin/vllm",
	"console": "integratedTerminal",
	"justMyCode": false,
	"env": {
	"MODEL_IMPL_TYPE": "vllm",
	"TPU_BACKEND_TYPE": "jax",

vanbasten23 / gist:7618a394435a024594fd58de57fa337d

Created November 14, 2025 06:24

	import jax
	from jax import export
	import jax.numpy as jnp
	import pickle
	import time
	import statistics

	with open("/home/xiowei_google_com/old_exports.pkl", "rb") as f:
	data = pickle.load(f)

vanbasten23 / gist:f3b509b4f1c05d9e4a93e0c42de97a2c

Created October 31, 2025 20:20

	local keymap = vim.keymap.set
	local opts = { noremap = true, silent = true }

	-- remap leader key
	keymap("n", "<Space>", "", opts)
	vim.g.mapleader = " "
	vim.g.maplocalleader = " "

	-- yank to system clipboard
	keymap({"n", "v"}, "<leader>y", '"+y', opts)

vanbasten23 / gist:eec91565e61808da8e726067732bb127

Created October 31, 2025 18:07

	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import PeftModel
	import torch


	base = "Qwen/Qwen2.5-3B-Instruct"
	adapter = "./lora-1plus1-666"
	tok = AutoTokenizer.from_pretrained(base)
	m = AutoModelForCausalLM.from_pretrained(base, torch_dtype=torch.bfloat16).to("cuda" if torch.cuda.is_available() else "cpu")
	m = PeftModel.from_pretrained(m, adapter)

vanbasten23 / gist:cd415464781d521ef3138a5052903c1a

Created October 31, 2025 18:07

	# minimal_lora_1plus1.py
	# pip install -U transformers peft datasets accelerate

	from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
	from peft import LoraConfig, TaskType, get_peft_model
	from datasets import Dataset
	import torch, os

	BASE_MODEL = "Qwen/Qwen2.5-3B-Instruct"
	OUT_DIR = "./lora-1plus1-666"

vanbasten23 / gist:64be65a8331dae95e95b4a9d90214691

Last active October 24, 2025 17:03

	# This script demonstrate that under torchax, tensor.copy_(lora_tensor) will not change the sharding of `tensor`.

	import jax
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torchax
	from torchax.interop import jax_view
	from jax.sharding import Mesh, NamedSharding, PartitionSpec
	from torchax.interop import jax_view, torch_view

vanbasten23 / gist:64a2a77f8488576c8e56846fe35e9201

Created October 16, 2025 06:12

	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import PeftModel
	import torch


	base = "Qwen/Qwen2.5-3B-Instruct"
	adapter = "./lora-1plus1-666"
	tok = AutoTokenizer.from_pretrained(base)
	m = AutoModelForCausalLM.from_pretrained(base, torch_dtype=torch.bfloat16).to("cuda" if torch.cuda.is_available() else "cpu")
	m = PeftModel.from_pretrained(m, adapter)

vanbasten23 / gist:aaab5f6569cc39af590db6fa13e50f1a

Created October 16, 2025 06:12

	# minimal_lora_1plus1.py
	# pip install -U transformers peft datasets accelerate

	from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
	from peft import LoraConfig, TaskType, get_peft_model
	from datasets import Dataset
	import torch, os

	BASE_MODEL = "Qwen/Qwen2.5-3B-Instruct"
	OUT_DIR = "./lora-1plus1-666"

XiongfeiWei vanbasten23