Hayato Tsukagoshi hppRC

🏠

sleepy

D3, Graduate school of Informatics, Nagoya University, Japan. Takeda-Sasano Group.

hppRC / cloudSettings

Last active April 4, 2020 07:45

{"lastUpload":"2020-04-04T07:45:57.757Z","extensionVersion":"v3.4.3"}

hppRC / 📊 Weekly development breakdown

Last active October 29, 2020 00:05

Weekly development breakdown🔥

hppRC / gist:f67e8fc0f4905a7c6f03e092535dee59

Last active February 27, 2022 09:47

	N_TRIALS=10
	STORAGE=sqlite:///example.db

	STUDY_NAME=`optuna create-study --storage $STORAGE`
	DISTRIBUTIONS=`cat distributions.json`

	for _ in `seq 1 $N_TRIALS`; do
	trial=`optuna ask \
	--storage $STORAGE \
	--study-name $STUDY_NAME \

hppRC / multiple-progress-bar.py

Created March 31, 2022 15:04

	from tqdm import tqdm

	for i in tqdm(list(range(100)), position=0):
	for batch in tqdm(list(range(10000000)), position=1):
	pass

hppRC / fuga b.py

Created August 24, 2022 08:33

hppRC / install-jumanppv2.sh

Created January 4, 2023 07:07

Juman++ V2のインストール手順

	ORIGIN_DIR=$(pwd)

	JUMANPP_DIR="$HOME/.local/share/jumanpp"

	mkdir -p $JUMANPP_DIR
	cd $JUMANPP_DIR

	curl -LO https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz
	tar -xf jumanpp-2.0.0-rc3.tar.xz
	cd jumanpp-2.0.0-rc3

hppRC / print_params.py

Created December 15, 2023 03:27

モデルパラメータをわかりやすく表示するやつ

	def format_param_with_unit(num_params: int) -> str:
	if num_params >= 1000 * 1000 * 1000:
	unit = "B"
	num_params /= 1000 * 1000 * 1000
	elif num_params >= 1000 * 1000:
	unit = "M"
	num_params /= 1000 * 1000
	elif num_params >= 1000:
	unit = "K"
	num_params /= 1000

hppRC / vllm_example.py

Created December 10, 2024 00:34

	from transformers import PreTrainedTokenizer
	from vllm import LLM, SamplingParams
	from vllm.outputs import RequestOutput

	import datasets as ds


	def build_input_text(text: str, tokenizer: PreTrainedTokenizer) -> str:
	text = text.strip()

hppRC / aozora.py

Created January 30, 2025 10:02

	import datasets as ds
	from konoha import SentenceTokenizer


	def title2text():
	dataset: ds.Dataset = ds.load_dataset("globis-university/aozorabunko-clean", split="train", num_proc=16)

	def process(x: dict[str, list]):
	anc_list, pos_list = [], []

hppRC / paraphrasing.py

Last active February 12, 2025 11:41

	import random
	import uuid
	from pathlib import Path

	import click
	from vllm import LLM, SamplingParams
	from vllm.outputs import RequestOutput

	import datasets as ds
	from src.data.common import normalize_text