lumpidu · December 3, 2023 01:14
diff --git a/convert_espnet_full_whisper_to_hf.py b/convert_espnet_full_whisper_to_hf.py
 import argparse
 import hashlib
 import os
 import urllib
 import warnings
 from collections import OrderedDict

 import torch
 from torch import nn
 from tqdm import tqdm

 from transformers import WhisperConfig, WhisperForConditionalGeneration, WhisperProcessor, WhisperTokenizer


 def remove_ignore_keys_(state_dict):
    ignore_keys = ["layers", "blocks"]
    for k in ignore_keys:
        state_dict.pop(k, None)


 WHISPER_MAPPING = OrderedDict([
    ("decoder.decoders", "decoder"),
    ("encoder.encoders", "encoder"),
    ("blocks", "layers"),
    ("mlp.0", "fc1"),
    ("mlp.2", "fc2"),
    ("mlp_ln", "final_layer_norm"),
    (".attn.query", ".self_attn.q_proj"),
    (".attn.key", ".self_attn.k_proj"),
    (".attn.value", ".self_attn.v_proj"),
    (".attn_ln", ".self_attn_layer_norm"),
    (".attn.out", ".self_attn.out_proj"),
    (".cross_attn.query", ".encoder_attn.q_proj"),
    (".cross_attn.key", ".encoder_attn.k_proj"),
    (".cross_attn.value", ".encoder_attn.v_proj"),
    (".cross_attn_ln", ".encoder_attn_layer_norm"),
    (".cross_attn.out", ".encoder_attn.out_proj"),
    ("decoder.ln.", "decoder.layer_norm."),
    ("encoder.ln.", "encoder.layer_norm."),
    ("token_embedding", "embed_tokens"),
    ("encoder.positional_embedding", "encoder.embed_positions.weight"),
    ("decoder.positional_embedding", "decoder.embed_positions.weight"),
    ("ln_post", "layer_norm"),
 ])


 def rename_keys(s_dict):
    keys = list(s_dict.keys())
    
    for key in keys:
        new_key = key
        for k, v in WHISPER_MAPPING.items():
            if k in new_key:
                new_key = new_key.replace(k, v)                

        print(f"{key} -> {new_key}")
        
        s_dict[new_key] = s_dict.pop(key)
    return s_dict


 def make_linear_from_emb(emb):
    vocab_size, emb_size = emb.weight.shape
    lin_layer = nn.Linear(vocab_size, emb_size, bias=False)
    lin_layer.weight.data = emb.weight.data
    return lin_layer


 def convert_espnet_whisper_to_tfms(espnet_checkpoint, pytorch_dump_folder_path, whisper_config_id):
    state_dict = torch.load(espnet_checkpoint, map_location="cpu")    
    proj_out_weights = state_dict["decoder.decoders.token_embedding.weight"]
    remove_ignore_keys_(state_dict)
    rename_keys(state_dict)
    
    tie_embeds = True
    #ffn_dim = state_dict["decoder.layers.0.fc1.weight"].shape[0]

    config = WhisperConfig.from_pretrained(whisper_config_id)    
    
    model = WhisperForConditionalGeneration(config)
    missing, unexpected = model.model.load_state_dict(state_dict, strict=False)
    if len(missing) > 0 and not set(missing) <= {
        "encoder.embed_positions.weights",
        "decoder.embed_positions.weights",
    }:
        raise ValueError(
            "Only `encoder.embed_positions.weights` and `decoder.embed_positions.weights`  are allowed to be missing,"
            f" but all the following weights are missing {missing}"
        )

    if tie_embeds:
        model.proj_out = make_linear_from_emb(model.model.decoder.embed_tokens)
    else:
        model.proj_out.weight.data = proj_out_weights

    model.save_pretrained(pytorch_dump_folder_path)
    tokenizer = WhisperTokenizer.from_pretrained(whisper_config_id)
    tokenizer.save_pretrained(pytorch_dump_folder_path)
    processor = WhisperProcessor.from_pretrained(whisper_config_id)
    processor.save_pretrained(pytorch_dump_folder_path)

 if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    # # Required parameters
    parser.add_argument("--whisper-config-id", required=True, type=str, help="Whisper config ID, e.g. openai/whisper-medium")
    parser.add_argument("--espnet_checkpoint", required=True, type=str, help="Patht to the Espnet model checkpoint")
    parser.add_argument("--pytorch_dump_folder_path", required=True, type=str, help="Path to the output PyTorch model in HuggingFace format")
    args = parser.parse_args()

    convert_espnet_whisper_to_tfms(args.espnet_checkpoint, args.pytorch_dump_folder_path, args.whisper_config_id)
	import argparse
	import hashlib
	import os
	import urllib
	import warnings
	from collections import OrderedDict

	import torch
	from torch import nn
	from tqdm import tqdm

	from transformers import WhisperConfig, WhisperForConditionalGeneration, WhisperProcessor, WhisperTokenizer


	def remove_ignore_keys_(state_dict):
	ignore_keys = ["layers", "blocks"]
	for k in ignore_keys:
	state_dict.pop(k, None)


	WHISPER_MAPPING = OrderedDict([
	("decoder.decoders", "decoder"),
	("encoder.encoders", "encoder"),
	("blocks", "layers"),
	("mlp.0", "fc1"),
	("mlp.2", "fc2"),
	("mlp_ln", "final_layer_norm"),
	(".attn.query", ".self_attn.q_proj"),
	(".attn.key", ".self_attn.k_proj"),
	(".attn.value", ".self_attn.v_proj"),
	(".attn_ln", ".self_attn_layer_norm"),
	(".attn.out", ".self_attn.out_proj"),
	(".cross_attn.query", ".encoder_attn.q_proj"),
	(".cross_attn.key", ".encoder_attn.k_proj"),
	(".cross_attn.value", ".encoder_attn.v_proj"),
	(".cross_attn_ln", ".encoder_attn_layer_norm"),
	(".cross_attn.out", ".encoder_attn.out_proj"),
	("decoder.ln.", "decoder.layer_norm."),
	("encoder.ln.", "encoder.layer_norm."),
	("token_embedding", "embed_tokens"),
	("encoder.positional_embedding", "encoder.embed_positions.weight"),
	("decoder.positional_embedding", "decoder.embed_positions.weight"),
	("ln_post", "layer_norm"),
	])


	def rename_keys(s_dict):
	keys = list(s_dict.keys())

	for key in keys:
	new_key = key
	for k, v in WHISPER_MAPPING.items():
	if k in new_key:
	new_key = new_key.replace(k, v)

	print(f"{key} -> {new_key}")

	s_dict[new_key] = s_dict.pop(key)
	return s_dict


	def make_linear_from_emb(emb):
	vocab_size, emb_size = emb.weight.shape
	lin_layer = nn.Linear(vocab_size, emb_size, bias=False)
	lin_layer.weight.data = emb.weight.data
	return lin_layer


	def convert_espnet_whisper_to_tfms(espnet_checkpoint, pytorch_dump_folder_path, whisper_config_id):
	state_dict = torch.load(espnet_checkpoint, map_location="cpu")
	proj_out_weights = state_dict["decoder.decoders.token_embedding.weight"]
	remove_ignore_keys_(state_dict)
	rename_keys(state_dict)

	tie_embeds = True
	#ffn_dim = state_dict["decoder.layers.0.fc1.weight"].shape[0]

	config = WhisperConfig.from_pretrained(whisper_config_id)

	model = WhisperForConditionalGeneration(config)
	missing, unexpected = model.model.load_state_dict(state_dict, strict=False)
	if len(missing) > 0 and not set(missing) <= {
	"encoder.embed_positions.weights",
	"decoder.embed_positions.weights",
	}:
	raise ValueError(
	"Only `encoder.embed_positions.weights` and `decoder.embed_positions.weights` are allowed to be missing,"
	f" but all the following weights are missing {missing}"
	)

	if tie_embeds:
	model.proj_out = make_linear_from_emb(model.model.decoder.embed_tokens)
	else:
	model.proj_out.weight.data = proj_out_weights

	model.save_pretrained(pytorch_dump_folder_path)
	tokenizer = WhisperTokenizer.from_pretrained(whisper_config_id)
	tokenizer.save_pretrained(pytorch_dump_folder_path)
	processor = WhisperProcessor.from_pretrained(whisper_config_id)
	processor.save_pretrained(pytorch_dump_folder_path)

	if __name__ == "__main__":
	parser = argparse.ArgumentParser()
	# # Required parameters
	parser.add_argument("--whisper-config-id", required=True, type=str, help="Whisper config ID, e.g. openai/whisper-medium")
	parser.add_argument("--espnet_checkpoint", required=True, type=str, help="Patht to the Espnet model checkpoint")
	parser.add_argument("--pytorch_dump_folder_path", required=True, type=str, help="Path to the output PyTorch model in HuggingFace format")
	args = parser.parse_args()

	convert_espnet_whisper_to_tfms(args.espnet_checkpoint, args.pytorch_dump_folder_path, args.whisper_config_id)