EvilFreelancer · January 12, 2025 15:52
diff --git a/peft_lora.txt b/peft_lora.txt
 # peft_model = AutoPeftModelForCausalLM.from_pretrained(output_dir, device_map={"": "cpu"}).to("cpu")
 # print(peft_model)
 PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): Qwen2ForCausalLM(
      (model): Qwen2Model(
        (embed_tokens): Embedding(151665, 3584, padding_idx=151643)
        (layers): ModuleList(
          (0-27): 28 x Qwen2DecoderLayer(
            (self_attn): Qwen2SdpaAttention(
              (q_proj): lora.Linear(
                (base_layer): Linear(in_features=3584, out_features=3584, bias=True)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3584, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=3584, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): lora.Linear(
                (base_layer): Linear(in_features=3584, out_features=512, bias=True)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3584, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=512, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (v_proj): lora.Linear(
                (base_layer): Linear(in_features=3584, out_features=512, bias=True)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3584, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=512, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (o_proj): lora.Linear(
                (base_layer): Linear(in_features=3584, out_features=3584, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3584, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=3584, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (rotary_emb): Qwen2RotaryEmbedding()
            )
            (mlp): Qwen2MLP(
              (gate_proj): lora.Linear(
                (base_layer): Linear(in_features=3584, out_features=18944, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3584, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=18944, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (up_proj): lora.Linear(
                (base_layer): Linear(in_features=3584, out_features=18944, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=3584, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=18944, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (down_proj): lora.Linear(
                (base_layer): Linear(in_features=18944, out_features=3584, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=18944, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=3584, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (act_fn): SiLU()
            )
            (input_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)
            (post_attention_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)
          )
        )
        (norm): Qwen2RMSNorm((3584,), eps=1e-06)
        (rotary_emb): Qwen2RotaryEmbedding()
      )
      (lm_head): Linear(in_features=3584, out_features=151665, bias=False)
    )
  )
 )
diff --git a/peft_merge_and_unload.txt b/peft_merge_and_unload.txt
 # model_processed = peft_model.merge_and_unload()
 # print(model_processed)

 Qwen2ForCausalLM(
  (model): Qwen2Model(
    (embed_tokens): Embedding(151665, 3584, padding_idx=151643)
    (layers): ModuleList(
      (0-27): 28 x Qwen2DecoderLayer(
        (self_attn): Qwen2SdpaAttention(
          (q_proj): Linear(in_features=3584, out_features=3584, bias=True)
          (k_proj): Linear(in_features=3584, out_features=512, bias=True)
          (v_proj): Linear(in_features=3584, out_features=512, bias=True)
          (o_proj): Linear(in_features=3584, out_features=3584, bias=False)
          (rotary_emb): Qwen2RotaryEmbedding()
        )
        (mlp): Qwen2MLP(
          (gate_proj): Linear(in_features=3584, out_features=18944, bias=False)
          (up_proj): Linear(in_features=3584, out_features=18944, bias=False)
          (down_proj): Linear(in_features=18944, out_features=3584, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)
        (post_attention_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)
      )
    )
    (norm): Qwen2RMSNorm((3584,), eps=1e-06)
    (rotary_emb): Qwen2RotaryEmbedding()
  )
  (lm_head): Linear(in_features=3584, out_features=151665, bias=False)
 )
	# peft_model = AutoPeftModelForCausalLM.from_pretrained(output_dir, device_map={"": "cpu"}).to("cpu")
	# print(peft_model)
	PeftModelForCausalLM(
	(base_model): LoraModel(
	(model): Qwen2ForCausalLM(
	(model): Qwen2Model(
	(embed_tokens): Embedding(151665, 3584, padding_idx=151643)
	(layers): ModuleList(
	(0-27): 28 x Qwen2DecoderLayer(
	(self_attn): Qwen2SdpaAttention(
	(q_proj): lora.Linear(
	(base_layer): Linear(in_features=3584, out_features=3584, bias=True)
	(lora_dropout): ModuleDict(
	(default): Identity()
	)
	(lora_A): ModuleDict(
	(default): Linear(in_features=3584, out_features=16, bias=False)
	)
	(lora_B): ModuleDict(
	(default): Linear(in_features=16, out_features=3584, bias=False)
	)
	(lora_embedding_A): ParameterDict()
	(lora_embedding_B): ParameterDict()
	(lora_magnitude_vector): ModuleDict()
	)
	(k_proj): lora.Linear(
	(base_layer): Linear(in_features=3584, out_features=512, bias=True)
	(lora_dropout): ModuleDict(
	(default): Identity()
	)
	(lora_A): ModuleDict(
	(default): Linear(in_features=3584, out_features=16, bias=False)
	)
	(lora_B): ModuleDict(
	(default): Linear(in_features=16, out_features=512, bias=False)
	)
	(lora_embedding_A): ParameterDict()
	(lora_embedding_B): ParameterDict()
	(lora_magnitude_vector): ModuleDict()
	)
	(v_proj): lora.Linear(
	(base_layer): Linear(in_features=3584, out_features=512, bias=True)
	(lora_dropout): ModuleDict(
	(default): Identity()
	)
	(lora_A): ModuleDict(
	(default): Linear(in_features=3584, out_features=16, bias=False)
	)
	(lora_B): ModuleDict(
	(default): Linear(in_features=16, out_features=512, bias=False)
	)
	(lora_embedding_A): ParameterDict()
	(lora_embedding_B): ParameterDict()
	(lora_magnitude_vector): ModuleDict()
	)
	(o_proj): lora.Linear(
	(base_layer): Linear(in_features=3584, out_features=3584, bias=False)
	(lora_dropout): ModuleDict(
	(default): Identity()
	)
	(lora_A): ModuleDict(
	(default): Linear(in_features=3584, out_features=16, bias=False)
	)
	(lora_B): ModuleDict(
	(default): Linear(in_features=16, out_features=3584, bias=False)
	)
	(lora_embedding_A): ParameterDict()
	(lora_embedding_B): ParameterDict()
	(lora_magnitude_vector): ModuleDict()
	)
	(rotary_emb): Qwen2RotaryEmbedding()
	)
	(mlp): Qwen2MLP(
	(gate_proj): lora.Linear(
	(base_layer): Linear(in_features=3584, out_features=18944, bias=False)
	(lora_dropout): ModuleDict(
	(default): Identity()
	)
	(lora_A): ModuleDict(
	(default): Linear(in_features=3584, out_features=16, bias=False)
	)
	(lora_B): ModuleDict(
	(default): Linear(in_features=16, out_features=18944, bias=False)
	)
	(lora_embedding_A): ParameterDict()
	(lora_embedding_B): ParameterDict()
	(lora_magnitude_vector): ModuleDict()
	)
	(up_proj): lora.Linear(
	(base_layer): Linear(in_features=3584, out_features=18944, bias=False)
	(lora_dropout): ModuleDict(
	(default): Identity()
	)
	(lora_A): ModuleDict(
	(default): Linear(in_features=3584, out_features=16, bias=False)
	)
	(lora_B): ModuleDict(
	(default): Linear(in_features=16, out_features=18944, bias=False)
	)
	(lora_embedding_A): ParameterDict()
	(lora_embedding_B): ParameterDict()
	(lora_magnitude_vector): ModuleDict()
	)
	(down_proj): lora.Linear(
	(base_layer): Linear(in_features=18944, out_features=3584, bias=False)
	(lora_dropout): ModuleDict(
	(default): Identity()
	)
	(lora_A): ModuleDict(
	(default): Linear(in_features=18944, out_features=16, bias=False)
	)
	(lora_B): ModuleDict(
	(default): Linear(in_features=16, out_features=3584, bias=False)
	)
	(lora_embedding_A): ParameterDict()
	(lora_embedding_B): ParameterDict()
	(lora_magnitude_vector): ModuleDict()
	)
	(act_fn): SiLU()
	)
	(input_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)
	(post_attention_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)
	)
	)
	(norm): Qwen2RMSNorm((3584,), eps=1e-06)
	(rotary_emb): Qwen2RotaryEmbedding()
	)
	(lm_head): Linear(in_features=3584, out_features=151665, bias=False)
	)
	)
	)
	# model_processed = peft_model.merge_and_unload()
	# print(model_processed)

	Qwen2ForCausalLM(
	(model): Qwen2Model(
	(embed_tokens): Embedding(151665, 3584, padding_idx=151643)
	(layers): ModuleList(
	(0-27): 28 x Qwen2DecoderLayer(
	(self_attn): Qwen2SdpaAttention(
	(q_proj): Linear(in_features=3584, out_features=3584, bias=True)
	(k_proj): Linear(in_features=3584, out_features=512, bias=True)
	(v_proj): Linear(in_features=3584, out_features=512, bias=True)
	(o_proj): Linear(in_features=3584, out_features=3584, bias=False)
	(rotary_emb): Qwen2RotaryEmbedding()
	)
	(mlp): Qwen2MLP(
	(gate_proj): Linear(in_features=3584, out_features=18944, bias=False)
	(up_proj): Linear(in_features=3584, out_features=18944, bias=False)
	(down_proj): Linear(in_features=18944, out_features=3584, bias=False)
	(act_fn): SiLU()
	)
	(input_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)
	(post_attention_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)
	)
	)
	(norm): Qwen2RMSNorm((3584,), eps=1e-06)
	(rotary_emb): Qwen2RotaryEmbedding()
	)
	(lm_head): Linear(in_features=3584, out_features=151665, bias=False)
	)