Akashdesarda · April 23, 2020 10:13 · marcosclima · Jul 17, 2020
diff --git a/fine_tuning.py b/fine_tuning.py
 distil_bert = 'distilbert-base-uncased'

 config = DistilBertConfig(dropout=0.2, attention_dropout=0.2)
 config.output_hidden_states = False
 transformer_model = TFDistilBertModel.from_pretrained(distil_bert, config = config)

 input_ids_in = tf.keras.layers.Input(shape=(128,), name='input_token', dtype='int32')
 input_masks_in = tf.keras.layers.Input(shape=(128,), name='masked_token', dtype='int32') 

 embedding_layer = transformer_model(input_ids_in, attention_mask=input_masks_in)[0]
 X = tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(50, return_sequences=True, dropout=0.1, recurrent_dropout=0.1))(embedding_layer)
 X = tf.keras.layers.GlobalMaxPool1D()(X)
 X = tf.keras.layers.Dense(50, activation='relu')(X)
 X = tf.keras.layers.Dropout(0.2)(X)
 X = tf.keras.layers.Dense(6, activation='sigmoid')(X)
 model = tf.keras.Model(inputs=[input_ids_in, input_masks_in], outputs = X)

 for layer in model.layers[:3]:
  layer.trainable = False
	distil_bert = 'distilbert-base-uncased'

	config = DistilBertConfig(dropout=0.2, attention_dropout=0.2)
	config.output_hidden_states = False
	transformer_model = TFDistilBertModel.from_pretrained(distil_bert, config = config)

	input_ids_in = tf.keras.layers.Input(shape=(128,), name='input_token', dtype='int32')
	input_masks_in = tf.keras.layers.Input(shape=(128,), name='masked_token', dtype='int32')

	embedding_layer = transformer_model(input_ids_in, attention_mask=input_masks_in)[0]
	X = tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(50, return_sequences=True, dropout=0.1, recurrent_dropout=0.1))(embedding_layer)
	X = tf.keras.layers.GlobalMaxPool1D()(X)
	X = tf.keras.layers.Dense(50, activation='relu')(X)
	X = tf.keras.layers.Dropout(0.2)(X)
	X = tf.keras.layers.Dense(6, activation='sigmoid')(X)
	model = tf.keras.Model(inputs=[input_ids_in, input_masks_in], outputs = X)

	for layer in model.layers[:3]:
	layer.trainable = False