soumith · March 25, 2015 00:00 · yidan216home · Apr 11, 2017
diff --git a/gistfile1.txt b/gistfile1.txt
 ~/code/lstm$ th main.lua
 Loading ./data/ptb.train.txt, size of data = 929589
 Loading ./data/ptb.valid.txt, size of data = 73760
 Loading ./data/ptb.test.txt, size of data = 82430
 Using 1-th gpu
 Network parameters:
 {
  layers : 2
  lr : 1
  max_max_epoch : 13
  max_grad_norm : 5
  max_epoch : 4
  init_weight : 0.1
  decay : 2
  vocab_size : 10000
  seq_length : 20
  batch_size : 20
  dropout : 0
  rnn_size : 200
 }
 Creating a RNN LSTM network.
 Starting training.
 epoch = 0.004, train perp. = 9957.517, wps = 975, dw:norm() = 5.128, lr = 1.000, since beginning = 0 mins.
 epoch = 0.104, train perp. = 7764.433, wps = 994, dw:norm() = 2.934, lr = 1.000, since beginning = 2 mins.
 epoch = 0.204, train perp. = 5744.163, wps = 996, dw:norm() = 4.343, lr = 1.000, since beginning = 3 mins.
 epoch = 0.304, train perp. = 4106.632, wps = 997, dw:norm() = 4.512, lr = 1.000, since beginning = 5 mins.
 epoch = 0.404, train perp. = 2882.116, wps = 997, dw:norm() = 4.201, lr = 1.000, since beginning = 6 mins.
 epoch = 0.504, train perp. = 2002.492, wps = 997, dw:norm() = 4.786, lr = 1.000, since beginning = 8 mins.
 epoch = 0.604, train perp. = 1364.273, wps = 997, dw:norm() = 4.340, lr = 1.000, since beginning = 9 mins.
 epoch = 0.703, train perp. = 926.970, wps = 997, dw:norm() = 4.223, lr = 1.000, since beginning = 11 mins.
 epoch = 0.803, train perp. = 626.075, wps = 998, dw:norm() = 4.518, lr = 1.000, since beginning = 12 mins.
 epoch = 0.903, train perp. = 417.489, wps = 998, dw:norm() = 4.668, lr = 1.000, since beginning = 14 mins.
 Validation set perplexity : 182.529
 epoch = 1.003, train perp. = 278.858, wps = 966, dw:norm() = 4.202, lr = 1.000, since beginning = 16 mins.
 epoch = 1.103, train perp. = 235.341, wps = 969, dw:norm() = 4.381, lr = 1.000, since beginning = 18 mins.
 epoch = 1.203, train perp. = 212.128, wps = 971, dw:norm() = 4.291, lr = 1.000, since beginning = 19 mins.
 epoch = 1.303, train perp. = 195.081, wps = 973, dw:norm() = 4.763, lr = 1.000, since beginning = 21 mins.
 epoch = 1.402, train perp. = 182.359, wps = 975, dw:norm() = 4.535, lr = 1.000, since beginning = 22 mins.
 epoch = 1.502, train perp. = 171.961, wps = 976, dw:norm() = 4.711, lr = 1.000, since beginning = 24 mins.
 epoch = 1.602, train perp. = 163.186, wps = 978, dw:norm() = 4.744, lr = 1.000, since beginning = 25 mins.
 epoch = 1.702, train perp. = 156.183, wps = 979, dw:norm() = 4.933, lr = 1.000, since beginning = 27 mins.
 epoch = 1.802, train perp. = 150.004, wps = 980, dw:norm() = 4.850, lr = 1.000, since beginning = 28 mins.
 epoch = 1.902, train perp. = 143.950, wps = 981, dw:norm() = 4.779, lr = 1.000, since beginning = 30 mins.
 Validation set perplexity : 145.876
 epoch = 2.002, train perp. = 138.964, wps = 967, dw:norm() = 4.792, lr = 1.000, since beginning = 32 mins.
 epoch = 2.102, train perp. = 134.093, wps = 968, dw:norm() = 4.689, lr = 1.000, since beginning = 34 mins.
 epoch = 2.201, train perp. = 130.333, wps = 970, dw:norm() = 4.545, lr = 1.000, since beginning = 35 mins.
 epoch = 2.301, train perp. = 126.449, wps = 971, dw:norm() = 5.131, lr = 1.000, since beginning = 37 mins.
 epoch = 2.401, train perp. = 123.051, wps = 972, dw:norm() = 4.952, lr = 1.000, since beginning = 38 mins.
 epoch = 2.501, train perp. = 119.796, wps = 973, dw:norm() = 5.487, lr = 1.000, since beginning = 40 mins.
 epoch = 2.601, train perp. = 116.831, wps = 974, dw:norm() = 5.613, lr = 1.000, since beginning = 41 mins.
 epoch = 2.701, train perp. = 114.200, wps = 975, dw:norm() = 4.860, lr = 1.000, since beginning = 43 mins.
 epoch = 2.801, train perp. = 111.813, wps = 976, dw:norm() = 5.203, lr = 1.000, since beginning = 44 mins.
 epoch = 2.901, train perp. = 109.339, wps = 976, dw:norm() = 5.619, lr = 1.000, since beginning = 46 mins.
 Validation set perplexity : 133.114
 epoch = 3.000, train perp. = 107.059, wps = 967, dw:norm() = 5.263, lr = 1.000, since beginning = 48 mins.
 epoch = 3.100, train perp. = 104.865, wps = 968, dw:norm() = 5.413, lr = 1.000, since beginning = 50 mins.
 epoch = 3.200, train perp. = 102.931, wps = 969, dw:norm() = 5.203, lr = 1.000, since beginning = 51 mins.
 epoch = 3.300, train perp. = 100.952, wps = 969, dw:norm() = 5.184, lr = 1.000, since beginning = 53 mins.
 epoch = 3.400, train perp. = 99.134, wps = 970, dw:norm() = 5.198, lr = 1.000, since beginning = 54 mins.
 epoch = 3.500, train perp. = 97.377, wps = 971, dw:norm() = 5.560, lr = 1.000, since beginning = 56 mins.
 epoch = 3.600, train perp. = 95.759, wps = 972, dw:norm() = 5.903, lr = 1.000, since beginning = 57 mins.
 epoch = 3.700, train perp. = 94.238, wps = 972, dw:norm() = 5.195, lr = 1.000, since beginning = 59 mins.
 epoch = 3.799, train perp. = 92.780, wps = 973, dw:norm() = 5.801, lr = 1.000, since beginning = 60 mins.
 epoch = 3.899, train perp. = 91.327, wps = 974, dw:norm() = 5.489, lr = 1.000, since beginning = 62 mins.
 epoch = 3.999, train perp. = 89.987, wps = 974, dw:norm() = 5.677, lr = 1.000, since beginning = 64 mins.
 Validation set perplexity : 127.812
 epoch = 4.099, train perp. = 88.674, wps = 967, dw:norm() = 6.169, lr = 1.000, since beginning = 66 mins.
 epoch = 4.199, train perp. = 87.442, wps = 968, dw:norm() = 5.761, lr = 1.000, since beginning = 67 mins.
 epoch = 4.299, train perp. = 86.238, wps = 969, dw:norm() = 5.564, lr = 1.000, since beginning = 69 mins.
 epoch = 4.399, train perp. = 85.146, wps = 969, dw:norm() = 5.377, lr = 1.000, since beginning = 70 mins.
 epoch = 4.498, train perp. = 84.084, wps = 970, dw:norm() = 5.926, lr = 1.000, since beginning = 72 mins.
 epoch = 4.598, train perp. = 83.110, wps = 971, dw:norm() = 5.367, lr = 1.000, since beginning = 73 mins.
 epoch = 4.698, train perp. = 82.147, wps = 971, dw:norm() = 7.227, lr = 1.000, since beginning = 75 mins.
 epoch = 4.798, train perp. = 81.210, wps = 972, dw:norm() = 6.498, lr = 1.000, since beginning = 76 mins.
 epoch = 4.898, train perp. = 80.317, wps = 972, dw:norm() = 6.187, lr = 1.000, since beginning = 78 mins.
 epoch = 4.998, train perp. = 79.455, wps = 973, dw:norm() = 5.678, lr = 1.000, since beginning = 80 mins.
 Validation set perplexity : 126.696
 epoch = 5.098, train perp. = 78.369, wps = 967, dw:norm() = 6.460, lr = 0.500, since beginning = 82 mins.
 epoch = 5.198, train perp. = 77.001, wps = 968, dw:norm() = 5.740, lr = 0.500, since beginning = 83 mins.
 epoch = 5.297, train perp. = 75.465, wps = 968, dw:norm() = 5.987, lr = 0.500, since beginning = 85 mins.
 epoch = 5.397, train perp. = 73.872, wps = 969, dw:norm() = 6.009, lr = 0.500, since beginning = 86 mins.
 epoch = 5.497, train perp. = 72.163, wps = 969, dw:norm() = 6.716, lr = 0.500, since beginning = 88 mins.
 epoch = 5.597, train perp. = 70.315, wps = 970, dw:norm() = 6.304, lr = 0.500, since beginning = 89 mins.
 epoch = 5.697, train perp. = 68.418, wps = 970, dw:norm() = 6.051, lr = 0.500, since beginning = 91 mins.
 epoch = 5.797, train perp. = 66.460, wps = 971, dw:norm() = 6.743, lr = 0.500, since beginning = 92 mins.
 epoch = 5.897, train perp. = 64.404, wps = 971, dw:norm() = 7.184, lr = 0.500, since beginning = 94 mins.
 epoch = 5.997, train perp. = 62.266, wps = 972, dw:norm() = 6.753, lr = 0.500, since beginning = 96 mins.
 Validation set perplexity : 119.637
 epoch = 6.096, train perp. = 61.097, wps = 967, dw:norm() = 6.423, lr = 0.250, since beginning = 98 mins.
 epoch = 6.196, train perp. = 60.051, wps = 968, dw:norm() = 6.472, lr = 0.250, since beginning = 99 mins.
 epoch = 6.296, train perp. = 58.955, wps = 968, dw:norm() = 6.439, lr = 0.250, since beginning = 101 mins.
 epoch = 6.396, train perp. = 57.878, wps = 968, dw:norm() = 6.276, lr = 0.250, since beginning = 102 mins.
 epoch = 6.496, train perp. = 56.802, wps = 969, dw:norm() = 6.807, lr = 0.250, since beginning = 104 mins.
 epoch = 6.596, train perp. = 55.711, wps = 969, dw:norm() = 6.474, lr = 0.250, since beginning = 105 mins.
 epoch = 6.696, train perp. = 54.639, wps = 970, dw:norm() = 6.499, lr = 0.250, since beginning = 107 mins.
 epoch = 6.796, train perp. = 53.506, wps = 970, dw:norm() = 6.845, lr = 0.250, since beginning = 108 mins.
 epoch = 6.895, train perp. = 52.357, wps = 971, dw:norm() = 6.746, lr = 0.250, since beginning = 110 mins.
 epoch = 6.995, train perp. = 51.191, wps = 971, dw:norm() = 6.730, lr = 0.250, since beginning = 112 mins.
 Validation set perplexity : 119.041
 epoch = 7.095, train perp. = 50.582, wps = 967, dw:norm() = 7.445, lr = 0.125, since beginning = 114 mins.
 epoch = 7.195, train perp. = 50.042, wps = 967, dw:norm() = 7.069, lr = 0.125, since beginning = 115 mins.
 epoch = 7.295, train perp. = 49.481, wps = 968, dw:norm() = 6.833, lr = 0.125, since beginning = 117 mins.
 epoch = 7.395, train perp. = 48.924, wps = 968, dw:norm() = 7.029, lr = 0.125, since beginning = 118 mins.
 epoch = 7.495, train perp. = 48.370, wps = 969, dw:norm() = 7.237, lr = 0.125, since beginning = 120 mins.
 epoch = 7.594, train perp. = 47.808, wps = 969, dw:norm() = 7.247, lr = 0.125, since beginning = 121 mins.
 epoch = 7.694, train perp. = 47.246, wps = 969, dw:norm() = 6.302, lr = 0.125, since beginning = 123 mins.
 epoch = 7.794, train perp. = 46.673, wps = 970, dw:norm() = 7.407, lr = 0.125, since beginning = 124 mins.
 epoch = 7.894, train perp. = 46.081, wps = 970, dw:norm() = 7.013, lr = 0.125, since beginning = 126 mins.
 epoch = 7.994, train perp. = 45.481, wps = 970, dw:norm() = 6.892, lr = 0.125, since beginning = 128 mins.
 Validation set perplexity : 119.960
 epoch = 8.094, train perp. = 45.177, wps = 967, dw:norm() = 7.215, lr = 0.062, since beginning = 130 mins.
 epoch = 8.194, train perp. = 44.911, wps = 967, dw:norm() = 7.067, lr = 0.062, since beginning = 131 mins.
 epoch = 8.294, train perp. = 44.638, wps = 968, dw:norm() = 6.776, lr = 0.062, since beginning = 133 mins.
 epoch = 8.393, train perp. = 44.365, wps = 968, dw:norm() = 6.991, lr = 0.062, since beginning = 134 mins.
 epoch = 8.493, train perp. = 44.091, wps = 968, dw:norm() = 7.496, lr = 0.062, since beginning = 136 mins.
 epoch = 8.593, train perp. = 43.818, wps = 969, dw:norm() = 6.853, lr = 0.062, since beginning = 137 mins.
 epoch = 8.693, train perp. = 43.538, wps = 969, dw:norm() = 6.992, lr = 0.062, since beginning = 139 mins.
 epoch = 8.793, train perp. = 43.251, wps = 969, dw:norm() = 7.310, lr = 0.062, since beginning = 140 mins.
 epoch = 8.893, train perp. = 42.942, wps = 970, dw:norm() = 7.295, lr = 0.062, since beginning = 142 mins.
 epoch = 8.993, train perp. = 42.636, wps = 970, dw:norm() = 7.134, lr = 0.062, since beginning = 143 mins.
 Validation set perplexity : 120.660
 epoch = 9.093, train perp. = 42.487, wps = 967, dw:norm() = 8.016, lr = 0.031, since beginning = 146 mins.
 epoch = 9.192, train perp. = 42.357, wps = 967, dw:norm() = 7.810, lr = 0.031, since beginning = 147 mins.
 epoch = 9.292, train perp. = 42.224, wps = 968, dw:norm() = 7.088, lr = 0.031, since beginning = 149 mins.
 epoch = 9.392, train perp. = 42.093, wps = 968, dw:norm() = 7.175, lr = 0.031, since beginning = 150 mins.
 epoch = 9.492, train perp. = 41.951, wps = 968, dw:norm() = 7.719, lr = 0.031, since beginning = 152 mins.
 epoch = 9.592, train perp. = 41.812, wps = 968, dw:norm() = 6.918, lr = 0.031, since beginning = 153 mins.
 epoch = 9.692, train perp. = 41.665, wps = 969, dw:norm() = 6.919, lr = 0.031, since beginning = 155 mins.
 epoch = 9.792, train perp. = 41.514, wps = 969, dw:norm() = 6.794, lr = 0.031, since beginning = 156 mins.
 epoch = 9.892, train perp. = 41.356, wps = 969, dw:norm() = 7.350, lr = 0.031, since beginning = 158 mins.
 epoch = 9.991, train perp. = 41.195, wps = 970, dw:norm() = 7.381, lr = 0.031, since beginning = 160 mins.
 Validation set perplexity : 120.731
 epoch = 10.091, train perp. = 41.112, wps = 967, dw:norm() = 8.011, lr = 0.016, since beginning = 162 mins.
 epoch = 10.191, train perp. = 41.039, wps = 967, dw:norm() = 7.940, lr = 0.016, since beginning = 163 mins.
 epoch = 10.291, train perp. = 40.968, wps = 967, dw:norm() = 6.974, lr = 0.016, since beginning = 165 mins.
 epoch = 10.391, train perp. = 40.902, wps = 968, dw:norm() = 7.612, lr = 0.016, since beginning = 166 mins.
 epoch = 10.491, train perp. = 40.829, wps = 968, dw:norm() = 8.030, lr = 0.016, since beginning = 168 mins.
 epoch = 10.591, train perp. = 40.755, wps = 968, dw:norm() = 7.053, lr = 0.016, since beginning = 169 mins.
 epoch = 10.690, train perp. = 40.671, wps = 969, dw:norm() = 7.070, lr = 0.016, since beginning = 171 mins.
 epoch = 10.790, train perp. = 40.584, wps = 969, dw:norm() = 6.859, lr = 0.016, since beginning = 172 mins.
 epoch = 10.890, train perp. = 40.496, wps = 969, dw:norm() = 6.739, lr = 0.016, since beginning = 174 mins.
 epoch = 10.990, train perp. = 40.406, wps = 969, dw:norm() = 7.285, lr = 0.016, since beginning = 175 mins.
 Validation set perplexity : 120.413
 epoch = 11.090, train perp. = 40.357, wps = 967, dw:norm() = 8.047, lr = 0.008, since beginning = 178 mins.
 epoch = 11.190, train perp. = 40.313, wps = 967, dw:norm() = 7.900, lr = 0.008, since beginning = 179 mins.
 epoch = 11.290, train perp. = 40.269, wps = 967, dw:norm() = 7.805, lr = 0.008, since beginning = 181 mins.
 epoch = 11.390, train perp. = 40.230, wps = 968, dw:norm() = 7.409, lr = 0.008, since beginning = 182 mins.
 epoch = 11.489, train perp. = 40.188, wps = 968, dw:norm() = 7.649, lr = 0.008, since beginning = 184 mins.
 epoch = 11.589, train perp. = 40.149, wps = 968, dw:norm() = 7.358, lr = 0.008, since beginning = 185 mins.
 epoch = 11.689, train perp. = 40.099, wps = 968, dw:norm() = 7.586, lr = 0.008, since beginning = 187 mins.
 epoch = 11.789, train perp. = 40.051, wps = 969, dw:norm() = 7.316, lr = 0.008, since beginning = 188 mins.
 epoch = 11.889, train perp. = 40.001, wps = 969, dw:norm() = 7.182, lr = 0.008, since beginning = 190 mins.
 epoch = 11.989, train perp. = 39.951, wps = 969, dw:norm() = 7.088, lr = 0.008, since beginning = 191 mins.
 Validation set perplexity : 119.975
 epoch = 12.089, train perp. = 39.923, wps = 967, dw:norm() = 8.212, lr = 0.004, since beginning = 194 mins.
 epoch = 12.189, train perp. = 39.895, wps = 967, dw:norm() = 7.560, lr = 0.004, since beginning = 195 mins.
 epoch = 12.288, train perp. = 39.870, wps = 967, dw:norm() = 7.753, lr = 0.004, since beginning = 197 mins.
 epoch = 12.388, train perp. = 39.847, wps = 968, dw:norm() = 7.544, lr = 0.004, since beginning = 198 mins.
 epoch = 12.488, train perp. = 39.823, wps = 968, dw:norm() = 7.491, lr = 0.004, since beginning = 200 mins.
 epoch = 12.588, train perp. = 39.801, wps = 968, dw:norm() = 7.642, lr = 0.004, since beginning = 201 mins.
 epoch = 12.688, train perp. = 39.774, wps = 968, dw:norm() = 7.148, lr = 0.004, since beginning = 203 mins.
 epoch = 12.788, train perp. = 39.749, wps = 969, dw:norm() = 7.046, lr = 0.004, since beginning = 204 mins.
 epoch = 12.888, train perp. = 39.721, wps = 969, dw:norm() = 7.207, lr = 0.004, since beginning = 206 mins.
 epoch = 12.988, train perp. = 39.695, wps = 969, dw:norm() = 6.943, lr = 0.004, since beginning = 207 mins.
 Validation set perplexity : 119.619
 Test set perplexity : 1.000
 Training is over.
	~/code/lstm$ th main.lua
	Loading ./data/ptb.train.txt, size of data = 929589
	Loading ./data/ptb.valid.txt, size of data = 73760
	Loading ./data/ptb.test.txt, size of data = 82430
	Using 1-th gpu
	Network parameters:
	{
	layers : 2
	lr : 1
	max_max_epoch : 13
	max_grad_norm : 5
	max_epoch : 4
	init_weight : 0.1
	decay : 2
	vocab_size : 10000
	seq_length : 20
	batch_size : 20
	dropout : 0
	rnn_size : 200
	}
	Creating a RNN LSTM network.
	Starting training.
	epoch = 0.004, train perp. = 9957.517, wps = 975, dw:norm() = 5.128, lr = 1.000, since beginning = 0 mins.
	epoch = 0.104, train perp. = 7764.433, wps = 994, dw:norm() = 2.934, lr = 1.000, since beginning = 2 mins.
	epoch = 0.204, train perp. = 5744.163, wps = 996, dw:norm() = 4.343, lr = 1.000, since beginning = 3 mins.
	epoch = 0.304, train perp. = 4106.632, wps = 997, dw:norm() = 4.512, lr = 1.000, since beginning = 5 mins.
	epoch = 0.404, train perp. = 2882.116, wps = 997, dw:norm() = 4.201, lr = 1.000, since beginning = 6 mins.
	epoch = 0.504, train perp. = 2002.492, wps = 997, dw:norm() = 4.786, lr = 1.000, since beginning = 8 mins.
	epoch = 0.604, train perp. = 1364.273, wps = 997, dw:norm() = 4.340, lr = 1.000, since beginning = 9 mins.
	epoch = 0.703, train perp. = 926.970, wps = 997, dw:norm() = 4.223, lr = 1.000, since beginning = 11 mins.
	epoch = 0.803, train perp. = 626.075, wps = 998, dw:norm() = 4.518, lr = 1.000, since beginning = 12 mins.
	epoch = 0.903, train perp. = 417.489, wps = 998, dw:norm() = 4.668, lr = 1.000, since beginning = 14 mins.
	Validation set perplexity : 182.529
	epoch = 1.003, train perp. = 278.858, wps = 966, dw:norm() = 4.202, lr = 1.000, since beginning = 16 mins.
	epoch = 1.103, train perp. = 235.341, wps = 969, dw:norm() = 4.381, lr = 1.000, since beginning = 18 mins.
	epoch = 1.203, train perp. = 212.128, wps = 971, dw:norm() = 4.291, lr = 1.000, since beginning = 19 mins.
	epoch = 1.303, train perp. = 195.081, wps = 973, dw:norm() = 4.763, lr = 1.000, since beginning = 21 mins.
	epoch = 1.402, train perp. = 182.359, wps = 975, dw:norm() = 4.535, lr = 1.000, since beginning = 22 mins.
	epoch = 1.502, train perp. = 171.961, wps = 976, dw:norm() = 4.711, lr = 1.000, since beginning = 24 mins.
	epoch = 1.602, train perp. = 163.186, wps = 978, dw:norm() = 4.744, lr = 1.000, since beginning = 25 mins.
	epoch = 1.702, train perp. = 156.183, wps = 979, dw:norm() = 4.933, lr = 1.000, since beginning = 27 mins.
	epoch = 1.802, train perp. = 150.004, wps = 980, dw:norm() = 4.850, lr = 1.000, since beginning = 28 mins.
	epoch = 1.902, train perp. = 143.950, wps = 981, dw:norm() = 4.779, lr = 1.000, since beginning = 30 mins.
	Validation set perplexity : 145.876
	epoch = 2.002, train perp. = 138.964, wps = 967, dw:norm() = 4.792, lr = 1.000, since beginning = 32 mins.
	epoch = 2.102, train perp. = 134.093, wps = 968, dw:norm() = 4.689, lr = 1.000, since beginning = 34 mins.
	epoch = 2.201, train perp. = 130.333, wps = 970, dw:norm() = 4.545, lr = 1.000, since beginning = 35 mins.
	epoch = 2.301, train perp. = 126.449, wps = 971, dw:norm() = 5.131, lr = 1.000, since beginning = 37 mins.
	epoch = 2.401, train perp. = 123.051, wps = 972, dw:norm() = 4.952, lr = 1.000, since beginning = 38 mins.
	epoch = 2.501, train perp. = 119.796, wps = 973, dw:norm() = 5.487, lr = 1.000, since beginning = 40 mins.
	epoch = 2.601, train perp. = 116.831, wps = 974, dw:norm() = 5.613, lr = 1.000, since beginning = 41 mins.
	epoch = 2.701, train perp. = 114.200, wps = 975, dw:norm() = 4.860, lr = 1.000, since beginning = 43 mins.
	epoch = 2.801, train perp. = 111.813, wps = 976, dw:norm() = 5.203, lr = 1.000, since beginning = 44 mins.
	epoch = 2.901, train perp. = 109.339, wps = 976, dw:norm() = 5.619, lr = 1.000, since beginning = 46 mins.
	Validation set perplexity : 133.114
	epoch = 3.000, train perp. = 107.059, wps = 967, dw:norm() = 5.263, lr = 1.000, since beginning = 48 mins.
	epoch = 3.100, train perp. = 104.865, wps = 968, dw:norm() = 5.413, lr = 1.000, since beginning = 50 mins.
	epoch = 3.200, train perp. = 102.931, wps = 969, dw:norm() = 5.203, lr = 1.000, since beginning = 51 mins.
	epoch = 3.300, train perp. = 100.952, wps = 969, dw:norm() = 5.184, lr = 1.000, since beginning = 53 mins.
	epoch = 3.400, train perp. = 99.134, wps = 970, dw:norm() = 5.198, lr = 1.000, since beginning = 54 mins.
	epoch = 3.500, train perp. = 97.377, wps = 971, dw:norm() = 5.560, lr = 1.000, since beginning = 56 mins.
	epoch = 3.600, train perp. = 95.759, wps = 972, dw:norm() = 5.903, lr = 1.000, since beginning = 57 mins.
	epoch = 3.700, train perp. = 94.238, wps = 972, dw:norm() = 5.195, lr = 1.000, since beginning = 59 mins.
	epoch = 3.799, train perp. = 92.780, wps = 973, dw:norm() = 5.801, lr = 1.000, since beginning = 60 mins.
	epoch = 3.899, train perp. = 91.327, wps = 974, dw:norm() = 5.489, lr = 1.000, since beginning = 62 mins.
	epoch = 3.999, train perp. = 89.987, wps = 974, dw:norm() = 5.677, lr = 1.000, since beginning = 64 mins.
	Validation set perplexity : 127.812
	epoch = 4.099, train perp. = 88.674, wps = 967, dw:norm() = 6.169, lr = 1.000, since beginning = 66 mins.
	epoch = 4.199, train perp. = 87.442, wps = 968, dw:norm() = 5.761, lr = 1.000, since beginning = 67 mins.
	epoch = 4.299, train perp. = 86.238, wps = 969, dw:norm() = 5.564, lr = 1.000, since beginning = 69 mins.
	epoch = 4.399, train perp. = 85.146, wps = 969, dw:norm() = 5.377, lr = 1.000, since beginning = 70 mins.
	epoch = 4.498, train perp. = 84.084, wps = 970, dw:norm() = 5.926, lr = 1.000, since beginning = 72 mins.
	epoch = 4.598, train perp. = 83.110, wps = 971, dw:norm() = 5.367, lr = 1.000, since beginning = 73 mins.
	epoch = 4.698, train perp. = 82.147, wps = 971, dw:norm() = 7.227, lr = 1.000, since beginning = 75 mins.
	epoch = 4.798, train perp. = 81.210, wps = 972, dw:norm() = 6.498, lr = 1.000, since beginning = 76 mins.
	epoch = 4.898, train perp. = 80.317, wps = 972, dw:norm() = 6.187, lr = 1.000, since beginning = 78 mins.
	epoch = 4.998, train perp. = 79.455, wps = 973, dw:norm() = 5.678, lr = 1.000, since beginning = 80 mins.
	Validation set perplexity : 126.696
	epoch = 5.098, train perp. = 78.369, wps = 967, dw:norm() = 6.460, lr = 0.500, since beginning = 82 mins.
	epoch = 5.198, train perp. = 77.001, wps = 968, dw:norm() = 5.740, lr = 0.500, since beginning = 83 mins.
	epoch = 5.297, train perp. = 75.465, wps = 968, dw:norm() = 5.987, lr = 0.500, since beginning = 85 mins.
	epoch = 5.397, train perp. = 73.872, wps = 969, dw:norm() = 6.009, lr = 0.500, since beginning = 86 mins.
	epoch = 5.497, train perp. = 72.163, wps = 969, dw:norm() = 6.716, lr = 0.500, since beginning = 88 mins.
	epoch = 5.597, train perp. = 70.315, wps = 970, dw:norm() = 6.304, lr = 0.500, since beginning = 89 mins.
	epoch = 5.697, train perp. = 68.418, wps = 970, dw:norm() = 6.051, lr = 0.500, since beginning = 91 mins.
	epoch = 5.797, train perp. = 66.460, wps = 971, dw:norm() = 6.743, lr = 0.500, since beginning = 92 mins.
	epoch = 5.897, train perp. = 64.404, wps = 971, dw:norm() = 7.184, lr = 0.500, since beginning = 94 mins.
	epoch = 5.997, train perp. = 62.266, wps = 972, dw:norm() = 6.753, lr = 0.500, since beginning = 96 mins.
	Validation set perplexity : 119.637
	epoch = 6.096, train perp. = 61.097, wps = 967, dw:norm() = 6.423, lr = 0.250, since beginning = 98 mins.
	epoch = 6.196, train perp. = 60.051, wps = 968, dw:norm() = 6.472, lr = 0.250, since beginning = 99 mins.
	epoch = 6.296, train perp. = 58.955, wps = 968, dw:norm() = 6.439, lr = 0.250, since beginning = 101 mins.
	epoch = 6.396, train perp. = 57.878, wps = 968, dw:norm() = 6.276, lr = 0.250, since beginning = 102 mins.
	epoch = 6.496, train perp. = 56.802, wps = 969, dw:norm() = 6.807, lr = 0.250, since beginning = 104 mins.
	epoch = 6.596, train perp. = 55.711, wps = 969, dw:norm() = 6.474, lr = 0.250, since beginning = 105 mins.
	epoch = 6.696, train perp. = 54.639, wps = 970, dw:norm() = 6.499, lr = 0.250, since beginning = 107 mins.
	epoch = 6.796, train perp. = 53.506, wps = 970, dw:norm() = 6.845, lr = 0.250, since beginning = 108 mins.
	epoch = 6.895, train perp. = 52.357, wps = 971, dw:norm() = 6.746, lr = 0.250, since beginning = 110 mins.
	epoch = 6.995, train perp. = 51.191, wps = 971, dw:norm() = 6.730, lr = 0.250, since beginning = 112 mins.
	Validation set perplexity : 119.041
	epoch = 7.095, train perp. = 50.582, wps = 967, dw:norm() = 7.445, lr = 0.125, since beginning = 114 mins.
	epoch = 7.195, train perp. = 50.042, wps = 967, dw:norm() = 7.069, lr = 0.125, since beginning = 115 mins.
	epoch = 7.295, train perp. = 49.481, wps = 968, dw:norm() = 6.833, lr = 0.125, since beginning = 117 mins.
	epoch = 7.395, train perp. = 48.924, wps = 968, dw:norm() = 7.029, lr = 0.125, since beginning = 118 mins.
	epoch = 7.495, train perp. = 48.370, wps = 969, dw:norm() = 7.237, lr = 0.125, since beginning = 120 mins.
	epoch = 7.594, train perp. = 47.808, wps = 969, dw:norm() = 7.247, lr = 0.125, since beginning = 121 mins.
	epoch = 7.694, train perp. = 47.246, wps = 969, dw:norm() = 6.302, lr = 0.125, since beginning = 123 mins.
	epoch = 7.794, train perp. = 46.673, wps = 970, dw:norm() = 7.407, lr = 0.125, since beginning = 124 mins.
	epoch = 7.894, train perp. = 46.081, wps = 970, dw:norm() = 7.013, lr = 0.125, since beginning = 126 mins.
	epoch = 7.994, train perp. = 45.481, wps = 970, dw:norm() = 6.892, lr = 0.125, since beginning = 128 mins.
	Validation set perplexity : 119.960
	epoch = 8.094, train perp. = 45.177, wps = 967, dw:norm() = 7.215, lr = 0.062, since beginning = 130 mins.
	epoch = 8.194, train perp. = 44.911, wps = 967, dw:norm() = 7.067, lr = 0.062, since beginning = 131 mins.
	epoch = 8.294, train perp. = 44.638, wps = 968, dw:norm() = 6.776, lr = 0.062, since beginning = 133 mins.
	epoch = 8.393, train perp. = 44.365, wps = 968, dw:norm() = 6.991, lr = 0.062, since beginning = 134 mins.
	epoch = 8.493, train perp. = 44.091, wps = 968, dw:norm() = 7.496, lr = 0.062, since beginning = 136 mins.
	epoch = 8.593, train perp. = 43.818, wps = 969, dw:norm() = 6.853, lr = 0.062, since beginning = 137 mins.
	epoch = 8.693, train perp. = 43.538, wps = 969, dw:norm() = 6.992, lr = 0.062, since beginning = 139 mins.
	epoch = 8.793, train perp. = 43.251, wps = 969, dw:norm() = 7.310, lr = 0.062, since beginning = 140 mins.
	epoch = 8.893, train perp. = 42.942, wps = 970, dw:norm() = 7.295, lr = 0.062, since beginning = 142 mins.
	epoch = 8.993, train perp. = 42.636, wps = 970, dw:norm() = 7.134, lr = 0.062, since beginning = 143 mins.
	Validation set perplexity : 120.660
	epoch = 9.093, train perp. = 42.487, wps = 967, dw:norm() = 8.016, lr = 0.031, since beginning = 146 mins.
	epoch = 9.192, train perp. = 42.357, wps = 967, dw:norm() = 7.810, lr = 0.031, since beginning = 147 mins.
	epoch = 9.292, train perp. = 42.224, wps = 968, dw:norm() = 7.088, lr = 0.031, since beginning = 149 mins.
	epoch = 9.392, train perp. = 42.093, wps = 968, dw:norm() = 7.175, lr = 0.031, since beginning = 150 mins.
	epoch = 9.492, train perp. = 41.951, wps = 968, dw:norm() = 7.719, lr = 0.031, since beginning = 152 mins.
	epoch = 9.592, train perp. = 41.812, wps = 968, dw:norm() = 6.918, lr = 0.031, since beginning = 153 mins.
	epoch = 9.692, train perp. = 41.665, wps = 969, dw:norm() = 6.919, lr = 0.031, since beginning = 155 mins.
	epoch = 9.792, train perp. = 41.514, wps = 969, dw:norm() = 6.794, lr = 0.031, since beginning = 156 mins.
	epoch = 9.892, train perp. = 41.356, wps = 969, dw:norm() = 7.350, lr = 0.031, since beginning = 158 mins.
	epoch = 9.991, train perp. = 41.195, wps = 970, dw:norm() = 7.381, lr = 0.031, since beginning = 160 mins.
	Validation set perplexity : 120.731
	epoch = 10.091, train perp. = 41.112, wps = 967, dw:norm() = 8.011, lr = 0.016, since beginning = 162 mins.
	epoch = 10.191, train perp. = 41.039, wps = 967, dw:norm() = 7.940, lr = 0.016, since beginning = 163 mins.
	epoch = 10.291, train perp. = 40.968, wps = 967, dw:norm() = 6.974, lr = 0.016, since beginning = 165 mins.
	epoch = 10.391, train perp. = 40.902, wps = 968, dw:norm() = 7.612, lr = 0.016, since beginning = 166 mins.
	epoch = 10.491, train perp. = 40.829, wps = 968, dw:norm() = 8.030, lr = 0.016, since beginning = 168 mins.
	epoch = 10.591, train perp. = 40.755, wps = 968, dw:norm() = 7.053, lr = 0.016, since beginning = 169 mins.
	epoch = 10.690, train perp. = 40.671, wps = 969, dw:norm() = 7.070, lr = 0.016, since beginning = 171 mins.
	epoch = 10.790, train perp. = 40.584, wps = 969, dw:norm() = 6.859, lr = 0.016, since beginning = 172 mins.
	epoch = 10.890, train perp. = 40.496, wps = 969, dw:norm() = 6.739, lr = 0.016, since beginning = 174 mins.
	epoch = 10.990, train perp. = 40.406, wps = 969, dw:norm() = 7.285, lr = 0.016, since beginning = 175 mins.
	Validation set perplexity : 120.413
	epoch = 11.090, train perp. = 40.357, wps = 967, dw:norm() = 8.047, lr = 0.008, since beginning = 178 mins.
	epoch = 11.190, train perp. = 40.313, wps = 967, dw:norm() = 7.900, lr = 0.008, since beginning = 179 mins.
	epoch = 11.290, train perp. = 40.269, wps = 967, dw:norm() = 7.805, lr = 0.008, since beginning = 181 mins.
	epoch = 11.390, train perp. = 40.230, wps = 968, dw:norm() = 7.409, lr = 0.008, since beginning = 182 mins.
	epoch = 11.489, train perp. = 40.188, wps = 968, dw:norm() = 7.649, lr = 0.008, since beginning = 184 mins.
	epoch = 11.589, train perp. = 40.149, wps = 968, dw:norm() = 7.358, lr = 0.008, since beginning = 185 mins.
	epoch = 11.689, train perp. = 40.099, wps = 968, dw:norm() = 7.586, lr = 0.008, since beginning = 187 mins.
	epoch = 11.789, train perp. = 40.051, wps = 969, dw:norm() = 7.316, lr = 0.008, since beginning = 188 mins.
	epoch = 11.889, train perp. = 40.001, wps = 969, dw:norm() = 7.182, lr = 0.008, since beginning = 190 mins.
	epoch = 11.989, train perp. = 39.951, wps = 969, dw:norm() = 7.088, lr = 0.008, since beginning = 191 mins.
	Validation set perplexity : 119.975
	epoch = 12.089, train perp. = 39.923, wps = 967, dw:norm() = 8.212, lr = 0.004, since beginning = 194 mins.
	epoch = 12.189, train perp. = 39.895, wps = 967, dw:norm() = 7.560, lr = 0.004, since beginning = 195 mins.
	epoch = 12.288, train perp. = 39.870, wps = 967, dw:norm() = 7.753, lr = 0.004, since beginning = 197 mins.
	epoch = 12.388, train perp. = 39.847, wps = 968, dw:norm() = 7.544, lr = 0.004, since beginning = 198 mins.
	epoch = 12.488, train perp. = 39.823, wps = 968, dw:norm() = 7.491, lr = 0.004, since beginning = 200 mins.
	epoch = 12.588, train perp. = 39.801, wps = 968, dw:norm() = 7.642, lr = 0.004, since beginning = 201 mins.
	epoch = 12.688, train perp. = 39.774, wps = 968, dw:norm() = 7.148, lr = 0.004, since beginning = 203 mins.
	epoch = 12.788, train perp. = 39.749, wps = 969, dw:norm() = 7.046, lr = 0.004, since beginning = 204 mins.
	epoch = 12.888, train perp. = 39.721, wps = 969, dw:norm() = 7.207, lr = 0.004, since beginning = 206 mins.
	epoch = 12.988, train perp. = 39.695, wps = 969, dw:norm() = 6.943, lr = 0.004, since beginning = 207 mins.
	Validation set perplexity : 119.619
	Test set perplexity : 1.000
	Training is over.
No results found