gcr · October 12, 2016 08:16
diff --git a/alexnet-BETTER.lua b/alexnet-BETTER.lua
 ------- AlexNet: Using my own weight initialization
 model = nn.Sequential()
 model:add(cudnn.SpatialConvolution(3,96,11,11,4,4,2,2))
    model.modules[#model.modules].weight:normal(0, 0.01)
    model.modules[#model.modules].bias:fill(0)
 model:add(cudnn.ReLU())
 model:add(inn.SpatialCrossResponseNormalization(5, 0.0001, 0.75, 1))
 model:add(nn.SpatialMaxPooling(3,3,2,2))
 model:add(cudnn.SpatialConvolution(96,256,5,5,1,1,2,2))
    model.modules[#model.modules].weight:normal(0, 0.01)
    model.modules[#model.modules].bias:fill(0.1)
 model:add(cudnn.ReLU())
 model:add(inn.SpatialCrossResponseNormalization(5, 0.0001, 0.75, 1))
 model:add(nn.SpatialMaxPooling(3,3,2,2)) 
 model:add(cudnn.SpatialConvolution(256,384,3,3,1,1,1,1))  
    model.modules[#model.modules].weight:normal(0, 0.01)
    model.modules[#model.modules].bias:fill(0)
 model:add(cudnn.ReLU())
 model:add(cudnn.SpatialConvolution(384,384,3,3,1,1,1,1))  
    model.modules[#model.modules].weight:normal(0, 0.01)
    model.modules[#model.modules].bias:fill(0.1)
 model:add(cudnn.ReLU())
 model:add(cudnn.SpatialConvolution(384,256,3,3,1,1,1,1)) 
    model.modules[#model.modules].weight:normal(0, 0.01)
    model.modules[#model.modules].bias:fill(0.1)
 model:add(nn.ReLU())
 model:add(nn.SpatialMaxPooling(3,3,2,2))  

 model:add(nn.View(256*6*6))
 model:add(nn.Linear(256*6*6, 4096))
    model.modules[#model.modules].weight:normal(0, 0.005)
    model.modules[#model.modules].bias:fill(0.1)
 model:add(cudnn.ReLU())
 model:add(nn.Dropout(0.5))
 model:add(nn.Linear(4096, 4096))
    model.modules[#model.modules].weight:normal(0, 0.005)
    model.modules[#model.modules].bias:fill(0.1)
 model:add(cudnn.ReLU())
 model:add(nn.Dropout(0.5))
 model:add(nn.Linear(4096, 1000))
    model.modules[#model.modules].weight:normal(0, 0.01)
    model.modules[#model.modules].bias:fill(0)
 model:add(nn.LogSoftMax())

 model:cuda()
diff --git a/alexnet-WORSE.lua b/alexnet-WORSE.lua
 ------- AlexNet: Using Torch defaults for weight initialization
 model = nn.Sequential()
 model:add(cudnn.SpatialConvolution(3,96,11,11,4,4,2,2)) 
 --    model.modules[#model.modules].weight:normal(0, 0.01)
 --    model.modules[#model.modules].bias:fill(0)
 model:add(cudnn.ReLU())
 model:add(inn.SpatialCrossResponseNormalization(5, 0.0001, 0.75, 1))
 model:add(nn.SpatialMaxPooling(3,3,2,2))  
 model:add(cudnn.SpatialConvolution(96,256,5,5,1,1,2,2))  
 --    model.modules[#model.modules].weight:normal(0, 0.01)
 --    model.modules[#model.modules].bias:fill(0.1)
 model:add(cudnn.ReLU())
 model:add(inn.SpatialCrossResponseNormalization(5, 0.0001, 0.75, 1))
 model:add(nn.SpatialMaxPooling(3,3,2,2))    
 model:add(cudnn.SpatialConvolution(256,384,3,3,1,1,1,1))  
 --    model.modules[#model.modules].weight:normal(0, 0.01)
 --    model.modules[#model.modules].bias:fill(0)
 model:add(cudnn.ReLU())
 model:add(cudnn.SpatialConvolution(384,384,3,3,1,1,1,1)) 
 --    model.modules[#model.modules].weight:normal(0, 0.01)
 --    model.modules[#model.modules].bias:fill(0.1)
 model:add(cudnn.ReLU())
 model:add(cudnn.SpatialConvolution(384,256,3,3,1,1,1,1))  
 --    model.modules[#model.modules].weight:normal(0, 0.01)
 --    model.modules[#model.modules].bias:fill(0.1)
 model:add(nn.ReLU())
 model:add(nn.SpatialMaxPooling(3,3,2,2))    

 model:add(nn.View(256*6*6))
 model:add(nn.Linear(256*6*6, 4096))
 --    model.modules[#model.modules].weight:normal(0, 0.005)
 --    model.modules[#model.modules].bias:fill(0.1)
 model:add(cudnn.ReLU())
 model:add(nn.Dropout(0.5))
 model:add(nn.Linear(4096, 4096))
 --    model.modules[#model.modules].weight:normal(0, 0.005)
 --    model.modules[#model.modules].bias:fill(0.1)
 model:add(cudnn.ReLU())
 model:add(nn.Dropout(0.5))
 model:add(nn.Linear(4096, 1000))
 --    model.modules[#model.modules].weight:normal(0, 0.01)
 --    model.modules[#model.modules].bias:fill(0)
 model:add(nn.LogSoftMax())

 model:cuda()
	------- AlexNet: Using my own weight initialization
	model = nn.Sequential()
	model:add(cudnn.SpatialConvolution(3,96,11,11,4,4,2,2))
	model.modules[#model.modules].weight:normal(0, 0.01)
	model.modules[#model.modules].bias:fill(0)
	model:add(cudnn.ReLU())
	model:add(inn.SpatialCrossResponseNormalization(5, 0.0001, 0.75, 1))
	model:add(nn.SpatialMaxPooling(3,3,2,2))
	model:add(cudnn.SpatialConvolution(96,256,5,5,1,1,2,2))
	model.modules[#model.modules].weight:normal(0, 0.01)
	model.modules[#model.modules].bias:fill(0.1)
	model:add(cudnn.ReLU())
	model:add(inn.SpatialCrossResponseNormalization(5, 0.0001, 0.75, 1))
	model:add(nn.SpatialMaxPooling(3,3,2,2))
	model:add(cudnn.SpatialConvolution(256,384,3,3,1,1,1,1))
	model.modules[#model.modules].weight:normal(0, 0.01)
	model.modules[#model.modules].bias:fill(0)
	model:add(cudnn.ReLU())
	model:add(cudnn.SpatialConvolution(384,384,3,3,1,1,1,1))
	model.modules[#model.modules].weight:normal(0, 0.01)
	model.modules[#model.modules].bias:fill(0.1)
	model:add(cudnn.ReLU())
	model:add(cudnn.SpatialConvolution(384,256,3,3,1,1,1,1))
	model.modules[#model.modules].weight:normal(0, 0.01)
	model.modules[#model.modules].bias:fill(0.1)
	model:add(nn.ReLU())
	model:add(nn.SpatialMaxPooling(3,3,2,2))

	model:add(nn.View(25666))
	model:add(nn.Linear(25666, 4096))
	model.modules[#model.modules].weight:normal(0, 0.005)
	model.modules[#model.modules].bias:fill(0.1)
	model:add(cudnn.ReLU())
	model:add(nn.Dropout(0.5))
	model:add(nn.Linear(4096, 4096))
	model.modules[#model.modules].weight:normal(0, 0.005)
	model.modules[#model.modules].bias:fill(0.1)
	model:add(cudnn.ReLU())
	model:add(nn.Dropout(0.5))
	model:add(nn.Linear(4096, 1000))
	model.modules[#model.modules].weight:normal(0, 0.01)
	model.modules[#model.modules].bias:fill(0)
	model:add(nn.LogSoftMax())

	model:cuda()
	------- AlexNet: Using Torch defaults for weight initialization
	model = nn.Sequential()
	model:add(cudnn.SpatialConvolution(3,96,11,11,4,4,2,2))
	-- model.modules[#model.modules].weight:normal(0, 0.01)
	-- model.modules[#model.modules].bias:fill(0)
	model:add(cudnn.ReLU())
	model:add(inn.SpatialCrossResponseNormalization(5, 0.0001, 0.75, 1))
	model:add(nn.SpatialMaxPooling(3,3,2,2))
	model:add(cudnn.SpatialConvolution(96,256,5,5,1,1,2,2))
	-- model.modules[#model.modules].weight:normal(0, 0.01)
	-- model.modules[#model.modules].bias:fill(0.1)
	model:add(cudnn.ReLU())
	model:add(inn.SpatialCrossResponseNormalization(5, 0.0001, 0.75, 1))
	model:add(nn.SpatialMaxPooling(3,3,2,2))
	model:add(cudnn.SpatialConvolution(256,384,3,3,1,1,1,1))
	-- model.modules[#model.modules].weight:normal(0, 0.01)
	-- model.modules[#model.modules].bias:fill(0)
	model:add(cudnn.ReLU())
	model:add(cudnn.SpatialConvolution(384,384,3,3,1,1,1,1))
	-- model.modules[#model.modules].weight:normal(0, 0.01)
	-- model.modules[#model.modules].bias:fill(0.1)
	model:add(cudnn.ReLU())
	model:add(cudnn.SpatialConvolution(384,256,3,3,1,1,1,1))
	-- model.modules[#model.modules].weight:normal(0, 0.01)
	-- model.modules[#model.modules].bias:fill(0.1)
	model:add(nn.ReLU())
	model:add(nn.SpatialMaxPooling(3,3,2,2))

	model:add(nn.View(25666))
	model:add(nn.Linear(25666, 4096))
	-- model.modules[#model.modules].weight:normal(0, 0.005)
	-- model.modules[#model.modules].bias:fill(0.1)
	model:add(cudnn.ReLU())
	model:add(nn.Dropout(0.5))
	model:add(nn.Linear(4096, 4096))
	-- model.modules[#model.modules].weight:normal(0, 0.005)
	-- model.modules[#model.modules].bias:fill(0.1)
	model:add(cudnn.ReLU())
	model:add(nn.Dropout(0.5))
	model:add(nn.Linear(4096, 1000))
	-- model.modules[#model.modules].weight:normal(0, 0.01)
	-- model.modules[#model.modules].bias:fill(0)
	model:add(nn.LogSoftMax())

	model:cuda()