inspirit · October 2, 2013 08:26
diff --git a/Convolution.hpp b/Convolution.hpp
 #pragma once
 #ifndef CONVOLUTION_H_INCLUDED
 #define CONVOLUTION_H_INCLUDED

 /**
 * Separable Convolution routines with SSE and NEON intrinsics
 * 
 * this implementation is based on OpenCV Filter Class
 * with template optimizations and SIMD intrinsic
 * 
 * @author Eugene Zatepyakin
 */


 #include <algorithm>
 #include <limits>

 // SIMD
 #define SIMD_OPT 1
 #include <emmintrin.h>

 #ifdef __GNUC__
 #  define CV_DECL_ALIGNED(x) __attribute__ ((aligned (x)))
 #elif defined _MSC_VER
 #  define CV_DECL_ALIGNED(x) __declspec(align(x))
 #else
 #error unknown platform
 #endif

 // SEPARABLE CONVOLUTION ONLY

 namespace convolve {


 //! type of the kernel
 enum { KERNEL_GENERAL      = 0, // the kernel is generic. No any type of symmetry or other properties.
    KERNEL_SYMMETRICAL  = 1, // kernel[i] == kernel[ksize-i-1] , and the anchor is at the center
    KERNEL_ASYMMETRICAL = 2, // kernel[i] == -kernel[ksize-i-1] , and the anchor is at the center
    KERNEL_SMOOTH       = 4, // all the kernel elements are non-negative and summed to 1
    KERNEL_INTEGER      = 8  // all the kernel coefficients are integer numbers
 };

 template<typename KT>
 static int getKernelType(const KT* kernel, const int sz)
 {
    int i;
    
    float sum = 0;
    int type = KERNEL_SMOOTH + KERNEL_INTEGER;
    type |= (KERNEL_SYMMETRICAL + KERNEL_ASYMMETRICAL);
    
    for( i = 0; i < sz; i++ )
    {
        KT a = kernel[i], b = kernel[sz - i - 1];
        if( a != b )
            type &= ~KERNEL_SYMMETRICAL;
        if( a != -b )
            type &= ~KERNEL_ASYMMETRICAL;
        if( a < 0 )
            type &= ~KERNEL_SMOOTH;
        if( a != static_cast<int>(a) )
            type &= ~KERNEL_INTEGER;
        sum += a;
    }
    
    if( std::fabs(sum - 1) > std::numeric_limits<float>::epsilon()*(std::fabs(sum) + 1) )
        type &= ~KERNEL_SMOOTH;
    
    return type;
 }

 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct SIMDRow
 {
    SIMDRow() {}
    int operator()(ST*, DT*, const KT*, int) const { return 0; }
 };
 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct SIMDRowSymm : public SIMDRow<ST,DT,KT,cn,_ksize>
 {
 	int operator()(ST*, DT*, const KT*, int) const { return 0; }
 };
 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct SIMDRowASymm : public SIMDRow<ST,DT,KT,cn,_ksize>
 {
 	int operator()(ST*, DT*, const KT*, int) const { return 0; }
 };
 //
 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct SIMDCol
 {
    SIMDCol() {}
 	int operator()(ST**, DT*, const KT*, int) const { return 0; }
 };
 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct SIMDColSymm : public SIMDCol<ST,DT,KT,cn,_ksize>
 {
 	int operator()(ST**, DT*, const KT*, int) const { return 0; }
 };
 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct SIMDColASymm : public SIMDCol<ST,DT,KT,cn,_ksize>
 {
 	int operator()(ST**, DT*, const KT*, int) const { return 0; }
 };

 // SPECIAL CASE (SIMD) FOR FLOAT DATA TYPE
 // TODO: NEON version

 #if SIMD_OPT
    #ifdef __arm__
        #include <arm_neon.h>
    
        //#define _mm_set1_ps(a)             ( vld1q_dup_f32( &(a) ) )
        #define _mm_load_ss(ptr)            ( vld1q_dup_f32( (ptr) ) )
        // in our case we just dup in above line
        #define _mm_shuffle_ps(a, b, m)     (a)
    
        #define _mm_setzero_ps()            ( vmovq_n_f32( 0.f ) )
        #define _mm_set1_ps(a)              ( vmovq_n_f32( (a) ) )
        #define _mm_loadu_ps(ptr)           ( vld1q_f32( (ptr) ) )
        #define _mm_load_ps(ptr)            ( vld1q_f32( (ptr) ) )
        #define _mm_storeu_ps(ptr, a)       ( vst1q_f32( (ptr), (a) ) )
        #define _mm_store_ps(ptr, a)        ( vst1q_f32( (ptr), (a) ) )
        #define _mm_add_ps(a, b)            ( vaddq_f32( (a), (b) ) )
        #define _mm_sub_ps(a, b)            ( vsubq_f32( (a), (b) ) )
        #define _mm_mul_ps(a, b)            ( vmulq_f32( (a), (b) ) )
    #endif

 template<int cn, int _ksize>
 struct SIMDRow<float,float,float,cn,_ksize>
 {
 	#ifdef __arm__
    typedef float32x4_t __m128;
 	#endif

 	int operator()(float* buffer, float* dst, const float* _kernel, int rowSize) const
    {
        //rowSize *= cn;
        int i = 0, k;
        
        const float* kx = _kernel;

 		for( ; i <= rowSize - 8; i += 8 )
        {
            const float* src = buffer + i;
            __m128 f, s0 = _mm_setzero_ps(), s1 = s0, x0, x1;
            for( k = 0; k < _ksize; k++, src += cn )
            {
                f = _mm_load_ss(kx+k);
                f = _mm_shuffle_ps(f, f, 0);
                    
                x0 = _mm_loadu_ps(src);
                x1 = _mm_loadu_ps(src + 4);
                s0 = _mm_add_ps(s0, _mm_mul_ps(x0, f));
                s1 = _mm_add_ps(s1, _mm_mul_ps(x1, f));
            }
            _mm_store_ps(dst + i, s0);
            _mm_store_ps(dst + i + 4, s1);
        }

 		return i;
 	}
 };

 template<int cn, int _ksize>
 struct SIMDRowSymm<float,float,float,cn,_ksize>
 {
 	#ifdef __arm__
    typedef float32x4_t __m128;
 	#endif

 	int operator()(float* buffer, float* dst, const float* _kernel, int rowSize) const
    {        
 		//rowSize *= cn;
        int i = 0;
        
 		const int ksize2 = _ksize/2;
        const float* src = buffer + ksize2*cn;
        const float* kx = _kernel + ksize2;
        
        if( _ksize == 3 )
        {
            if( kx[0] == 2 && kx[1] == 1 )
                for( ; i <= rowSize - 8; i += 8, src += 8 )
                {
                    __m128 x0, x1, x2, y0, y1, y2;
                    x0 = _mm_loadu_ps(src - cn);
                    x1 = _mm_loadu_ps(src);
                    x2 = _mm_loadu_ps(src + cn);
                    y0 = _mm_loadu_ps(src - cn + 4);
                    y1 = _mm_loadu_ps(src + 4);
                    y2 = _mm_loadu_ps(src + cn + 4);
                    x0 = _mm_add_ps(x0, _mm_add_ps(_mm_add_ps(x1, x1), x2));
                    y0 = _mm_add_ps(y0, _mm_add_ps(_mm_add_ps(y1, y1), y2));
                    _mm_store_ps(dst + i, x0);
                    _mm_store_ps(dst + i + 4, y0);
                }
            else if( kx[0] == -2 && kx[1] == 1 )
                for( ; i <= rowSize - 8; i += 8, src += 8 )
                {
                    __m128 x0, x1, x2, y0, y1, y2;
                    x0 = _mm_loadu_ps(src - cn);
                    x1 = _mm_loadu_ps(src);
                    x2 = _mm_loadu_ps(src + cn);
                    y0 = _mm_loadu_ps(src - cn + 4);
                    y1 = _mm_loadu_ps(src + 4);
                    y2 = _mm_loadu_ps(src + cn + 4);
                    x0 = _mm_add_ps(x0, _mm_sub_ps(x2, _mm_add_ps(x1, x1)));
                    y0 = _mm_add_ps(y0, _mm_sub_ps(y2, _mm_add_ps(y1, y1)));
                    _mm_store_ps(dst + i, x0);
                    _mm_store_ps(dst + i + 4, y0);
                }
            else
            {
                __m128 k0 = _mm_set1_ps(kx[0]), k1 = _mm_set1_ps(kx[1]);
                for( ; i <= rowSize - 8; i += 8, src += 8 )
                {
                    __m128 x0, x1, x2, y0, y1, y2;
                    x0 = _mm_loadu_ps(src - cn);
                    x1 = _mm_loadu_ps(src);
                    x2 = _mm_loadu_ps(src + cn);
                    y0 = _mm_loadu_ps(src - cn + 4);
                    y1 = _mm_loadu_ps(src + 4);
                    y2 = _mm_loadu_ps(src + cn + 4);
                        
                    x0 = _mm_mul_ps(_mm_add_ps(x0, x2), k1);
                    y0 = _mm_mul_ps(_mm_add_ps(y0, y2), k1);
                    x0 = _mm_add_ps(x0, _mm_mul_ps(x1, k0));
                    y0 = _mm_add_ps(y0, _mm_mul_ps(y1, k0));
                    _mm_store_ps(dst + i, x0);
                    _mm_store_ps(dst + i + 4, y0);
                }
            }
        }
        else if( _ksize == 5 )
        {
            if( kx[0] == -2 && kx[1] == 0 && kx[2] == 1 )
                for( ; i <= rowSize - 8; i += 8, src += 8 )
                {
                    __m128 x0, x1, x2, y0, y1, y2;
                    x0 = _mm_loadu_ps(src - cn*2);
                    x1 = _mm_loadu_ps(src);
                    x2 = _mm_loadu_ps(src + cn*2);
                    y0 = _mm_loadu_ps(src - cn*2 + 4);
                    y1 = _mm_loadu_ps(src + 4);
                    y2 = _mm_loadu_ps(src + cn*2 + 4);
                    x0 = _mm_add_ps(x0, _mm_sub_ps(x2, _mm_add_ps(x1, x1)));
                    y0 = _mm_add_ps(y0, _mm_sub_ps(y2, _mm_add_ps(y1, y1)));
                    _mm_store_ps(dst + i, x0);
                    _mm_store_ps(dst + i + 4, y0);
                }
            else
            {
                __m128 k0 = _mm_set1_ps(kx[0]), k1 = _mm_set1_ps(kx[1]), k2 = _mm_set1_ps(kx[2]);
                for( ; i <= rowSize - 8; i += 8, src += 8 )
                {
                    __m128 x0, x1, x2, y0, y1, y2;
                    x0 = _mm_loadu_ps(src - cn);
                    x1 = _mm_loadu_ps(src);
                    x2 = _mm_loadu_ps(src + cn);
                    y0 = _mm_loadu_ps(src - cn + 4);
                    y1 = _mm_loadu_ps(src + 4);
                    y2 = _mm_loadu_ps(src + cn + 4);
                        
                    x0 = _mm_mul_ps(_mm_add_ps(x0, x2), k1);
                    y0 = _mm_mul_ps(_mm_add_ps(y0, y2), k1);
                    x0 = _mm_add_ps(x0, _mm_mul_ps(x1, k0));
                    y0 = _mm_add_ps(y0, _mm_mul_ps(y1, k0));
                        
                    x2 = _mm_add_ps(_mm_loadu_ps(src + cn*2), _mm_loadu_ps(src - cn*2));
                    y2 = _mm_add_ps(_mm_loadu_ps(src + cn*2 + 4), _mm_loadu_ps(src - cn*2 + 4));
                    x0 = _mm_add_ps(x0, _mm_mul_ps(x2, k2));
                    y0 = _mm_add_ps(y0, _mm_mul_ps(y2, k2));
                        
                    _mm_store_ps(dst + i, x0);
                    _mm_store_ps(dst + i + 4, y0);
                }
            }
        } 
 		else
 		{
 			SIMDRow<float,float,float,cn,_ksize> op;
 			i = op(buffer, dst, _kernel, rowSize);
 		}

 		return i;
 	 }
 };

 template<int cn, int _ksize>
 struct SIMDRowASymm<float,float,float,cn,_ksize>
 {
 	#ifdef __arm__
    typedef float32x4_t __m128;
 	#endif

 	int operator()(float* buffer, float* dst, const float* _kernel, int rowSize) const
    {        
 		//rowSize *= cn;
        int i = 0;
        
 		const int ksize2 = _ksize/2;
        const float* src = buffer + ksize2*cn;
        const float* kx = _kernel + ksize2;
        
        if( _ksize == 3 )
        {
            if( kx[0] == 0 && kx[1] == 1 )
                for( ; i <= rowSize - 8; i += 8, src += 8 )
                {
                    __m128 x0, x2, y0, y2;
                    x0 = _mm_loadu_ps(src + cn);
                    x2 = _mm_loadu_ps(src - cn);
                    y0 = _mm_loadu_ps(src + cn + 4);
                    y2 = _mm_loadu_ps(src - cn + 4);
                    x0 = _mm_sub_ps(x0, x2);
                    y0 = _mm_sub_ps(y0, y2);
                    _mm_store_ps(dst + i, x0);
                    _mm_store_ps(dst + i + 4, y0);
                }
            else
            {
                __m128 k1 = _mm_set1_ps(kx[1]);
                for( ; i <= rowSize - 8; i += 8, src += 8 )
                {
                    __m128 x0, x2, y0, y2;
                    x0 = _mm_loadu_ps(src + cn);
                    x2 = _mm_loadu_ps(src - cn);
                    y0 = _mm_loadu_ps(src + cn + 4);
                    y2 = _mm_loadu_ps(src - cn + 4);
                        
                    x0 = _mm_mul_ps(_mm_sub_ps(x0, x2), k1);
                    y0 = _mm_mul_ps(_mm_sub_ps(y0, y2), k1);
                    _mm_store_ps(dst + i, x0);
                    _mm_store_ps(dst + i + 4, y0);
                }
            }
        }
        else if( _ksize == 5 )
        {
            __m128 k1 = _mm_set1_ps(kx[1]), k2 = _mm_set1_ps(kx[2]);
            for( ; i <= rowSize - 8; i += 8, src += 8 )
            {
                __m128 x0, x2, y0, y2;
                x0 = _mm_loadu_ps(src + cn);
                x2 = _mm_loadu_ps(src - cn);
                y0 = _mm_loadu_ps(src + cn + 4);
                y2 = _mm_loadu_ps(src - cn + 4);
                    
                x0 = _mm_mul_ps(_mm_sub_ps(x0, x2), k1);
                y0 = _mm_mul_ps(_mm_sub_ps(y0, y2), k1);
                    
                x2 = _mm_sub_ps(_mm_loadu_ps(src + cn*2), _mm_loadu_ps(src - cn*2));
                y2 = _mm_sub_ps(_mm_loadu_ps(src + cn*2 + 4), _mm_loadu_ps(src - cn*2 + 4));
                x0 = _mm_add_ps(x0, _mm_mul_ps(x2, k2));
                y0 = _mm_add_ps(y0, _mm_mul_ps(y2, k2));
                    
                _mm_store_ps(dst + i, x0);
                _mm_store_ps(dst + i + 4, y0);
            }
        }
 		else
 		{
 			SIMDRow<float,float,float,cn,_ksize> op;
 			i = op(buffer, dst, _kernel, rowSize);
 		}

 		return i;
 	 }
 };

 template<int cn, int _ksize>
 struct SIMDColSymm<float,float,float,cn,_ksize>
 {
 	#ifdef __arm__
    typedef float32x4_t __m128;
 	#endif

 	int operator()(float** buffer, float* dst, const float* _kernel, int rowSize) const
    {
        //rowSize *= cn;
        int i = 0, k;
        
 		const int ksize2 = _ksize/2;
        const float** src = (const float**)buffer+ksize2;
        const float* ky = _kernel + ksize2;
        
        float _delta = 0.f;
        __m128 d4 = _mm_set1_ps(_delta);

 		if(_ksize == 3)
        {
            const float *S0 = src[-1], *S1 = src[0], *S2 = src[1];
                
            if( ky[0] == 2 && ky[1] == 1 )
            {
                for( ; i <= rowSize - 8; i += 8 )
                {
                    __m128 s0, s1, s2, s3, s4, s5;
                    s0 = _mm_load_ps(S0 + i);
                    s1 = _mm_load_ps(S0 + i + 4);
                    s2 = _mm_load_ps(S1 + i);
                    s3 = _mm_load_ps(S1 + i + 4);
                    s4 = _mm_load_ps(S2 + i);
                    s5 = _mm_load_ps(S2 + i + 4);
                    s0 = _mm_add_ps(s0, _mm_add_ps(s4, _mm_add_ps(s2, s2)));
                    s1 = _mm_add_ps(s1, _mm_add_ps(s5, _mm_add_ps(s3, s3)));
                    s0 = _mm_add_ps(s0, d4);
                    s1 = _mm_add_ps(s1, d4);
                    _mm_store_ps(dst + i, s0);
                    _mm_store_ps(dst + i + 4, s1);
                }
            }
            else if( ky[0] == -2 && ky[1] == 1 )
            {
                for( ; i <= rowSize - 8; i += 8 )
                {
                    __m128 s0, s1, s2, s3, s4, s5;
                    s0 = _mm_load_ps(S0 + i);
                    s1 = _mm_load_ps(S0 + i + 4);
                    s2 = _mm_load_ps(S1 + i);
                    s3 = _mm_load_ps(S1 + i + 4);
                    s4 = _mm_load_ps(S2 + i);
                    s5 = _mm_load_ps(S2 + i + 4);
                    s0 = _mm_add_ps(s0, _mm_sub_ps(s4, _mm_add_ps(s2, s2)));
                    s1 = _mm_add_ps(s1, _mm_sub_ps(s5, _mm_add_ps(s3, s3)));
                    s0 = _mm_add_ps(s0, d4);
                    s1 = _mm_add_ps(s1, d4);
                    _mm_store_ps(dst + i, s0);
                    _mm_store_ps(dst + i + 4, s1);
                }
            }
            else
            {
                __m128 k0 = _mm_set1_ps(ky[0]), k1 = _mm_set1_ps(ky[1]);
                for( ; i <= rowSize - 8; i += 8 )
                {
                    __m128 s0, s1, x0, x1;
                    s0 = _mm_load_ps(S1 + i);
                    s1 = _mm_load_ps(S1 + i + 4);
                    s0 = _mm_add_ps(_mm_mul_ps(s0, k0), d4);
                    s1 = _mm_add_ps(_mm_mul_ps(s1, k0), d4);
                    x0 = _mm_add_ps(_mm_load_ps(S0 + i), _mm_load_ps(S2 + i));
                    x1 = _mm_add_ps(_mm_load_ps(S0 + i + 4), _mm_load_ps(S2 + i + 4));
                    s0 = _mm_add_ps(s0, _mm_mul_ps(x0,k1));
                    s1 = _mm_add_ps(s1, _mm_mul_ps(x1,k1));
                    _mm_store_ps(dst + i, s0);
                    _mm_store_ps(dst + i + 4, s1);
                }
            }
        }
        else // kernel greater than 3
        {
            const float *S, *S2;
                
            for( ; i <= rowSize - 16; i += 16 )
            {
                __m128 f = _mm_load_ss(ky);
                f = _mm_shuffle_ps(f, f, 0);
                __m128 s0, s1, s2, s3;
                __m128 x0, x1;
                S = src[0] + i;
                s0 = _mm_load_ps(S);
                s1 = _mm_load_ps(S+4);
                s0 = _mm_add_ps(_mm_mul_ps(s0, f), d4);
                s1 = _mm_add_ps(_mm_mul_ps(s1, f), d4);
                s2 = _mm_load_ps(S+8);
                s3 = _mm_load_ps(S+12);
                s2 = _mm_add_ps(_mm_mul_ps(s2, f), d4);
                s3 = _mm_add_ps(_mm_mul_ps(s3, f), d4);
                    
                for( k = 1; k <= ksize2; k++ )
                {
                    S = src[k] + i;
                    S2 = src[-k] + i;
                    f = _mm_load_ss(ky+k);
                    f = _mm_shuffle_ps(f, f, 0);
                    x0 = _mm_add_ps(_mm_load_ps(S), _mm_load_ps(S2));
                    x1 = _mm_add_ps(_mm_load_ps(S+4), _mm_load_ps(S2+4));
                    s0 = _mm_add_ps(s0, _mm_mul_ps(x0, f));
                    s1 = _mm_add_ps(s1, _mm_mul_ps(x1, f));
                    x0 = _mm_add_ps(_mm_load_ps(S+8), _mm_load_ps(S2+8));
                    x1 = _mm_add_ps(_mm_load_ps(S+12), _mm_load_ps(S2+12));
                    s2 = _mm_add_ps(s2, _mm_mul_ps(x0, f));
                    s3 = _mm_add_ps(s3, _mm_mul_ps(x1, f));
                }
                    
                _mm_store_ps(dst + i, s0);
                _mm_store_ps(dst + i + 4, s1);
                _mm_store_ps(dst + i + 8, s2);
                _mm_store_ps(dst + i + 12, s3);
            }
                
            for( ; i <= rowSize - 4; i += 4 )
            {
                __m128 f = _mm_load_ss(ky);
                f = _mm_shuffle_ps(f, f, 0);
                __m128 x0, s0 = _mm_load_ps(src[0] + i);
                s0 = _mm_add_ps(_mm_mul_ps(s0, f), d4);
                    
                for( k = 1; k <= ksize2; k++ )
                {
                    f = _mm_load_ss(ky+k);
                    f = _mm_shuffle_ps(f, f, 0);
                    S = src[k] + i;
                    S2 = src[-k] + i;
                    x0 = _mm_add_ps(_mm_load_ps(src[k]+i), _mm_load_ps(src[-k] + i));
                    s0 = _mm_add_ps(s0, _mm_mul_ps(x0, f));
                }
                    
                _mm_storeu_ps(dst + i, s0);
            }
        }

 		return i;
 	}
 };

 template<int cn, int _ksize>
 struct SIMDColASymm<float,float,float,cn,_ksize>
 {
 	#ifdef __arm__
    typedef float32x4_t __m128;
 	#endif

 	int operator()(float** buffer, float* dst, const float* _kernel, int rowSize) const
    {
        //rowSize *= cn;
        int i = 0, k;
        
 		const int ksize2 = _ksize/2;
        const float** src = (const float**)buffer+ksize2;
        const float* ky = _kernel + ksize2;
        
        float _delta = 0.f;
        __m128 d4 = _mm_set1_ps(_delta);

 		if(_ksize == 3)
        {
            const float *S0 = src[-1], *S2 = src[1];
                
            if( fabs(ky[1]) == 1 && ky[1] == -ky[-1] )
            {
                if( ky[1] < 0 )
                    std::swap(S0, S2);
                for( ; i <= rowSize - 8; i += 8 )
                {
                    __m128 s0, s1, s2, s3;
                    s0 = _mm_load_ps(S2 + i);
                    s1 = _mm_load_ps(S2 + i + 4);
                    s2 = _mm_load_ps(S0 + i);
                    s3 = _mm_load_ps(S0 + i + 4);
                    s0 = _mm_add_ps(_mm_sub_ps(s0, s2), d4);
                    s1 = _mm_add_ps(_mm_sub_ps(s1, s3), d4);
                    _mm_store_ps(dst + i, s0);
                    _mm_store_ps(dst + i + 4, s1);
                }
            }
            else
            {
                __m128 k1 = _mm_set1_ps(ky[1]);
                for( ; i <= rowSize - 8; i += 8 )
                {
                    __m128 s0 = d4, s1 = d4, x0, x1;
                    x0 = _mm_sub_ps(_mm_load_ps(S2 + i), _mm_load_ps(S0 + i));
                    x1 = _mm_sub_ps(_mm_load_ps(S2 + i + 4), _mm_load_ps(S0 + i + 4));
                    s0 = _mm_add_ps(s0, _mm_mul_ps(x0,k1));
                    s1 = _mm_add_ps(s1, _mm_mul_ps(x1,k1));
                    _mm_store_ps(dst + i, s0);
                    _mm_store_ps(dst + i + 4, s1);
                }
            }
        }
        else // kernel greater than 3
        {
            const float *S, *S2;
                
            for( ; i <= rowSize - 16; i += 16 )
            {
                __m128 f, s0 = d4, s1 = d4, s2 = d4, s3 = d4;
                __m128 x0, x1;
                S = src[0] + i;
                    
                for( k = 1; k <= ksize2; k++ )
                {
                    S = src[k] + i;
                    S2 = src[-k] + i;
                    f = _mm_load_ss(ky+k);
                    f = _mm_shuffle_ps(f, f, 0);
                    x0 = _mm_sub_ps(_mm_load_ps(S), _mm_load_ps(S2));
                    x1 = _mm_sub_ps(_mm_load_ps(S+4), _mm_load_ps(S2+4));
                    s0 = _mm_add_ps(s0, _mm_mul_ps(x0, f));
                    s1 = _mm_add_ps(s1, _mm_mul_ps(x1, f));
                    x0 = _mm_sub_ps(_mm_load_ps(S+8), _mm_load_ps(S2+8));
                    x1 = _mm_sub_ps(_mm_load_ps(S+12), _mm_load_ps(S2+12));
                    s2 = _mm_add_ps(s2, _mm_mul_ps(x0, f));
                    s3 = _mm_add_ps(s3, _mm_mul_ps(x1, f));
                }
                    
                _mm_store_ps(dst + i, s0);
                _mm_store_ps(dst + i + 4, s1);
                _mm_store_ps(dst + i + 8, s2);
                _mm_store_ps(dst + i + 12, s3);
            }
                
            for( ; i <= rowSize - 4; i += 4 )
            {
                __m128 f, x0, s0 = d4;
                    
                for( k = 1; k <= ksize2; k++ )
                {
                    f = _mm_load_ss(ky+k);
                    f = _mm_shuffle_ps(f, f, 0);
                    x0 = _mm_sub_ps(_mm_load_ps(src[k]+i), _mm_load_ps(src[-k] + i));
                    s0 = _mm_add_ps(s0, _mm_mul_ps(x0, f));
                }
                    
                _mm_store_ps(dst + i, s0);
            }
        }

 		return i;
 	}
 };

 #endif

 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct ConvolveRowBuffer
 {
    const KT* _kernel;
 	SIMDRow<ST, DT, KT, cn, _ksize> _vecOp;

 	typedef ST stype;
 	typedef DT dtype;

 	enum {
 		Channels = cn,
 		KSize = _ksize
 	};
    
    ConvolveRowBuffer(const KT* kernel)
    : _kernel(kernel)
    {
    }

 	// horizontal pass
    virtual void operator()(ST* buffer, DT* dst, int rowSize) const
    {
        int i = 0, k;
        const ST* S;

 		rowSize *= cn;
 		i = _vecOp(buffer, dst, _kernel, rowSize);
 		
        for( ; i < rowSize; i++ )
        {
            S = buffer + i;
            DT s0 = _kernel[0]*S[0];
            for( k = 1; k < _ksize; k++ )
            {
                S += cn;
                s0 += _kernel[k]*S[0];
            }
            dst[i] = s0;
        }
    }
    
 };

 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct ConvolveColBuffer
 {
    const KT* _kernel;
 	SIMDCol<ST, DT, KT, cn, _ksize> _vecOp;

 	typedef ST stype;
 	typedef DT dtype;

 	enum {
 		Channels = cn,
 		KSize = _ksize
 	};
    
    ConvolveColBuffer(const KT* kernel)
    : _kernel(kernel)
    {
    }
    
 	// vertical pass
    virtual void operator()(ST** buffer, DT* dst, int rowSize) const
    {
        int i = 0, k;

 		rowSize *= cn;
 		i = _vecOp(buffer, dst, _kernel, rowSize);
        
        DT _delta = 0;
        
        for( ; i < rowSize; i++ )
        {
            ST s0 = _kernel[0]*(buffer[0])[i] + _delta;
            for( k = 1; k < _ksize; k++ )
            {
                s0 += _kernel[k]*(buffer[k])[i];
            }
            dst[i] = (s0);
        }
    }
 };

 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct ConvolveRowBufferSymm : public ConvolveRowBuffer<ST,DT,KT,cn,_ksize>
 {
 	SIMDRowSymm<ST, DT, KT, cn, _ksize> _vecOp;
    
 	ConvolveRowBufferSymm(const KT* kernel)
 	:ConvolveRowBuffer<ST,DT,KT,cn,_ksize>(kernel)
 	{ }

 	// horizontal pass
 	void operator()(ST* buffer, DT* dst, int rowSize) const
 	{
        int i = 0, j, k;

 		rowSize *= cn;
 		i = _vecOp(buffer, dst, ConvolveRowBuffer<ST,DT,KT,cn,_ksize>::_kernel, rowSize);
        
 		const int ksize2 = _ksize/2;
        const ST* S = buffer + ksize2*cn;
        const KT* kx = ConvolveRowBuffer<ST,DT,KT,cn,_ksize>::_kernel + ksize2;

 		if( _ksize == 1 && kx[0] == 1 )
        {
            for( ; i <= rowSize - 2; i += 2 )
            {
                DT s0 = S[i], s1 = S[i+1];
                dst[i] = s0; dst[i+1] = s1;
            }
            S += i;
        }
        else if( _ksize == 3 )
        {
            if( kx[0] == 2 && kx[1] == 1 )
                for( ; i <= rowSize - 2; i += 2, S += 2 )
                {
                    DT s0 = S[-cn] + S[0]*2 + S[cn], s1 = S[1-cn] + S[1]*2 + S[1+cn];
                    dst[i] = s0; dst[i+1] = s1;
                }
            else if( kx[0] == -2 && kx[1] == 1 )
                for( ; i <= rowSize - 2; i += 2, S += 2 )
                {
                    DT s0 = S[-cn] - S[0]*2 + S[cn], s1 = S[1-cn] - S[1]*2 + S[1+cn];
                    dst[i] = s0; dst[i+1] = s1;
                }
            else
            {
                KT k0 = kx[0], k1 = kx[1];
                for( ; i <= rowSize - 2; i += 2, S += 2 )
                {
                    DT s0 = S[0]*k0 + (S[-cn] + S[cn])*k1, s1 = S[1]*k0 + (S[1-cn] + S[1+cn])*k1;
                    dst[i] = s0; dst[i+1] = s1;
                }
            }
        }
        else if( _ksize == 5 )
        {
            KT k0 = kx[0], k1 = kx[1], k2 = kx[2];
            if( k0 == -2 && k1 == 0 && k2 == 1 )
                for( ; i <= rowSize - 2; i += 2, S += 2 )
                {
                    DT s0 = -2*S[0] + S[-cn*2] + S[cn*2];
                    DT s1 = -2*S[1] + S[1-cn*2] + S[1+cn*2];
                    dst[i] = s0; dst[i+1] = s1;
                }
            else
                for( ; i <= rowSize - 2; i += 2, S += 2 )
                {
                    DT s0 = S[0]*k0 + (S[-cn] + S[cn])*k1 + (S[-cn*2] + S[cn*2])*k2;
                    DT s1 = S[1]*k0 + (S[1-cn] + S[1+cn])*k1 + (S[1-cn*2] + S[1+cn*2])*k2;
                    dst[i] = s0; dst[i+1] = s1;
                }
        }
            
        for( ; i < rowSize; i++, S++ )
        {
            DT s0 = kx[0]*S[0];
            for( k = 1, j = cn; k <= ksize2; k++, j += cn )
                s0 += kx[k]*(S[j] + S[-j]);
            dst[i] = s0;
        }
 	}
 };

 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct ConvolveColBufferSymm : public ConvolveColBuffer<ST,DT,KT,cn,_ksize>
 {
 	SIMDColSymm<ST, DT, KT, cn, _ksize> _vecOp;

 	ConvolveColBufferSymm(const KT* kernel)
 	:ConvolveColBuffer<ST,DT,KT,cn,_ksize>(kernel)
 	{ }

 	// vertical pass
 	void operator()(ST** buffer, DT* dst, int rowSize) const
 	{
        int i = 0, k;

 		rowSize *= cn;
 		i = _vecOp(buffer, dst, ConvolveColBuffer<ST,DT,KT,cn,_ksize>::_kernel, rowSize);
        
 		const int ksize2 = _ksize/2;
        ST** src = buffer + ksize2;
        const KT* ky = ConvolveColBuffer<ST,DT,KT,cn,_ksize>::_kernel + ksize2;
        ST _delta = 0;

 		for( ; i < rowSize; i++ )
        {
            ST s0 = ky[0]*(src[0])[i] + _delta;
            for( k = 1; k <= ksize2; k++ )
            {
                s0 += ky[k]*((src[k])[i] + (src[-k])[i]);
            }
            dst[i] = (s0);
        }
 	}
 };

 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct ConvolveRowBufferASymm : public ConvolveRowBuffer<ST,DT,KT,cn,_ksize>
 {
 	SIMDRowASymm<ST, DT, KT, cn, _ksize> _vecOp;

 	ConvolveRowBufferASymm(const KT* kernel)
 	:ConvolveRowBuffer<ST,DT,KT,cn,_ksize>(kernel)
 	{ }

 	// horizontal pass
 	void operator()(ST* buffer, DT* dst, int rowSize) const
 	{
        int i = 0, j, k;

 		rowSize *= cn;
 		i = _vecOp(buffer, dst, ConvolveRowBuffer<ST,DT,KT,cn,_ksize>::_kernel, rowSize);
        
 		const int ksize2 = _ksize/2;
        const ST* S = buffer + ksize2*cn;
        const KT* kx = ConvolveRowBuffer<ST,DT,KT,cn,_ksize>::_kernel + ksize2;

 		if( _ksize == 3 )
        {
            if( kx[0] == 0 && kx[1] == 1 )
                for( ; i <= rowSize - 2; i += 2, S += 2 )
                {
                    DT s0 = S[cn] - S[-cn], s1 = S[1+cn] - S[1-cn];
                    dst[i] = s0; dst[i+1] = s1;
                }
            else
            {
                KT k1 = kx[1];
                for( ; i <= rowSize - 2; i += 2, S += 2 )
                {
                    DT s0 = (S[cn] - S[-cn])*k1, s1 = (S[1+cn] - S[1-cn])*k1;
                    dst[i] = s0; dst[i+1] = s1;
                }
            }
        }
        else if( _ksize == 5 )
        {
            KT k1 = kx[1], k2 = kx[2];
            for( ; i <= rowSize - 2; i += 2, S += 2 )
            {
                DT s0 = (S[cn] - S[-cn])*k1 + (S[cn*2] - S[-cn*2])*k2;
                DT s1 = (S[1+cn] - S[1-cn])*k1 + (S[1+cn*2] - S[1-cn*2])*k2;
                dst[i] = s0; dst[i+1] = s1;
            }
        }
            
        for( ; i < rowSize; i++, S++ )
        {
            DT s0 = kx[0]*S[0];
            for( k = 1, j = cn; k <= ksize2; k++, j += cn )
                s0 += kx[k]*(S[j] - S[-j]);
            dst[i] = s0;
        }
 	}
 };

 template<typename ST, typename DT, typename KT, int cn, int _ksize>
 struct ConvolveColBufferASymm : public ConvolveColBuffer<ST,DT,KT,cn,_ksize>
 {
 	SIMDColASymm<ST, DT, KT, cn, _ksize> _vecOp;

 	ConvolveColBufferASymm(const KT* kernel)
 	:ConvolveColBuffer<ST,DT,KT,cn,_ksize>(kernel)
 	{ }

 	// vertical pass
 	void operator()(ST** buffer, DT* dst, int rowSize) const
 	{
        int i = 0, k;

 		rowSize *= cn;
 		i = _vecOp(buffer, dst, ConvolveColBuffer<ST,DT,KT,cn,_ksize>::_kernel, rowSize);

 		const int ksize2 = _ksize/2;
        ST** src = buffer + ksize2;
        const KT* ky = ConvolveColBuffer<ST,DT,KT,cn,_ksize>::_kernel + ksize2;
        ST _delta = 0;

 		for( ; i < rowSize; i++ )
        {
            ST s0 = _delta;
            for( k = 1; k <= ksize2; k++ )
            {
                s0 += ky[k]*((src[k])[i] - (src[-k])[i]);
            }
            dst[i] = (s0);
        }
 	}
 };



 static void getGaussianKernel( float* kernel, int ksize, double sigma=0 )
 {
    const int SMALL_GAUSSIAN_SIZE = 7;
    static const float small_gaussian_tab[][SMALL_GAUSSIAN_SIZE] =
    {
        {1.f},
        {0.25f, 0.5f, 0.25f},
        {0.0625f, 0.25f, 0.375f, 0.25f, 0.0625f},
        {0.03125f, 0.109375f, 0.21875f, 0.28125f, 0.21875f, 0.109375f, 0.03125f}
    };
    
    const float* fixed_kernel = ksize % 2 == 1 && ksize <= SMALL_GAUSSIAN_SIZE && sigma <= 0 ?
    small_gaussian_tab[ksize>>1] : 0;
    
    float* cf = kernel;
    
    double sigmaX = sigma > 0 ? sigma : ((ksize-1)*0.5 - 1)*0.3 + 0.8;
    double scale2X = -0.5/(sigmaX*sigmaX);
    double sum = 0;
    
    int i;
    for( i = 0; i < ksize; ++i )
    {
        double x = i - (ksize-1)*0.5;
        double t = fixed_kernel ? (double)fixed_kernel[i] : std::exp(scale2X*x*x);
        cf[i] = static_cast<float>(t);
        sum += t;
    }
    
    sum = 1./sum;
    for( i = 0; i < ksize; i++ )
    {
        cf[i] = static_cast<float>(static_cast<double>(cf[i])*sum);
    }
 }

 template<typename _Tp>
 static inline _Tp* alignPtr(_Tp* ptr, int n=(int)sizeof(_Tp))
 {
    return (_Tp*)(((size_t)ptr + n-1) & -n);
 }

 static inline size_t alignSize(const size_t sz, const int n)
 {
    return (sz + n-1) & -n;
 }

 template<typename T, typename DT, int cn, int ksize>
 static inline void fillRow(const T* src, DT* rowbuf, int w)
 {
    int halfsize = ksize/2;
 	DT* row = rowbuf;
    
    for(int j = 0; j < halfsize; ++j)
    {
 		for(int c = 0; c < cn; ++c, ++row)
 		{
 			*row = src[c];
 		}
    }
    
    for(int j = 0; j < w*cn; ++j, ++row)
    {
        *row = src[j];
    }
    
    const T* temp = &(src[w*cn-cn]);

    for(int j = 0; j < halfsize; ++j)
    {
 		for(int c = 0; c < cn; ++c, ++row)
 		{
 			*row = temp[c];
 		}
    }

 }

 template<typename ST, typename DT> 
 struct Cast
 {
    typedef ST stype;
    typedef DT dtype;

    DT operator()(ST val) const { return static_cast<DT>(val); }
 };

 template<typename ST, typename DT, int bits> 
 struct FixedPtCast
 {
    typedef ST stype;
    typedef DT dtype;
    enum { SHIFT = bits, DELTA = 1 << (bits-1) };

    DT operator()(ST val) const { return static_cast<DT>((val + DELTA)>>SHIFT); }
 };

 template<typename ST, typename DT, typename KT, int cn, int ksize>
 struct ConvolveTraits {};
 /*
 template<int cn, int ksize>
 struct ConvolveTraits<unsigned char, unsigned char, int, cn, ksize>
 {
 	typedef ConvolveRowBuffer<unsigned char, int, int, cn, ksize> cbx;
 	typedef ConvolveColBuffer<int, int, int, cn, ksize> cby;

 	typedef ConvolveRowBufferSymm<unsigned char, int, int, cn, ksize> cbx_symm;
 	typedef ConvolveColBufferSymm<int, int, int, cn, ksize> cby_symm;

 	typedef FixedPtCast<int,unsigned char, 16> cast;
 };
 template<int cn, int ksize>
 struct ConvolveTraits<unsigned char, unsigned char, float, cn, ksize>
 {
 	typedef ConvolveRowBuffer<float, float, float, cn, ksize> cbx;
 	typedef ConvolveColBuffer<float, float, float, cn, ksize> cby;

 	typedef ConvolveRowBufferSymm<float, float, float, cn, ksize> cbx_symm;
 	typedef ConvolveColBufferSymm<float, float, float, cn, ksize> cby_symm;

 	typedef Cast<float,unsigned char> cast;
 };
 template<int cn, int ksize>
 struct ConvolveTraits<float, float, float, cn, ksize>
 {
 	typedef ConvolveRowBuffer<float, float, float, cn, ksize> cbx;
 	typedef ConvolveColBuffer<float, float, float, cn, ksize> cby;

 	typedef ConvolveRowBufferSymm<float, float, float, cn, ksize> cbx_symm;
 	typedef ConvolveColBufferSymm<float, float, float, cn, ksize> cby_symm;

 	typedef Cast<float,float> cast;
 };
 */
 template<typename T, class Cx, class Cy, class Cast>
 static void convolve2(const T* src, int h, int w, int srcStride, T* dst, int dstStride, const Cx& convX, const Cy& convY, const Cast& castOp)
 {
 	typedef typename Cx::dtype wtype;
 	typedef typename Cx::stype stype;
 	typedef typename Cy::dtype dtype;

 	enum {
 		cn = Cx::Channels,
 		ksize = Cx::KSize,
 		halfsize = ksize/2,
 	};
    
    srcStride /= sizeof(T);
    dstStride /= sizeof(T);
    
    size_t row_step = alignSize((w+ksize)*cn * sizeof(wtype), 16);
    
    unsigned char* _buffer = (unsigned char*)alloca(row_step*(ksize+2) + 16);
    unsigned char* buffer = alignPtr(_buffer);
    
    wtype* rows[ksize+1];
    for(int i=0; i<ksize+1; ++i)
    {
        rows[i] = reinterpret_cast<wtype*>(&buffer[row_step*i]);
    }
    
    stype* rowbuf = reinterpret_cast<stype*>(&buffer[row_step*(ksize+1)]);
    dtype* outbuf = reinterpret_cast<dtype*>(rowbuf);
    
    const T* input = src;
    T* output = dst;
    
    for(int i = halfsize; i < ksize; ++i, input+=srcStride)
    {
        fillRow<T, stype, cn, ksize>(input, rowbuf, w);
        convX(rowbuf, rows[i], w);
    }
    for(int i = 0; i < halfsize; ++i)
    {
        memcpy(rows[i], rows[halfsize], row_step);
    }
    
    for(int i = halfsize+1; i < h; ++i, input+=srcStride, output+= dstStride)
    {
        wtype* next_row = rows[ksize];
        
        fillRow<T, stype, cn, ksize>(input, rowbuf, w);
        convX(rowbuf, next_row, w);
        
        convY(rows, outbuf, w);
 		for(int j = 0; j < w*cn; ++j)
        {
            output[j] = castOp(outbuf[j]);
        }
        
        //
        wtype* tmp = rows[0];
        for(int r = 0; r < ksize; ++r)
        {
            rows[r] = rows[r+1];
        }
        rows[ksize] = tmp;
    }
    
    assert(input == src+h*srcStride);
    
    // last rows
    for(int i = 0; i < halfsize+1; ++i, output+= dstStride)
    {
        wtype* next_row = rows[ksize];
        
        memcpy(next_row, rows[ksize-1], row_step);
        
        convY(rows, outbuf, w);
 		for(int j = 0; j < w*cn; ++j)
        {
            output[j] = castOp(outbuf[j]);
        }
        
        //
        wtype* tmp = rows[0];
        for(int r = 0; r < ksize; ++r)
        {
            rows[r] = rows[r+1];
        }
        rows[ksize] = tmp;
    }
    
    assert(output == dst+h*dstStride);
 }

 template<typename T, int cn, int ksize>
 static void gaussianSmooth(const T* src, int h, int w, int srcStride, T* dst, int dstStride)
 {
    float CV_DECL_ALIGNED(16) kernel[33];
    
    assert(ksize<=33);
    
    getGaussianKernel(&kernel[0], ksize, 0);
 	/*
    // we can use Integer kernel for Byte images
 	int CV_DECL_ALIGNED(16) ikernel[33];
 	int bits = 8;
        
    for(int i = 0; i < ksize; ++i)
    {
        ikernel[i] = static_cast<int>(kernel[i] * (1 << bits));
    }

 	typedef ConvolveRowBufferSymm<unsigned char, int, int, cn, ksize> Cx;
 	typedef ConvolveColBufferSymm<int, int, int, cn, ksize> Cy;
 	typedef FixedPtCast<int,unsigned char, 16> cast;
    
    convolve2<T, Cx, Cy>(src, h, w, srcStride, dst, dstStride, Cx(ikernel), Cy(ikernel), cast());
 	*/
 	//
 	typedef ConvolveRowBufferSymm<float, float, float, cn, ksize> Cx;
 	typedef ConvolveColBufferSymm<float, float, float, cn, ksize> Cy;
 	typedef Cast<float,T> cast;
 	convolve2<T, Cx, Cy>(src, h, w, srcStride, dst, dstStride, Cx(kernel), Cy(kernel), cast());
 	//
 }


 } // namespace


 #endif