jdryg · April 2, 2018 07:25
diff --git a/benchmark.cpp b/benchmark.cpp
 #include <stdint.h>
 #include <inttypes.h>
 #include <math.h>
 #include <malloc.h>
 #include <memory.h>
 #include <Windows.h>
 #include <stdio.h>
 #include <xmmintrin.h>
 #include <immintrin.h>

 #include "iacaMarks.h"
 #define INSERT_IACA_MARKERS 0

 #define CREATE_VERTEX_BUFFER 0
 #define CREATE_INDEX_BUFFER  1

 #ifdef _DEBUG
 #define NUM_ITERATIONS 1
 #else
 #if CREATE_VERTEX_BUFFER
 #define NUM_ITERATIONS 1000000
 #else
 #define NUM_ITERATIONS 10000000
 #endif
 #endif

 #define NUM_VERTICES 1024

 #define SIMD_INDEX_BUFFER 1

 #define TEST_SIMD 3
 #define VERIFY_SIMD 1

 // 0: 1.0 / sqrt
 // 1: _mm_rsqrt_ss
 // 2: Newton/Raphson
 #define RSQRT_ALGORITHM 2

 // 0: 1.0 / a
 // 1: _mm_rcp_ss
 // 2: Newton/Raphson
 #define RCP_ALGORITHM 1

 #define VG_EPSILON 1e-5f
 #define PI 3.1415926f

 struct Vec2
 {
 	float x, y;
 };

 static inline float fsign(float a)
 {
 	return a < 0.0f ? -1.0f : 1.0f;
 }

 static const __m128 xmm_half = _mm_set_ps1(0.5f);
 static const __m128 xmm_one = _mm_set_ps1(1.0f);
 static const __m128 xmm_three = _mm_set_ps1(3.0f);
 static const __m128 oneish = _mm_castsi128_ps(_mm_set1_epi32(0x3f800001));
 static const __m128 vec2_perpCCW_xorMask = _mm_castsi128_ps(_mm_set_epi32(0, 0, 0, 0x80000000));

 static inline float rsqrt(float a)
 {
 #if RSQRT_ALGORITHM == 0
 	return 1.0f / sqrtf(a);
 #elif RSQRT_ALGORITHM == 1
 	float res;
 	__m128 rsqrtRes = _mm_rsqrt_ss(_mm_load_ss(&a));
 	_mm_store_ss(&res, rsqrtRes);
 	return res;
 #elif RSQRT_ALGORITHM == 2
 	const __m128 xmm_a = _mm_load_ss(&a);
 	const __m128 rsqrtEst = _mm_rsqrt_ss(xmm_a);
 	const __m128 iter0 = _mm_mul_ss(xmm_a, rsqrtEst);
 	const __m128 iter1 = _mm_mul_ss(iter0, rsqrtEst);
 	const __m128 half_rsqrt = _mm_mul_ss(xmm_half, rsqrtEst);
 	const __m128 three_sub_iter1 = _mm_sub_ss(xmm_three, iter1);
 	const __m128 result = _mm_mul_ss(half_rsqrt, three_sub_iter1);

 	float res;
 	_mm_store_ss(&res, result);
 	return res;
 #endif
 }

 static inline float rcp(float a)
 {
 #if RCP_ALGORITHM == 0
 	return 1.0f / a;
 #elif RCP_ALGORITHM == 1
 	float res;
 	__m128 rcpRes = _mm_rcp_ss(_mm_load_ss(&a));
 	_mm_store_ss(&res, rcpRes);
 	return res;
 #elif RCP_ALGORITHM == 2
 	const __m128 xmm_a = _mm_load_ss(&a);
 	const __m128 est = _mm_rcp_ss(xmm_a);
 	const __m128 tmp1 = _mm_sub_ss(_mm_mul_ss(xmm_a, est), oneish);
 	const __m128 result = _mm_add_ss(_mm_mul_ss(tmp1, est), est);

 	float res;
 	_mm_store_ss(&res, result);
 	return res;
 #endif
 }

 inline Vec2 vec2Add(const Vec2& a, const Vec2& b) { return{ a.x + b.x, a.y + b.y }; }
 inline Vec2 vec2Sub(const Vec2& a, const Vec2& b) { return{ a.x - b.x, a.y - b.y }; }
 inline Vec2 vec2Scale(const Vec2& a, float s) { return{ a.x * s, a.y * s }; }
 inline Vec2 vec2PerpCCW(const Vec2& a) { return{ -a.y, a.x }; }
 inline Vec2 vec2PerpCW(const Vec2& a) { return{ a.y, -a.x }; }
 inline float vec2Cross(const Vec2& a, const Vec2& b) { return a.x * b.y - b.x * a.y; }
 inline float vec2Dot(const Vec2& a, const Vec2& b) { return a.x * b.x + a.y * b.y; }

 // Direction from a to b
 inline Vec2 vec2Dir(const Vec2& a, const Vec2& b)
 {
 	const float dx = b.x - a.x;
 	const float dy = b.y - a.y;
 	const float lenSqr = dx * dx + dy * dy;
 #if TEST_SIMD && VERIFY_SIMD
 	const float invLen = lenSqr < VG_EPSILON ? 0.0f : 1.0f / sqrtf(lenSqr);
 #else
 	const float invLen = lenSqr < VG_EPSILON ? 0.0f : rsqrt(lenSqr);
 #endif
 	return{ dx * invLen, dy * invLen };
 }

 inline Vec2 calcExtrusionVector(const Vec2& d01, const Vec2& d12)
 {
 	// v is the vector from the path point to the outline point, assuming a stroke width of 1.0.
 	// Equation obtained by solving the intersection of the 2 line segments. d01 and d12 are 
 	// assumed to be normalized.
 	Vec2 v = vec2PerpCCW(d01);
 	const float cross = vec2Cross(d12, d01);
 	if (fabsf(cross) > VG_EPSILON) {
 #if TEST_SIMD && VERIFY_SIMD
 		v = vec2Scale(vec2Sub(d01, d12), 1.0f / cross);
 #else
 		v = vec2Scale(vec2Sub(d01, d12), rcp(cross));
 #endif
 	}

 	return v;
 }

 struct Stroker
 {
 	float m_FringeWidth;
 	uint32_t m_NumVertices;
 	uint32_t m_NumIndices;
 	uint32_t m_VertexCapacity;
 	Vec2* m_PosBuffer;
 	uint32_t* m_ColorBuffer;
 	uint16_t* m_IndexBuffer;
 	uint32_t m_IndexCapacity;
 };

 static void resetGeometry(Stroker* stroker)
 {
 	stroker->m_NumVertices = 0;
 	stroker->m_NumIndices = 0;
 }

 static void reallocVB(Stroker* stroker, uint32_t n)
 {
 	stroker->m_VertexCapacity += n;
 	stroker->m_PosBuffer = (Vec2*)_aligned_realloc(stroker->m_PosBuffer, sizeof(Vec2) * stroker->m_VertexCapacity, 16);
 	stroker->m_ColorBuffer = (uint32_t*)_aligned_realloc(stroker->m_ColorBuffer, sizeof(uint32_t) * stroker->m_VertexCapacity, 16);

 #if 0
 	memset(stroker->m_PosBuffer, 0xFF, sizeof(Vec2) * stroker->m_VertexCapacity);
 #endif
 }

 static void expandVB(Stroker* stroker, uint32_t n)
 {
 	if (stroker->m_NumVertices + n > stroker->m_VertexCapacity) {
 		reallocVB(stroker, n);
 	}
 }

 static void reallocIB(Stroker* stroker, uint32_t n)
 {
 	stroker->m_IndexCapacity += n;
 	stroker->m_IndexBuffer = (uint16_t*)_aligned_realloc(stroker->m_IndexBuffer, sizeof(uint16_t) * stroker->m_IndexCapacity, 16);
 }

 static void expandIB(Stroker* stroker, uint32_t n)
 {
 	if (stroker->m_NumIndices + n > stroker->m_IndexCapacity) {
 		reallocIB(stroker, n);
 	}
 }

 static void strokerConvexFillAA(Stroker* stroker, const float* vertexList, uint32_t numVertices)
 {
 	const Vec2* vtx = (const Vec2*)vertexList;

 	const float cross = vec2Cross(vec2Sub(vtx[1], vtx[0]), vec2Sub(vtx[2], vtx[0]));

 	const float aa = stroker->m_FringeWidth * 0.5f * fsign(cross);

 	const uint32_t numTris =
 		(numVertices - 2) + // Triangle fan
 		(numVertices * 2); // AA fringes
 	const uint32_t numDrawVertices = numVertices * 2; // original polygon point + AA fringe point.
 	const uint32_t numDrawIndices = numTris * 3;

 	resetGeometry(stroker);

 #if CREATE_VERTEX_BUFFER
 	// Vertex buffer
 	{
 		expandVB(stroker, numDrawVertices);

 		Vec2 d01 = vec2Dir(vtx[numVertices - 1], vtx[0]);

 		Vec2* dstPos = stroker->m_PosBuffer;
 		for (uint32_t iSegment = 0; iSegment < numVertices; ++iSegment) {
 			const Vec2& p1 = vtx[iSegment];
 			const Vec2& p2 = vtx[iSegment == numVertices - 1 ? 0 : iSegment + 1];

 			const Vec2 d12 = vec2Dir(p1, p2);
 			const Vec2 v = calcExtrusionVector(d01, d12);
 			const Vec2 v_aa = vec2Scale(v, aa);

 			dstPos[0] = vec2Add(p1, v_aa);
 			dstPos[1] = vec2Sub(p1, v_aa);
 			dstPos += 2;

 			d01 = d12;
 		}

 		stroker->m_NumVertices += numDrawVertices;
 	}
 #endif // CREATE_VERTEX_BUFFER

 #if CREATE_INDEX_BUFFER
 	// Index buffer
 	{
 		expandIB(stroker, numDrawIndices);

 		uint16_t* dstIndex = stroker->m_IndexBuffer;

 		// First fringe quad
 		dstIndex[0] = 0; dstIndex[1] = 1; dstIndex[2] = 3;
 		dstIndex[3] = 0; dstIndex[4] = 3; dstIndex[5] = 2;
 		dstIndex += 6;

 		const uint32_t numFanTris = numVertices - 2;
 		uint16_t secondTriVertex = 2;
 		for (uint32_t i = 0; i < numFanTris; ++i) {
 			const uint16_t id0 = secondTriVertex;
 			const uint16_t id1 = secondTriVertex + 1;
 			const uint16_t id2 = secondTriVertex + 2;
 			const uint16_t id3 = secondTriVertex + 3;

 			// Fan triangle
 			dstIndex[0] = 0;
 			dstIndex[1] = id0;
 			dstIndex[2] = id2;

 			// Fringe quad
 			dstIndex[3] = id0;
 			dstIndex[4] = id1;
 			dstIndex[5] = id3;
 			dstIndex[6] = id0;
 			dstIndex[7] = id3;
 			dstIndex[8] = id2;

 			dstIndex += 9;
 			secondTriVertex += 2;
 		}

 		// Last fringe quad
 		const uint16_t lastID = (uint16_t)((numVertices - 1) << 1);
 		dstIndex[0] = lastID;
 		dstIndex[1] = lastID + 1;
 		dstIndex[2] = 1;
 		dstIndex[3] = lastID;
 		dstIndex[4] = 1;
 		dstIndex[5] = 0;

 		stroker->m_NumIndices += numDrawIndices;
 	}
 #endif // CREATE_INDEX_BUFFER
 }

 static inline float _mm_vec2_cross(const __m128 a, const __m128 b)
 {
 	const __m128 axy_bxy = _mm_movelh_ps(a, b); // { a.x, a.y, b.x, b.y }
 	const __m128 byx_ayx = _mm_shuffle_ps(axy_bxy, axy_bxy, _MM_SHUFFLE(0, 1, 2, 3)); // { b.y, b.x, a.y, a.x }
 	const __m128 axby_aybx = _mm_mul_ps(axy_bxy, byx_ayx); // { a.x * b.y, a.y * b.x, b.x * a.y, b.y * a.x }
 	const __m128 bxay = _mm_shuffle_ps(axby_aybx, axby_aybx, _MM_SHUFFLE(1, 1, 1, 1)); // { a.y * b.x, a.y * b.x, a.y * b.x, a.y * b.x }
 	const __m128 cross = _mm_sub_ss(axby_aybx, bxay);
 	return _mm_cvtss_f32(cross);
 }

 static inline __m128 _mm_vec2_dir(const __m128 a, const __m128 b)
 {
 	const __m128 dxy = _mm_sub_ps(b, a); // { dx, dy, DC, DC }
 	const __m128 dxySqr = _mm_mul_ps(dxy, dxy); // { dx * dx, dy * dy, DC, DC }
 	const __m128 dySqr = _mm_shuffle_ps(dxySqr, dxySqr, _MM_SHUFFLE(1, 1, 1, 1)); // { dy * dy, dy * dy, dy * dy, dy * dy }
 	const float lenSqr = _mm_cvtss_f32(_mm_add_ss(dxySqr, dySqr));
 	__m128 dir = _mm_setzero_ps();
 	if (lenSqr >= VG_EPSILON) {
 		const __m128 invLen = _mm_set_ps1(rsqrt(lenSqr));
 		dir = _mm_mul_ps(dxy, invLen);
 	}
 	return dir;
 }

 static inline __m128 _mm_vec2_rotCCW90(const __m128 a)
 {
 	__m128 ayx = _mm_shuffle_ps(a, a, _MM_SHUFFLE(3, 2, 0, 1)); // { a.y, a.x, DC, DC }
 	return _mm_xor_ps(ayx, vec2_perpCCW_xorMask); // { -a.y, a.x, DC, DC }
 }

 static inline __m128 calcExtrusionVector(const __m128 d01, const __m128 d12)
 {
 	const float cross = _mm_vec2_cross(d12, d01);
 	return (fabs(cross) > VG_EPSILON) ? _mm_mul_ps(_mm_sub_ps(d01, d12), _mm_set_ps1(rcp(cross))) : _mm_vec2_rotCCW90(d01);
 }

 static void strokerConvexFillAA_SIMD(Stroker* stroker, const float* vertexList, uint32_t numVertices)
 {
 	const uint32_t lastVertexID = numVertices - 1;

 	const __m128 vtx0 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)vertexList);
 	const __m128 vtx1 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + 2));
 	const __m128 vtx2 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + 4));
 	const float cross = _mm_vec2_cross(_mm_sub_ps(vtx1, vtx0), _mm_sub_ps(vtx2, vtx0));

 	const float aa = stroker->m_FringeWidth * 0.5f * fsign(cross);
 	const __m128 xmm_aa = _mm_set_ps1(aa);

 	const uint32_t numTris =
 		(numVertices - 2) + // Triangle fan
 		(numVertices * 2); // AA fringes
 	const uint32_t numDrawVertices = numVertices * 2; // original polygon point + AA fringe point.
 	const uint32_t numDrawIndices = numTris * 3;

 	resetGeometry(stroker);

 #if CREATE_VERTEX_BUFFER
 	// Vertex buffer
 	{
 		expandVB(stroker, numDrawVertices);

 		const __m128 vtxLast = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + (lastVertexID << 1)));
 		__m128 d01 = _mm_vec2_dir(vtxLast, vtx0);
 		__m128 p1 = vtx0;

 		const float* srcPos = vertexList + 2;
 		float* dstPos = &stroker->m_PosBuffer->x;

 		const uint32_t numIter = lastVertexID >> 1;
 		for (uint32_t iSegment = 0; iSegment < numIter; ++iSegment) {
 			// srcPos alignment unknown
 			const __m128 p23 = _mm_loadu_ps(srcPos);   // { p2.x, p2.y, p3.x, p3.y }

 			const __m128 p2 = p23;                     // { p2.x, p2.y, DC, DC }
 			const __m128 p3 = _mm_movehl_ps(p23, p23); // { p3.x, p3.y, DC, DC }

 			const __m128 d12 = _mm_vec2_dir(p1, p2);   // { d12.x, d12.y, DC, DC }
 			const __m128 d23 = _mm_vec2_dir(p2, p3);   // { d23.x, d23.y, DC, DC }

 			const __m128 v012 = calcExtrusionVector(d01, d12); // { v012.x, v012.y, DC, DC }
 			const __m128 v123 = calcExtrusionVector(d12, d23); // { v123.x, v123.y, DC, DC }
 			const __m128 v012_123 = _mm_movelh_ps(v012, v123); // { v012.x, v012.y, v123.x, v123.y }
 			const __m128 v012_v123_aa = _mm_mul_ps(v012_123, xmm_aa); // { v012.x * aa, v012.y * aa, v123.x * aa, v123.y * aa }

 			const __m128 p12 = _mm_movelh_ps(p1, p2);  // { p1.x, p1.y, p2.x, p2.y }
 			const __m128 posEdge = _mm_add_ps(p12, v012_v123_aa); // { p1.x + v012.x * aa, p1.y + v012.y * aa, p2.x + v123.x * aa, p2.y + v123.y * aa }
 			const __m128 negEdge = _mm_sub_ps(p12, v012_v123_aa); // { p1.x - v012.x * aa, p1.y - v012.y * aa, p2.x - v123.x * aa, p2.y - v123.y * aa }

 			const __m128 packed0 = _mm_shuffle_ps(posEdge, negEdge, _MM_SHUFFLE(1, 0, 1, 0)); // { p1.x + v012.x * aa, p1.y + v012.y * aa, p1.x - v012.x * aa, p1.y - v012.y * aa }
 			const __m128 packed1 = _mm_shuffle_ps(posEdge, negEdge, _MM_SHUFFLE(3, 2, 3, 2)); // { p2.x + v123.x * aa, p2.y + v123.y * aa, p2.x - v123.x * aa, p2.y - v123.y * aa }

 			// Aligned stores because dstPos is 16-byte aligned
 			_mm_store_ps(dstPos, packed0);
 			_mm_store_ps(dstPos + 4, packed1);

 			dstPos += 8;
 			srcPos += 4;
 			d01 = d23;
 			p1 = p3;
 		}

 		const uint32_t rem = (lastVertexID & 1);
 		if (rem) {
 			const __m128 p2 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)srcPos);
 			const __m128 d12 = _mm_vec2_dir(p1, p2);

 			const __m128 v_aa = _mm_mul_ps(calcExtrusionVector(d01, d12), xmm_aa);

 			const __m128 packed = _mm_movelh_ps(_mm_add_ps(p1, v_aa), _mm_sub_ps(p1, v_aa));
 			_mm_store_ps(dstPos, packed);

 			dstPos += 4;
 			srcPos += 2;
 			d01 = d12;
 			p1 = p2;
 		}

 		// Last segment
 		{
 			const __m128 v_aa = _mm_mul_ps(calcExtrusionVector(d01, _mm_vec2_dir(p1, vtx0)), xmm_aa);
 			const __m128 packed = _mm_movelh_ps(_mm_add_ps(p1, v_aa), _mm_sub_ps(p1, v_aa));
 			_mm_storeu_ps(dstPos, packed);
 		}

 		stroker->m_NumVertices += numDrawVertices;
 	}
 #endif // CREATE_VERTEX_BUFFER

 #if CREATE_INDEX_BUFFER
 	// Index buffer
 	{
 		expandIB(stroker, numDrawIndices);

 		uint16_t* dstIndex = stroker->m_IndexBuffer;

 		// First fringe quad
 		dstIndex[0] = 0; dstIndex[1] = 1; dstIndex[2] = 3;
 		dstIndex[3] = 0; dstIndex[4] = 3; dstIndex[5] = 2;
 		dstIndex += 6;

 		const uint32_t numFanTris = numVertices - 2;
 		uint16_t secondTriVertex = 2;
 		for (uint32_t i = 0; i < numFanTris; ++i) {
 			const uint16_t id0 = secondTriVertex;
 			const uint16_t id1 = secondTriVertex + 1;
 			const uint16_t id2 = secondTriVertex + 2;
 			const uint16_t id3 = secondTriVertex + 3;

 			// Fan triangle
 			dstIndex[0] = 0;
 			dstIndex[1] = id0;
 			dstIndex[2] = id2;

 			// Fringe quad
 			dstIndex[3] = id0;
 			dstIndex[4] = id1;
 			dstIndex[5] = id3;
 			dstIndex[6] = id0;
 			dstIndex[7] = id3;
 			dstIndex[8] = id2;

 			dstIndex += 9;
 			secondTriVertex += 2;
 		}

 		// Last fringe quad
 		const uint16_t lastID = (uint16_t)((numVertices - 1) << 1);
 		dstIndex[0] = lastID;
 		dstIndex[1] = lastID + 1;
 		dstIndex[2] = 1;
 		dstIndex[3] = lastID;
 		dstIndex[4] = 1;
 		dstIndex[5] = 0;

 		stroker->m_NumIndices += numDrawIndices;
 	}
 #endif
 }

 static inline __m128 xmm_rsqrt(__m128 a)
 {
 #if RSQRT_ALGORITHM == 0
 	const __m128 res = _mm_div_ps(xmm_one, _mm_sqrt_ps(a));
 #elif RSQRT_ALGORITHM == 1
 	const __m128 res = _mm_rsqrt_ps(a);
 #elif RSQRT_ALGORITHM == 2
 	// Newton/Raphson
 	const __m128 rsqrtEst = _mm_rsqrt_ps(a);
 	const __m128 iter0 = _mm_mul_ps(a, rsqrtEst);
 	const __m128 iter1 = _mm_mul_ps(iter0, rsqrtEst);
 	const __m128 half_rsqrt = _mm_mul_ps(xmm_half, rsqrtEst);
 	const __m128 three_sub_iter1 = _mm_sub_ps(xmm_three, iter1);
 	const __m128 res = _mm_mul_ps(half_rsqrt, three_sub_iter1);
 #endif

 	return res;
 }

 static inline __m128 xmm_rcp(__m128 a)
 {
 #if RCP_ALGORITHM == 0
 	const __m128 inv_a = _mm_div_ps(xmm_one, a);
 #elif RCP_ALGORITHM == 1
 	const __m128 inv_a = _mm_rcp_ps(a);
 #elif RCP_ALGORITHM == 2
 	// TODO: 
 #endif

 	return inv_a;
 }

 static void strokerConvexFillAA_SIMD2(Stroker* stroker, const float* vertexList, uint32_t numVertices)
 {
 	const uint32_t lastVertexID = numVertices - 1;

 	const __m128 vtx0 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)vertexList);
 	const __m128 vtx1 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + 2));
 	const __m128 vtx2 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + 4));
 	const float cross = _mm_vec2_cross(_mm_sub_ps(vtx1, vtx0), _mm_sub_ps(vtx2, vtx0));

 	const float aa = stroker->m_FringeWidth * 0.5f * fsign(cross);
 	const __m128 xmm_aa = _mm_set_ps1(aa);

 	const uint32_t numTris =
 		(numVertices - 2) + // Triangle fan
 		(numVertices * 2); // AA fringes
 	const uint32_t numDrawVertices = numVertices * 2; // original polygon point + AA fringe point.
 	const uint32_t numDrawIndices = numTris * 3;

 	resetGeometry(stroker);

 #if CREATE_VERTEX_BUFFER
 	// Vertex buffer
 	{
 		expandVB(stroker, numDrawVertices);

 		const __m128 vtxLast = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + (lastVertexID << 1)));
 		__m128 d01 = _mm_vec2_dir(vtxLast, vtx0);
 		__m128 p1 = vtx0;

 		const float* srcPos = vertexList + 2;
 		float* dstPos = &stroker->m_PosBuffer->x;

 		const __m128 xmm_epsilon = _mm_set_ps1(VG_EPSILON);
 		const __m128 vec2x2_perpCCW_xorMask = _mm_castsi128_ps(_mm_set_epi32(0, 0x80000000, 0, 0x80000000));

 		const uint32_t numIter = lastVertexID >> 1;
 		for (uint32_t i = 0; i < numIter; ++i) {
 #if TEST_SIMD == 2 && INSERT_IACA_MARKERS
 			IACA_VC64_START;
 #endif

 			// Even if initial srcPos is 16-byte aligned we just skipped 8 bytes so it's not aligned anymore.
 			const __m128 p23 = _mm_loadu_ps(srcPos);     // { p2.x, p2.y, p3.x, p3.y }
 			const __m128 p12 = _mm_movelh_ps(p1, p23);   // { p1.x, p1.y, p2.x, p2.y }

 			__m128 d12, d23;
 			{
 				const __m128 d12_23 = _mm_sub_ps(p23, p12);                                                         // { p2.x - p1.x, p2.y - p1.y, p3.x - p2.x, p3.y - p2.y }
 				const __m128 d12_23_xy_sqr = _mm_mul_ps(d12_23, d12_23);                                            // { d12.x * d12.x, d12.y * d12.y, d23.x * d23.x, d23.y * d23.y }
 				const __m128 d12_23_yx_sqr = _mm_shuffle_ps(d12_23_xy_sqr, d12_23_xy_sqr, _MM_SHUFFLE(2, 3, 0, 1)); // { d12.y * d12.y, d12.x * d12.x, d23.y * d23.y, d23.x * d23.x }
 				const __m128 len12_23_sqr = _mm_add_ps(d12_23_xy_sqr, d12_23_yx_sqr);                               // { len12_sqr, len12_sqr, len23_sqr, len23_sqr }
 				const __m128 lenSqr_ge_eps = _mm_cmpge_ps(len12_23_sqr, xmm_epsilon);                               // { len12_sqr >= eps ? 0xFFFFFFFF : 0, ... }

 				const __m128 invLen12_23 = xmm_rsqrt(len12_23_sqr);

 				const __m128 invLen12_23_masked = _mm_and_ps(invLen12_23, lenSqr_ge_eps);                           // { len12_sqr >= eps ? rsqrt(len12_sqr) : 0, ... }
 				const __m128 d12_23_norm = _mm_mul_ps(d12_23, invLen12_23_masked);                                  // 

 				d12 = _mm_movelh_ps(d12_23_norm, d12_23_norm);
 				d23 = _mm_movehl_ps(d12_23_norm, d12_23_norm);
 			}

 			__m128 v012_123;
 			{
 				const __m128 d12xy_d01xy = _mm_movelh_ps(d12, d01); // { d12.x, d12.y, d01.x, d01.y }
 				const __m128 d23xy_d12xy = _mm_movelh_ps(d23, d12); // { d23.x, d23.y, d12.x, d12.y }

 				const __m128 d01yx_d12yx = _mm_shuffle_ps(d12xy_d01xy, d12xy_d01xy, _MM_SHUFFLE(0, 1, 2, 3)); // { d01.y, d01.x, d12.y, d12.x }
 				const __m128 d12yx_d23yx = _mm_shuffle_ps(d23xy_d12xy, d23xy_d12xy, _MM_SHUFFLE(0, 1, 2, 3)); // { d12.y, d12.x, d23.y, d23.x }

 				const __m128 d12xd01y_d12yd01x = _mm_mul_ps(d12xy_d01xy, d01yx_d12yx); // { d12.x * d01.y, d12.y * d01.x, d01.x * d12.y, d01.y * d12.x }
 				const __m128 d23xd12y_d23yd12x = _mm_mul_ps(d23xy_d12xy, d12yx_d23yx); // { d23.x * d12.y, d23.y * d12.x, d12.x * d23.y, d12.y * d23.x }

 				const __m128 d12yd01x_d23yd12x = _mm_shuffle_ps(d12xd01y_d12yd01x, d23xd12y_d23yd12x, _MM_SHUFFLE(1, 1, 1, 1)); // { d12.y * d01.x, d12.y * d01.x, d23.y * d12.x, d23.y * d12.x }
 				const __m128 d12xd01y_d23xd12x = _mm_shuffle_ps(d12xd01y_d12yd01x, d23xd12y_d23yd12x, _MM_SHUFFLE(0, 0, 0, 0)); // { d12.x * d01.y, d12.x * d01.x, d23.x * d12.y, d23.x * d12.y }

 				const __m128 cross012_123 = _mm_sub_ps(d12xd01y_d23xd12x, d12yd01x_d23yd12x); // { cross(d12, d01), cross(d12, d01), cross(d23, d12), cross(d23, d12) }

 				const __m128 inv_cross012_123 = xmm_rcp(cross012_123);

 				const __m128 v012_123_fake = _mm_xor_ps(d01yx_d12yx, vec2x2_perpCCW_xorMask);

 				const __m128 d01xy_d12xy = _mm_shuffle_ps(d12xy_d01xy, d12xy_d01xy, _MM_SHUFFLE(1, 0, 3, 2));
 				const __m128 d12xy_d23xy = _mm_shuffle_ps(d23xy_d12xy, d23xy_d12xy, _MM_SHUFFLE(1, 0, 3, 2));
 	
 				const __m128 d012xy_d123xy = _mm_sub_ps(d01xy_d12xy, d12xy_d23xy);
 				const __m128 v012_123_true = _mm_mul_ps(d012xy_d123xy, inv_cross012_123);

 				const __m128 cross_gt_eps = _mm_cmpge_ps(cross012_123, xmm_epsilon);
 				const __m128 v012_123_true_masked = _mm_and_ps(cross_gt_eps, v012_123_true);
 				const __m128 v012_123_fake_masked = _mm_andnot_ps(cross_gt_eps, v012_123_fake);
 				v012_123 = _mm_or_ps(v012_123_true_masked, v012_123_fake_masked);
 			}

 			const __m128 v012_v123_aa = _mm_mul_ps(v012_123, xmm_aa); // { v012.x * aa, v012.y * aa, v123.x * aa, v123.y * aa }

 			const __m128 posEdge = _mm_add_ps(p12, v012_v123_aa); // { p1.x + v012.x * aa, p1.y + v012.y * aa, p2.x + v123.x * aa, p2.y + v123.y * aa }
 			const __m128 negEdge = _mm_sub_ps(p12, v012_v123_aa); // { p1.x - v012.x * aa, p1.y - v012.y * aa, p2.x - v123.x * aa, p2.y - v123.y * aa }

 			const __m128 packed0 = _mm_shuffle_ps(posEdge, negEdge, _MM_SHUFFLE(1, 0, 1, 0)); // { p1.x + v012.x * aa, p1.y + v012.y * aa, p1.x - v012.x * aa, p1.y - v012.y * aa }
 			const __m128 packed1 = _mm_shuffle_ps(posEdge, negEdge, _MM_SHUFFLE(3, 2, 3, 2)); // { p2.x + v123.x * aa, p2.y + v123.y * aa, p2.x - v123.x * aa, p2.y - v123.y * aa }

 			// Aligned stores because dstPos is 16-byte aligned
 			_mm_store_ps(dstPos, packed0);
 			_mm_store_ps(dstPos + 4, packed1);

 			dstPos += 8;
 			srcPos += 4;
 			d01 = d23;
 			p1 = _mm_movehl_ps(p23, p23);
 		}
 #if TEST_SIMD == 2 && INSERT_IACA_MARKERS
 		IACA_VC64_END;
 #endif

 		const uint32_t rem = (lastVertexID & 1);
 		if (rem) {
 			const __m128 p2 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)srcPos);
 			const __m128 d12 = _mm_vec2_dir(p1, p2);

 			const __m128 v_aa = _mm_mul_ps(calcExtrusionVector(d01, d12), xmm_aa);

 			const __m128 packed = _mm_movelh_ps(_mm_add_ps(p1, v_aa), _mm_sub_ps(p1, v_aa));
 			_mm_store_ps(dstPos, packed);

 			dstPos += 4;
 			srcPos += 2;
 			d01 = d12;
 			p1 = p2;
 		}

 		// Last segment
 		{
 			const __m128 v_aa = _mm_mul_ps(calcExtrusionVector(d01, _mm_vec2_dir(p1, vtx0)), xmm_aa);
 			const __m128 packed = _mm_movelh_ps(_mm_add_ps(p1, v_aa), _mm_sub_ps(p1, v_aa));
 			_mm_storeu_ps(dstPos, packed);
 		}

 		stroker->m_NumVertices += numDrawVertices;
 	}
 #endif // CREATE_VERTEX_BUFFER

 #if CREATE_INDEX_BUFFER
 	// Index buffer
 	{
 		expandIB(stroker, numDrawIndices);

 		uint16_t* dstIndex = stroker->m_IndexBuffer;

 		// First fringe quad
 		dstIndex[0] = 0; dstIndex[1] = 1; dstIndex[2] = 3;
 		dstIndex[3] = 0; dstIndex[4] = 3; dstIndex[5] = 2;
 		dstIndex += 6;

 		const uint32_t numFanTris = numVertices - 2;
 		uint16_t secondTriVertex = 2;
 		for (uint32_t i = 0; i < numFanTris; ++i) {
 			const uint16_t id0 = secondTriVertex;
 			const uint16_t id1 = secondTriVertex + 1;
 			const uint16_t id2 = secondTriVertex + 2;
 			const uint16_t id3 = secondTriVertex + 3;

 			// Fan triangle
 			dstIndex[0] = 0;
 			dstIndex[1] = id0;
 			dstIndex[2] = id2;

 			// Fringe quad
 			dstIndex[3] = id0;
 			dstIndex[4] = id1;
 			dstIndex[5] = id3;
 			dstIndex[6] = id0;
 			dstIndex[7] = id3;
 			dstIndex[8] = id2;

 			dstIndex += 9;
 			secondTriVertex += 2;
 		}

 		// Last fringe quad
 		const uint16_t lastID = (uint16_t)((numVertices - 1) << 1);
 		dstIndex[0] = lastID;
 		dstIndex[1] = lastID + 1;
 		dstIndex[2] = 1;
 		dstIndex[3] = lastID;
 		dstIndex[4] = 1;
 		dstIndex[5] = 0;

 		stroker->m_NumIndices += numDrawIndices;
 	}
 #endif
 }

 static void strokerConvexFillAA_SIMD3(Stroker* stroker, const float* vertexList, uint32_t numVertices)
 {
 	const uint32_t lastVertexID = numVertices - 1;

 	const __m128 vtx0 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)vertexList);
 	const __m128 vtx1 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + 2));
 	const __m128 vtx2 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + 4));
 	const float cross = _mm_vec2_cross(_mm_sub_ps(vtx1, vtx0), _mm_sub_ps(vtx2, vtx0));

 	const float aa = stroker->m_FringeWidth * 0.5f * fsign(cross);
 	const __m128 xmm_aa = _mm_set_ps1(aa);

 	const uint32_t numTris =
 		(numVertices - 2) + // Triangle fan
 		(numVertices * 2); // AA fringes
 	const uint32_t numDrawVertices = numVertices * 2; // original polygon point + AA fringe point.
 	const uint32_t numDrawIndices = numTris * 3;

 	resetGeometry(stroker);

 #if CREATE_VERTEX_BUFFER
 	// Vertex buffer
 	{
 		expandVB(stroker, numDrawVertices);

 		const __m128 vtxLast = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)(vertexList + (lastVertexID << 1)));
 		__m128 d01 = _mm_vec2_dir(vtxLast, vtx0);
 		__m128 p1 = vtx0;

 		const float* srcPos = vertexList + 2;
 		float* dstPos = &stroker->m_PosBuffer->x;

 		const __m128 xmm_epsilon = _mm_set_ps1(VG_EPSILON);
 		const __m128 vec2x2_perpCCW_xorMask = _mm_castsi128_ps(_mm_set_epi32(0, 0x80000000, 0, 0x80000000));

 		const uint32_t numIter = lastVertexID >> 2;
 		for (uint32_t i = 0; i < numIter; ++i) {
 			// Load 4 points. With p1 from previous loop iteration make up 4 segments
 			const __m128 p23 = _mm_loadu_ps(srcPos);                          // { p2.x, p2.y, p3.x, p3.y }
 			const __m128 p45 = _mm_loadu_ps(srcPos + 4);                      // { p4.x, p4.y, p5.x, p5.y }

 			const __m128 p12 = _mm_movelh_ps(p1, p23);                        // { p1.x, p1.y, p2.x, p2.y }
 			const __m128 p34 = _mm_movelh_ps(_mm_movehl_ps(p23, p23), p45);   // { p3.x, p3.y, p4.x, p4.y }

 			// Calculate the direction vector of the 4 segments
 			// NOTE: Tried to calc all 4 rsqrt in 1 call but it ends up being slower. Kept this version for now.
 			const __m128 d12_23_unorm = _mm_sub_ps(p23, p12);
 			const __m128 d34_45_unorm = _mm_sub_ps(p45, p34);

 			const __m128 d12_23_xy_sqr = _mm_mul_ps(d12_23_unorm, d12_23_unorm);
 			const __m128 d34_45_xy_sqr = _mm_mul_ps(d34_45_unorm, d34_45_unorm);

 			const __m128 d12_23_yx_sqr = _mm_shuffle_ps(d12_23_xy_sqr, d12_23_xy_sqr, _MM_SHUFFLE(2, 3, 0, 1));
 			const __m128 d34_45_yx_sqr = _mm_shuffle_ps(d34_45_xy_sqr, d34_45_xy_sqr, _MM_SHUFFLE(2, 3, 0, 1));

 			const __m128 len12_23_sqr = _mm_add_ps(d12_23_xy_sqr, d12_23_yx_sqr);
 			const __m128 len34_45_sqr = _mm_add_ps(d34_45_xy_sqr, d34_45_yx_sqr);

 			const __m128 lenSqr123_ge_eps = _mm_cmpge_ps(len12_23_sqr, xmm_epsilon);
 			const __m128 lenSqr345_ge_eps = _mm_cmpge_ps(len34_45_sqr, xmm_epsilon);

 			const __m128 invLen12_23 = xmm_rsqrt(len12_23_sqr);
 			const __m128 invLen34_45 = xmm_rsqrt(len34_45_sqr);

 			const __m128 invLen12_23_masked = _mm_and_ps(invLen12_23, lenSqr123_ge_eps);
 			const __m128 invLen34_45_masked = _mm_and_ps(invLen34_45, lenSqr345_ge_eps);

 			const __m128 d12_23 = _mm_mul_ps(d12_23_unorm, invLen12_23_masked);
 			const __m128 d34_45 = _mm_mul_ps(d34_45_unorm, invLen34_45_masked);

 			// Calculate the 4 extrusion vectors for the 4 points based on the equ
 			// abs(cross(d12, d01) > epsilon ? ((d01 - d12) / cross(d12, d01)) : rot90CCW(d01)
 			const __m128 v012_123_fake = _mm_xor_ps(_mm_shuffle_ps(d01, d12_23, _MM_SHUFFLE(0, 1, 0, 1)), vec2x2_perpCCW_xorMask);
 			const __m128 v234_345_fake = _mm_xor_ps(_mm_shuffle_ps(d12_23, d34_45, _MM_SHUFFLE(0, 1, 2, 3)), vec2x2_perpCCW_xorMask);

 			// cross012 = d12.x * d01.y - d12.y * d01.x
 			// cross123 = d23.x * d12.y - d23.y * d12.x
 			// cross234 = d34.x * d23.y - d34.y * d23.x
 			// cross345 = d45.x * d34.y - d45.y * d34.x
 			const __m128 dxy01_12 = _mm_shuffle_ps(d01, d12_23, _MM_SHUFFLE(1, 0, 1, 0));
 			const __m128 dxy12_23 = d12_23;
 			const __m128 dxy23_34 = _mm_shuffle_ps(d12_23, d34_45, _MM_SHUFFLE(1, 0, 3, 2));
 			const __m128 dxy34_45 = d34_45;

 			const __m128 dx01_12_23_34 = _mm_shuffle_ps(dxy01_12, dxy23_34, _MM_SHUFFLE(2, 0, 2, 0));
 			const __m128 dy01_12_23_34 = _mm_shuffle_ps(dxy01_12, dxy23_34, _MM_SHUFFLE(3, 1, 3, 1));
 			const __m128 dx12_23_34_45 = _mm_shuffle_ps(dxy12_23, dxy34_45, _MM_SHUFFLE(2, 0, 2, 0));
 			const __m128 dy12_23_34_45 = _mm_shuffle_ps(dxy12_23, dxy34_45, _MM_SHUFFLE(3, 1, 3, 1));

 			const __m128 crossx012_123_234_345 = _mm_mul_ps(dx12_23_34_45, dy01_12_23_34);
 			const __m128 crossy012_123_234_345 = _mm_mul_ps(dy12_23_34_45, dx01_12_23_34);

 			const __m128 cross012_123_234_345 = _mm_sub_ps(crossx012_123_234_345, crossy012_123_234_345);

 			const __m128 inv_cross012_123_234_345 = xmm_rcp(cross012_123_234_345);
 			
 			const __m128 cross_gt_eps012_123_234_345 = _mm_cmpge_ps(cross012_123_234_345, xmm_epsilon);

 			const __m128 inv_cross012_123 = _mm_shuffle_ps(inv_cross012_123_234_345, inv_cross012_123_234_345, _MM_SHUFFLE(1, 1, 0, 0));
 			const __m128 inv_cross234_345 = _mm_shuffle_ps(inv_cross012_123_234_345, inv_cross012_123_234_345, _MM_SHUFFLE(3, 3, 2, 2));

 			const __m128 cross012_123_gt_eps = _mm_shuffle_ps(cross_gt_eps012_123_234_345, cross_gt_eps012_123_234_345, _MM_SHUFFLE(1, 1, 0, 0));
 			const __m128 cross234_345_gt_eps = _mm_shuffle_ps(cross_gt_eps012_123_234_345, cross_gt_eps012_123_234_345, _MM_SHUFFLE(3, 3, 2, 2));

 			const __m128 dxy012_123 = _mm_sub_ps(dxy01_12, dxy12_23);
 			const __m128 dxy234_345 = _mm_sub_ps(dxy23_34, dxy34_45);

 			const __m128 v012_123_true = _mm_mul_ps(dxy012_123, inv_cross012_123);
 			const __m128 v234_345_true = _mm_mul_ps(dxy234_345, inv_cross234_345);

 			const __m128 v012_123_true_masked = _mm_and_ps(cross012_123_gt_eps, v012_123_true);
 			const __m128 v234_345_true_masked = _mm_and_ps(cross234_345_gt_eps, v234_345_true);

 			const __m128 v012_123_fake_masked = _mm_andnot_ps(cross012_123_gt_eps, v012_123_fake);
 			const __m128 v245_345_fake_masked = _mm_andnot_ps(cross234_345_gt_eps, v234_345_fake);

 			const __m128 v012_123 = _mm_or_ps(v012_123_true_masked, v012_123_fake_masked);
 			const __m128 v234_345 = _mm_or_ps(v234_345_true_masked, v245_345_fake_masked);

 			const __m128 v012_v123_aa = _mm_mul_ps(v012_123, xmm_aa);
 			const __m128 v234_v345_aa = _mm_mul_ps(v234_345, xmm_aa);

 			// Calculate the 2 fringe points for each of p1, p2, p3 and p4
 			const __m128 posEdge12 = _mm_add_ps(p12, v012_v123_aa);
 			const __m128 negEdge12 = _mm_sub_ps(p12, v012_v123_aa);
 			const __m128 posEdge34 = _mm_add_ps(p34, v234_v345_aa);
 			const __m128 negEdge34 = _mm_sub_ps(p34, v234_v345_aa);

 			const __m128 p1_in_out = _mm_shuffle_ps(posEdge12, negEdge12, _MM_SHUFFLE(1, 0, 1, 0));
 			const __m128 p2_in_out = _mm_shuffle_ps(posEdge12, negEdge12, _MM_SHUFFLE(3, 2, 3, 2));
 			const __m128 p3_in_out = _mm_shuffle_ps(posEdge34, negEdge34, _MM_SHUFFLE(1, 0, 1, 0));
 			const __m128 p4_in_out = _mm_shuffle_ps(posEdge34, negEdge34, _MM_SHUFFLE(3, 2, 3, 2));

 			// Store the fringe points
 			_mm_store_ps(dstPos + 0, p1_in_out);
 			_mm_store_ps(dstPos + 4, p2_in_out);
 			_mm_store_ps(dstPos + 8, p3_in_out);
 			_mm_store_ps(dstPos + 12, p4_in_out);

 			// Move on to the next iteration.
 			d01 = _mm_movehl_ps(d34_45, d34_45);
 			p1 = _mm_movehl_ps(p45, p45); // p1 = p5
 			srcPos += 8;
 			dstPos += 16;
 		}

 		uint32_t rem = (lastVertexID & 3);
 		if (rem >= 2) {
 			const __m128 p23 = _mm_loadu_ps(srcPos);
 			const __m128 p12 = _mm_movelh_ps(p1, p23);

 			const __m128 d12_23 = _mm_sub_ps(p23, p12);
 			const __m128 d12_23_xy_sqr = _mm_mul_ps(d12_23, d12_23);
 			const __m128 d12_23_yx_sqr = _mm_shuffle_ps(d12_23_xy_sqr, d12_23_xy_sqr, _MM_SHUFFLE(2, 3, 0, 1));
 			const __m128 len12_23_sqr = _mm_add_ps(d12_23_xy_sqr, d12_23_yx_sqr);
 			const __m128 lenSqr_ge_eps = _mm_cmpge_ps(len12_23_sqr, xmm_epsilon);

 			const __m128 invLen12_23 = xmm_rsqrt(len12_23_sqr);

 			const __m128 invLen12_23_masked = _mm_and_ps(invLen12_23, lenSqr_ge_eps);
 			const __m128 d12_23_norm = _mm_mul_ps(d12_23, invLen12_23_masked);

 			const __m128 d12 = _mm_movelh_ps(d12_23_norm, d12_23_norm);
 			const __m128 d23 = _mm_movehl_ps(d12_23_norm, d12_23_norm);

 			const __m128 d12xy_d01xy = _mm_movelh_ps(d12, d01);
 			const __m128 d23xy_d12xy = _mm_movelh_ps(d23, d12);

 			const __m128 d01yx_d12yx = _mm_shuffle_ps(d12xy_d01xy, d12xy_d01xy, _MM_SHUFFLE(0, 1, 2, 3));
 			const __m128 d12yx_d23yx = _mm_shuffle_ps(d23xy_d12xy, d23xy_d12xy, _MM_SHUFFLE(0, 1, 2, 3));

 			const __m128 d12xd01y_d12yd01x = _mm_mul_ps(d12xy_d01xy, d01yx_d12yx);
 			const __m128 d23xd12y_d23yd12x = _mm_mul_ps(d23xy_d12xy, d12yx_d23yx);

 			const __m128 d12yd01x_d23yd12x = _mm_shuffle_ps(d12xd01y_d12yd01x, d23xd12y_d23yd12x, _MM_SHUFFLE(1, 1, 1, 1));
 			const __m128 d12xd01y_d23xd12x = _mm_shuffle_ps(d12xd01y_d12yd01x, d23xd12y_d23yd12x, _MM_SHUFFLE(0, 0, 0, 0));

 			const __m128 cross012_123 = _mm_sub_ps(d12xd01y_d23xd12x, d12yd01x_d23yd12x);
 			
 			const __m128 inv_cross012_123 = xmm_rcp(cross012_123);

 			const __m128 v012_123_fake = _mm_xor_ps(d01yx_d12yx, vec2x2_perpCCW_xorMask);

 			const __m128 d01xy_d12xy = _mm_shuffle_ps(d12xy_d01xy, d12xy_d01xy, _MM_SHUFFLE(1, 0, 3, 2));
 			const __m128 d12xy_d23xy = _mm_shuffle_ps(d23xy_d12xy, d23xy_d12xy, _MM_SHUFFLE(1, 0, 3, 2));

 			const __m128 d012xy_d123xy = _mm_sub_ps(d01xy_d12xy, d12xy_d23xy);
 			const __m128 v012_123_true = _mm_mul_ps(d012xy_d123xy, inv_cross012_123);

 			const __m128 cross_gt_eps = _mm_cmpge_ps(cross012_123, xmm_epsilon);
 			const __m128 v012_123_true_masked = _mm_and_ps(cross_gt_eps, v012_123_true);
 			const __m128 v012_123_fake_masked = _mm_andnot_ps(cross_gt_eps, v012_123_fake);
 			const __m128 v012_123 = _mm_or_ps(v012_123_true_masked, v012_123_fake_masked);

 			const __m128 v012_v123_aa = _mm_mul_ps(v012_123, xmm_aa);

 			const __m128 posEdge = _mm_add_ps(p12, v012_v123_aa);
 			const __m128 negEdge = _mm_sub_ps(p12, v012_v123_aa);

 			const __m128 packed0 = _mm_shuffle_ps(posEdge, negEdge, _MM_SHUFFLE(1, 0, 1, 0));
 			const __m128 packed1 = _mm_shuffle_ps(posEdge, negEdge, _MM_SHUFFLE(3, 2, 3, 2));

 			_mm_store_ps(dstPos, packed0);
 			_mm_store_ps(dstPos + 4, packed1);

 			dstPos += 8;
 			srcPos += 4;
 			d01 = d23;
 			p1 = _mm_movehl_ps(p23, p23);

 			rem -= 2;
 		}

 		if (rem) {
 			const __m128 p2 = _mm_loadl_pi(_mm_setzero_ps(), (const __m64*)srcPos);
 			const __m128 d12 = _mm_vec2_dir(p1, p2);
 			const __m128 v_aa = _mm_mul_ps(calcExtrusionVector(d01, d12), xmm_aa);
 			const __m128 packed = _mm_movelh_ps(_mm_add_ps(p1, v_aa), _mm_sub_ps(p1, v_aa));
 			_mm_store_ps(dstPos, packed);

 			dstPos += 4;
 			srcPos += 2;
 			d01 = d12;
 			p1 = p2;
 		}

 		// Last segment
 		{
 			const __m128 v_aa = _mm_mul_ps(calcExtrusionVector(d01, _mm_vec2_dir(p1, vtx0)), xmm_aa);
 			const __m128 packed = _mm_movelh_ps(_mm_add_ps(p1, v_aa), _mm_sub_ps(p1, v_aa));
 			_mm_storeu_ps(dstPos, packed);
 		}

 		stroker->m_NumVertices += numDrawVertices;
 	}
 #endif // CREATE_VERTEX_BUFFER

 #if CREATE_INDEX_BUFFER
 	// Index buffer
 	{
 		expandIB(stroker, numDrawIndices);

 		uint16_t* dstIndex = stroker->m_IndexBuffer;

 		// First fringe quad
 		dstIndex[0] = 0; dstIndex[1] = 1; dstIndex[2] = 3;
 		dstIndex[3] = 0; dstIndex[4] = 3; dstIndex[5] = 2;
 		dstIndex += 6;

 		const uint32_t numFanTris = numVertices - 2;

 #if !SIMD_INDEX_BUFFER
 		uint16_t secondTriVertex = 2;
 		for (uint32_t i = 0; i < numFanTris; ++i) {
 			const uint16_t id0 = secondTriVertex;
 			const uint16_t id1 = secondTriVertex + 1;
 			const uint16_t id2 = secondTriVertex + 2;
 			const uint16_t id3 = secondTriVertex + 3;

 			// Fan triangle
 			dstIndex[0] = 0;
 			dstIndex[1] = id0;
 			dstIndex[2] = id2;

 			// Fringe quad
 			dstIndex[3] = id0;
 			dstIndex[4] = id1;
 			dstIndex[5] = id3;
 			dstIndex[6] = id0;
 			dstIndex[7] = id3;
 			dstIndex[8] = id2;

 			dstIndex += 9;
 			secondTriVertex += 2;
 		}
 #else
 #if 0
 		static const uint16_t delta0[8] = { 0, 2, 0, 1, 3, 0, 3, 2 };
 		static const uint16_t delta1[8] = { 2, 4, 2, 3, 5, 2, 5, 4 };
 		static const uint16_t delta2[8] = { 4, 6, 4, 5, 7, 4, 7, 6 };
 		static const uint16_t delta3[8] = { 6, 8, 6, 7, 9, 6, 9, 8 };
 		const __m128i xmm_delta0 = _mm_loadu_si128((const __m128i*)delta0);
 		const __m128i xmm_delta1 = _mm_loadu_si128((const __m128i*)delta1);
 		const __m128i xmm_delta2 = _mm_loadu_si128((const __m128i*)delta2);
 		const __m128i xmm_delta3 = _mm_loadu_si128((const __m128i*)delta3);

 		const __m128i xmm_stv_delta = _mm_set1_epi16(8);

 		__m128i xmm_stv = _mm_set1_epi16(2);
 		const uint32_t numIter = numFanTris >> 2;
 		for (uint32_t i = 0; i < numIter; ++i) {
 #if TEST_SIMD == 3 && INSERT_IACA_MARKERS
 			IACA_VC64_START;
 #endif

 			// { 0, stv + 0, stv + 2, stv + 0, stv + 1, stv + 3, stv + 0, stv + 3 }
 			// { stv + 2, 0, stv + 2, stv + 4, stv + 2, stv + 3, stv + 5, stv + 2 }
 			// { stv + 5, stv + 4, 0, stv + 4, stv + 6, stv + 4, stv + 5, stv + 7 }
 			// { stv + 4, stv + 7, stv + 6, 0, stv + 6, stv + 8, stv + 6, stv + 7 }
 			// { stv + 9, stv + 6, stv + 9, stv + 8 }
 			const __m128i xmm_id0 = _mm_add_epi16(xmm_stv, xmm_delta0); // { stv + 0, stv + 2, stv + 0, stv + 1, stv + 3, stv + 0, stv + 3, stv + 2 }
 			const __m128i xmm_id1 = _mm_add_epi16(xmm_stv, xmm_delta1); // { stv + 2, stv + 4, stv + 2, stv + 3, stv + 5, stv + 2, stv + 5, stv + 4 }
 			const __m128i xmm_id2 = _mm_add_epi16(xmm_stv, xmm_delta2); // { stv + 4, stv + 6, stv + 4, stv + 5, stv + 7, stv + 4, stv + 7, stv + 6 }
 			const __m128i xmm_id3 = _mm_add_epi16(xmm_stv, xmm_delta3); // { stv + 6, stv + 8, stv + 6, stv + 7, stv + 9, stv + 6, stv + 9, stv + 8 }

 			dstIndex[0] = 0;
 			dstIndex[9] = 0;
 			dstIndex[18] = 0;
 			dstIndex[27] = 0;

 			_mm_storeu_si128((__m128i*)(dstIndex + 1), xmm_id0);
 			_mm_storeu_si128((__m128i*)(dstIndex + 10), xmm_id1);
 			_mm_storeu_si128((__m128i*)(dstIndex + 19), xmm_id2);
 			_mm_storeu_si128((__m128i*)(dstIndex + 28), xmm_id3);

 			dstIndex += 36;
 			xmm_stv = _mm_add_epi16(xmm_stv, xmm_stv_delta);
 		}
 #if TEST_SIMD == 3 && INSERT_IACA_MARKERS
 		IACA_VC64_END;
 #endif

 		uint32_t rem = numFanTris & 3;
 		if (rem >= 2) {
 			const __m128i xmm_id0 = _mm_add_epi16(xmm_stv, xmm_delta0);
 			const __m128i xmm_id1 = _mm_add_epi16(xmm_stv, xmm_delta1);

 			dstIndex[0] = 0;
 			dstIndex[9] = 0;

 			_mm_storeu_si128((__m128i*)(dstIndex + 1), xmm_id0);
 			_mm_storeu_si128((__m128i*)(dstIndex + 10), xmm_id1);

 			dstIndex += 18;
 			xmm_stv = _mm_add_epi16(xmm_stv, _mm_set1_epi16(4));
 			rem -= 2;
 		}

 		if (rem) {
 			const __m128i xmm_id0 = _mm_add_epi16(xmm_stv, xmm_delta0);

 			dstIndex[0] = 0;
 			_mm_storeu_si128((__m128i*)(dstIndex + 1), xmm_id0);

 			dstIndex += 9;
 		}
 #else
 		__m128i xmm_stv = _mm_set1_epi16(2);
 		{
 			static const uint16_t delta0[8] = { 0, 0, 2, 0, 1, 3, 0, 3 };
 			static const uint16_t delta1[8] = { 2, 0, 2, 4, 2, 3, 5, 2 };
 			static const uint16_t delta2[8] = { 5, 4, 0, 4, 6, 4, 5, 7 };
 			static const uint16_t delta3[8] = { 4, 7, 6, 0, 6, 8, 6, 7 };
 			static const uint16_t delta4[8] = { 9, 6, 9, 8, 0, 0, 0, 0 };
 			const __m128i xmm_delta0 = _mm_loadu_si128((const __m128i*)delta0);
 			const __m128i xmm_delta1 = _mm_loadu_si128((const __m128i*)delta1);
 			const __m128i xmm_delta2 = _mm_loadu_si128((const __m128i*)delta2);
 			const __m128i xmm_delta3 = _mm_loadu_si128((const __m128i*)delta3);
 			const __m128i xmm_delta4 = _mm_loadu_si128((const __m128i*)delta4);

 			const __m128i xmm_stv_delta = _mm_set1_epi16(8);

 			const uint32_t numIter = numFanTris >> 2;
 			for (uint32_t i = 0; i < numIter; ++i) {
 #if TEST_SIMD == 3 && INSERT_IACA_MARKERS
 				IACA_VC64_START;
 #endif

 				// { 0, stv + 0, stv + 2, stv + 0, stv + 1, stv + 3, stv + 0, stv + 3 }
 				// { stv + 2, 0, stv + 2, stv + 4, stv + 2, stv + 3, stv + 5, stv + 2 }
 				// { stv + 5, stv + 4, 0, stv + 4, stv + 6, stv + 4, stv + 5, stv + 7 }
 				// { stv + 4, stv + 7, stv + 6, 0, stv + 6, stv + 8, stv + 6, stv + 7 }
 				// { stv + 9, stv + 6, stv + 9, stv + 8 }
 				const __m128i xmm_id0 = _mm_add_epi16(xmm_stv, xmm_delta0);
 				const __m128i xmm_id1 = _mm_add_epi16(xmm_stv, xmm_delta1);
 				const __m128i xmm_id2 = _mm_add_epi16(xmm_stv, xmm_delta2);
 				const __m128i xmm_id3 = _mm_add_epi16(xmm_stv, xmm_delta3);
 				const __m128i xmm_id4 = _mm_add_epi16(xmm_stv, xmm_delta4);

 				_mm_storeu_si128((__m128i*)(dstIndex + 0), _mm_insert_epi16(xmm_id0, 0, 0));
 				_mm_storeu_si128((__m128i*)(dstIndex + 8), _mm_insert_epi16(xmm_id1, 0, 1));
 				_mm_storeu_si128((__m128i*)(dstIndex + 16), _mm_insert_epi16(xmm_id2, 0, 2));
 				_mm_storeu_si128((__m128i*)(dstIndex + 24), _mm_insert_epi16(xmm_id3, 0, 3));
 				_mm_storel_epi64((__m128i*)(dstIndex + 32), xmm_id4);

 				dstIndex += 36;
 				xmm_stv = _mm_add_epi16(xmm_stv, xmm_stv_delta);
 			}
 #if TEST_SIMD == 3 && INSERT_IACA_MARKERS
 			IACA_VC64_END;
 #endif
 		}

 		{
 			static const uint16_t delta0[8] = { 0, 2, 0, 1, 3, 0, 3, 2 };
 			static const uint16_t delta1[8] = { 2, 4, 2, 3, 5, 2, 5, 4 };
 			const __m128i xmm_delta0 = _mm_loadu_si128((const __m128i*)delta0);
 			const __m128i xmm_delta1 = _mm_loadu_si128((const __m128i*)delta1);

 			uint32_t rem = numFanTris & 3;
 			if (rem >= 2) {
 				const __m128i xmm_id0 = _mm_add_epi16(xmm_stv, xmm_delta0);
 				const __m128i xmm_id1 = _mm_add_epi16(xmm_stv, xmm_delta1);

 				dstIndex[0] = 0;
 				_mm_storeu_si128((__m128i*)(dstIndex + 1), xmm_id0);

 				dstIndex[9] = 0;
 				_mm_storeu_si128((__m128i*)(dstIndex + 10), xmm_id1);

 				dstIndex += 18;
 				xmm_stv = _mm_add_epi16(xmm_stv, _mm_set1_epi16(4));
 				rem -= 2;
 			}

 			if (rem) {
 				const __m128i xmm_id0 = _mm_add_epi16(xmm_stv, xmm_delta0);

 				dstIndex[0] = 0;
 				_mm_storeu_si128((__m128i*)(dstIndex + 1), xmm_id0);

 				dstIndex += 9;
 			}
 		}
 #endif // 0
 #endif // SIMD_INDEX_BUFFER

 		// Last fringe quad
 		const uint16_t lastID = (uint16_t)((numVertices - 1) << 1);
 		dstIndex[0] = lastID;
 		dstIndex[1] = lastID + 1;
 		dstIndex[2] = 1;
 		dstIndex[3] = lastID;
 		dstIndex[4] = 1;
 		dstIndex[5] = 0;

 		stroker->m_NumIndices += numDrawIndices;
 	}
 #endif
 }

 static void generatePath(float* vtx, uint32_t numVertices)
 {
 	// Circle
 	const float cx = 0.0f;
 	const float cy = 0.0f;
 	const float r = 100.0f;

 	vtx[0] = cx + r;
 	vtx[1] = cy;
 	vtx += 2;

 	const float dtheta = -(2.0f * PI) / (float)numVertices;
 	const float cos_dtheta = cosf(dtheta);
 	const float sin_dtheta = sinf(dtheta);

 	float ca = 1.0f;
 	float sa = 0.0f;
 	for (uint32_t i = 1; i < numVertices; ++i) {
 		const float nextSin = sin_dtheta * ca + cos_dtheta * sa;
 		const float nextCos = cos_dtheta * ca - sin_dtheta * sa;
 		ca = nextCos;
 		sa = nextSin;

 		vtx[0] = cx + r * ca;
 		vtx[1] = cy + r * sa;
 		vtx += 2;
 	}
 }

 static inline int64_t getHPCounter()
 {
 	LARGE_INTEGER li;
 	QueryPerformanceCounter(&li);
 	int64_t i64 = li.QuadPart;
 	return i64;
 }

 static inline int64_t getHPFrequency()
 {
 	LARGE_INTEGER li;
 	QueryPerformanceFrequency(&li);
 	return li.QuadPart;
 }

 int main()
 {
 	SetPriorityClass(GetCurrentProcess(), HIGH_PRIORITY_CLASS);
 	SetThreadAffinityMask(GetCurrentThread(), 0x00000001);

 	float* vertexList = (float*)_aligned_malloc(sizeof(float) * 2 * NUM_VERTICES, 16);

 	generatePath(vertexList, NUM_VERTICES);

 	Stroker stroker;
 	memset(&stroker, 0, sizeof(Stroker));
 	stroker.m_FringeWidth = 1.0f;
 #if TEST_SIMD == 1
 	strokerConvexFillAA_SIMD(&stroker, vertexList, NUM_VERTICES);
 #elif TEST_SIMD == 2
 	strokerConvexFillAA_SIMD2(&stroker, vertexList, NUM_VERTICES);
 #elif TEST_SIMD == 3
 	strokerConvexFillAA_SIMD3(&stroker, vertexList, NUM_VERTICES);
 #else
 	strokerConvexFillAA(&stroker, vertexList, NUM_VERTICES);
 #endif

 	int64_t start = getHPCounter();
 	for (uint32_t i = 0; i < NUM_ITERATIONS; ++i) {
 #if TEST_SIMD == 1
 		strokerConvexFillAA_SIMD(&stroker, vertexList, NUM_VERTICES);
 #elif TEST_SIMD == 2
 		strokerConvexFillAA_SIMD2(&stroker, vertexList, NUM_VERTICES);
 #elif TEST_SIMD == 3
 		strokerConvexFillAA_SIMD3(&stroker, vertexList, NUM_VERTICES);
 #else
 		strokerConvexFillAA(&stroker, vertexList, NUM_VERTICES);
 #endif
 	}
 	int64_t elapsed = getHPCounter() - start;

 	printf("Elapsed (raw): %" PRId64 "\n", elapsed);

 	const int64_t freq = getHPFrequency();
 	double elapsed_msec = 1000.0 * (double)elapsed / (double)freq;
 	printf("Elapsed time: %f msec (%f usec / call)\n", elapsed_msec, elapsed_msec * 1000.0 / (double)NUM_ITERATIONS);

 #if CREATE_VERTEX_BUFFER && TEST_SIMD && VERIFY_SIMD
 	{
 		printf("Veryfing SIMD vertex buffer...\n");

 		Stroker strokerRef;
 		memset(&strokerRef, 0, sizeof(Stroker));
 		strokerRef.m_FringeWidth = 1.0f;
 		strokerConvexFillAA(&strokerRef, vertexList, NUM_VERTICES);

 		double maxError = -1.0;
 		const float* simdVtx = &stroker.m_PosBuffer->x;
 		const float* refVtx = &strokerRef.m_PosBuffer->x;
 		for (uint32_t i = 0; i < stroker.m_NumVertices; ++i) {
 			const double dx = (double)simdVtx[0] - (double)refVtx[0];
 			const double dy = (double)simdVtx[1] - (double)refVtx[1];
 			const double len = dx * dx + dy * dy;
 			if (len > maxError) {
 				maxError = len;
 			}

 			simdVtx += 2;
 			refVtx += 2;
 		}
 		printf("- Max error: %g\n", maxError);
 	}
 #endif

 #if CREATE_INDEX_BUFFER && TEST_SIMD && VERIFY_SIMD
 	{
 		printf("Veryfing SIMD index buffer...\n");

 		Stroker strokerRef;
 		memset(&strokerRef, 0, sizeof(Stroker));
 		strokerRef.m_FringeWidth = 1.0f;
 		strokerConvexFillAA(&strokerRef, vertexList, NUM_VERTICES);

 		double maxError = 0.0;
 		const uint16_t* simdID = stroker.m_IndexBuffer;
 		const uint16_t* refID = strokerRef.m_IndexBuffer;

 		bool err = false;
 		for (uint32_t i = 0; i < stroker.m_NumIndices; ++i) {
 			if (simdID[i] != refID[i]) {
 				printf("Index %d is wrong!\n", i);
 				err = true;
 				break;
 			}
 		}
 		if (!err) {
 			printf("SIMD index buffer is correct\n");
 		}
 	}
 #endif

 	return 0;
 }