alfanick · August 17, 2016 16:19
diff --git a/abstract.md b/abstract.md
diff --git a/main.cpp b/main.cpp
 #include <iostream>
 #include <chrono>
 #include <functional>
 #include <string>

 #include <libiomp/omp.h>

 double benchmark(std::string name, std::function<double()> f, size_t iterations = 100);

 int main() {
  const size_t data_size = (1<<28);
  double *data = new double[data_size];

  for (size_t i = 0; i < data_size; i++)
    data[i] = i;


  benchmark("naive", [=]() {
    double sum = 0;

    for (size_t i = 0; i < data_size; i++) {
      sum += data[i];
    }

    return sum;
  });

  benchmark("naive openmp", [=]() {
    double sum = 0;

    #pragma omp parallel for reduction(+:sum)
    for (size_t i = 0; i < data_size; i++) {
      sum += data[i];
    }

    return sum;
  });

  benchmark("vectorize and interleave", [=]() {
    double sum = 0;

    #pragma clang loop vectorize(enable) interleave(enable)
    for (size_t i = 0; i < data_size; i++) {
      sum += data[i];
    }

    return sum;
  });

  delete[] data;

  return EXIT_SUCCESS;
 }

 double benchmark(std::string name, std::function<double()> f, size_t iterations) {
  std::cerr << "Executing " << name << ":" << std::endl;

  double sum = 0;
  auto start_time = std::chrono::high_resolution_clock::now();

  for (size_t i = 0; i < iterations; i++) {
    sum = f();
  }

  auto end_time = std::chrono::high_resolution_clock::now();

  double avg =  (std::chrono::duration_cast<std::chrono::milliseconds>(end_time - start_time) / iterations).count();

  std::cerr.precision(17);
  std::cerr << "\tsum is " << std::fixed << sum << std::endl;
  std::cerr << "\taverage " << avg << "ms" << std::endl << std::endl;

  return avg;
 }

diff --git a/zzz_diff_clang_with_fastmath_vs_without_fastmath.s b/zzz_diff_clang_with_fastmath_vs_without_fastmath.s
 877c877
 < ## BB#0:                                ## %min.iters.checked
 ---
 > ## BB#0:
 887c887
 < 	vxorpd	%ymm0, %ymm0, %ymm0
 ---
 > 	vxorpd	%xmm0, %xmm0, %xmm0
 889,891d888
 < 	vxorpd	%ymm1, %ymm1, %ymm1
 < 	vxorpd	%ymm2, %ymm2, %ymm2
 < 	vxorpd	%ymm3, %ymm3, %ymm3
 893,911c890,907
 < LBB8_1:                                 ## %vector.body
 <                                         ## =>This Inner Loop Header: Depth=1
 < 	vaddpd	(%rax,%rcx,8), %ymm0, %ymm0
 < 	vaddpd	32(%rax,%rcx,8), %ymm1, %ymm1
 < 	vaddpd	64(%rax,%rcx,8), %ymm2, %ymm2
 < 	vaddpd	96(%rax,%rcx,8), %ymm3, %ymm3
 < 	vaddpd	128(%rax,%rcx,8), %ymm0, %ymm0
 < 	vaddpd	160(%rax,%rcx,8), %ymm1, %ymm1
 < 	vaddpd	192(%rax,%rcx,8), %ymm2, %ymm2
 < 	vaddpd	224(%rax,%rcx,8), %ymm3, %ymm3
 < 	vaddpd	256(%rax,%rcx,8), %ymm0, %ymm0
 < 	vaddpd	288(%rax,%rcx,8), %ymm1, %ymm1
 < 	vaddpd	320(%rax,%rcx,8), %ymm2, %ymm2
 < 	vaddpd	352(%rax,%rcx,8), %ymm3, %ymm3
 < 	vaddpd	384(%rax,%rcx,8), %ymm0, %ymm0
 < 	vaddpd	416(%rax,%rcx,8), %ymm1, %ymm1
 < 	vaddpd	448(%rax,%rcx,8), %ymm2, %ymm2
 < 	vaddpd	480(%rax,%rcx,8), %ymm3, %ymm3
 < 	addq	$64, %rcx
 ---
 > LBB8_1:                                 ## =>This Inner Loop Header: Depth=1
 > 	vaddsd	(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	8(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	16(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	24(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	32(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	40(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	48(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	56(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	64(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	72(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	80(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	88(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	96(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	104(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	112(%rax,%rcx,8), %xmm0, %xmm0
 > 	vaddsd	120(%rax,%rcx,8), %xmm0, %xmm0
 > 	addq	$16, %rcx
 914,920c910
 < ## BB#2:                                ## %middle.block
 < 	vaddpd	%ymm0, %ymm1, %ymm0
 < 	vaddpd	%ymm0, %ymm2, %ymm0
 < 	vaddpd	%ymm0, %ymm3, %ymm0
 < 	vextractf128	$1, %ymm0, %xmm1
 < 	vaddpd	%ymm1, %ymm0, %ymm0
 < 	vhaddpd	%ymm0, %ymm0, %ymm0
 ---
 > ## BB#2:                                ## %"_ZNSt3__128__invoke_void_return_wrapperIdE6__callIJRZ4mainE3$_0EEEdDpOT_.exit"
 922d911
 < 	vzeroupper
 1248,1249c1237,1238
 < 	vmovsd	-88(%rbp), %xmm0        ## xmm0 = mem[0],zero
 < 	vaddsd	(%rbx), %xmm0, %xmm0
 ---
 > 	vmovsd	(%rbx), %xmm0           ## xmm0 = mem[0],zero
 > 	vaddsd	-88(%rbp), %xmm0, %xmm0
 1295,1296c1284,1285
 < 	vmovsd	(%rax), %xmm0           ## xmm0 = mem[0],zero
 < 	vaddsd	(%rcx), %xmm0, %xmm0
 ---
 > 	vmovsd	(%rcx), %xmm0           ## xmm0 = mem[0],zero
 > 	vaddsd	(%rax), %xmm0, %xmm0
	clang++	clang++/fast-math	g++	g++/fast-math
Naive	~~36028796817637376~~	36028796884746240	~~36028796817637376~~	36028796884746240
Naive OpenMP	36028796884746240	36028796884746240	36028796884746240	36028796884746240
Vectorization	36028796884746240	36028796884746240	-	-
	#include <iostream>
	#include <chrono>
	#include <functional>
	#include <string>

	#include <libiomp/omp.h>

	double benchmark(std::string name, std::function<double()> f, size_t iterations = 100);

	int main() {
	const size_t data_size = (1<<28);
	double *data = new double[data_size];

	for (size_t i = 0; i < data_size; i++)
	data[i] = i;


	benchmark("naive", [=]() {
	double sum = 0;

	for (size_t i = 0; i < data_size; i++) {
	sum += data[i];
	}

	return sum;
	});

	benchmark("naive openmp", [=]() {
	double sum = 0;

	#pragma omp parallel for reduction(+:sum)
	for (size_t i = 0; i < data_size; i++) {
	sum += data[i];
	}

	return sum;
	});

	benchmark("vectorize and interleave", [=]() {
	double sum = 0;

	#pragma clang loop vectorize(enable) interleave(enable)
	for (size_t i = 0; i < data_size; i++) {
	sum += data[i];
	}

	return sum;
	});

	delete[] data;

	return EXIT_SUCCESS;
	}

	double benchmark(std::string name, std::function<double()> f, size_t iterations) {
	std::cerr << "Executing " << name << ":" << std::endl;

	double sum = 0;
	auto start_time = std::chrono::high_resolution_clock::now();

	for (size_t i = 0; i < iterations; i++) {
	sum = f();
	}

	auto end_time = std::chrono::high_resolution_clock::now();

	double avg = (std::chrono::duration_cast<std::chrono::milliseconds>(end_time - start_time) / iterations).count();

	std::cerr.precision(17);
	std::cerr << "\tsum is " << std::fixed << sum << std::endl;
	std::cerr << "\taverage " << avg << "ms" << std::endl << std::endl;

	return avg;
	}
	877c877
	< ## BB#0: ## %min.iters.checked
	---
	> ## BB#0:
	887c887
	< vxorpd %ymm0, %ymm0, %ymm0
	---
	> vxorpd %xmm0, %xmm0, %xmm0
	889,891d888
	< vxorpd %ymm1, %ymm1, %ymm1
	< vxorpd %ymm2, %ymm2, %ymm2
	< vxorpd %ymm3, %ymm3, %ymm3
	893,911c890,907
	< LBB8_1: ## %vector.body
	< ## =>This Inner Loop Header: Depth=1
	< vaddpd (%rax,%rcx,8), %ymm0, %ymm0
	< vaddpd 32(%rax,%rcx,8), %ymm1, %ymm1
	< vaddpd 64(%rax,%rcx,8), %ymm2, %ymm2
	< vaddpd 96(%rax,%rcx,8), %ymm3, %ymm3
	< vaddpd 128(%rax,%rcx,8), %ymm0, %ymm0
	< vaddpd 160(%rax,%rcx,8), %ymm1, %ymm1
	< vaddpd 192(%rax,%rcx,8), %ymm2, %ymm2
	< vaddpd 224(%rax,%rcx,8), %ymm3, %ymm3
	< vaddpd 256(%rax,%rcx,8), %ymm0, %ymm0
	< vaddpd 288(%rax,%rcx,8), %ymm1, %ymm1
	< vaddpd 320(%rax,%rcx,8), %ymm2, %ymm2
	< vaddpd 352(%rax,%rcx,8), %ymm3, %ymm3
	< vaddpd 384(%rax,%rcx,8), %ymm0, %ymm0
	< vaddpd 416(%rax,%rcx,8), %ymm1, %ymm1
	< vaddpd 448(%rax,%rcx,8), %ymm2, %ymm2
	< vaddpd 480(%rax,%rcx,8), %ymm3, %ymm3
	< addq $64, %rcx
	---
	> LBB8_1: ## =>This Inner Loop Header: Depth=1
	> vaddsd (%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 8(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 16(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 24(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 32(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 40(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 48(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 56(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 64(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 72(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 80(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 88(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 96(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 104(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 112(%rax,%rcx,8), %xmm0, %xmm0
	> vaddsd 120(%rax,%rcx,8), %xmm0, %xmm0
	> addq $16, %rcx
	914,920c910
	< ## BB#2: ## %middle.block
	< vaddpd %ymm0, %ymm1, %ymm0
	< vaddpd %ymm0, %ymm2, %ymm0
	< vaddpd %ymm0, %ymm3, %ymm0
	< vextractf128 $1, %ymm0, %xmm1
	< vaddpd %ymm1, %ymm0, %ymm0
	< vhaddpd %ymm0, %ymm0, %ymm0
	---
	> ## BB#2: ## %"_ZNSt3__128__invoke_void_return_wrapperIdE6__callIJRZ4mainE3$_0EEEdDpOT_.exit"
	922d911
	< vzeroupper
	1248,1249c1237,1238
	< vmovsd -88(%rbp), %xmm0 ## xmm0 = mem[0],zero
	< vaddsd (%rbx), %xmm0, %xmm0
	---
	> vmovsd (%rbx), %xmm0 ## xmm0 = mem[0],zero
	> vaddsd -88(%rbp), %xmm0, %xmm0
	1295,1296c1284,1285
	< vmovsd (%rax), %xmm0 ## xmm0 = mem[0],zero
	< vaddsd (%rcx), %xmm0, %xmm0
	---
	> vmovsd (%rcx), %xmm0 ## xmm0 = mem[0],zero
	> vaddsd (%rax), %xmm0, %xmm0