szilard · May 2, 2016 22:39 · leondutoit · Nov 6, 2015 · szilard · Nov 6, 2015
diff --git a/sqlite_vs_datatable.txt b/sqlite_vs_datatable.txt

 sqlite vs R's data.table

 TLDR;   sqlite (:memory:) 250 sec    data.table 7 sec


 data: 100 million rows, 1 million groups
 generated by: https://github.com/szilard/benchm-databases/blob/master/0-gendata.txt


 sqlite3 :memory:
 ## SQLite version 3.8.4.1

 create table d(x int, y double);
 .mode csv
 .import d-noh.csv d  
 .timer on 

 select x, avg(y) as ym 
 from d 
 group by x
 order by ym desc 
 limit 5;

 ## Run Time: real 249.674 user 227.471406 sys 13.416719



 R
 ## R version 3.2.2

 library(data.table)
 ## data.table 1.9.6

 d <- fread("d-noh.csv")
 setnames(d, c("x","y"))

 system.time(
  print(head(d[, list(ym=mean(y)), by=x][order(-ym)],5))
 )

 ##   user  system elapsed
 ##  6.811   0.176   7.005

	sqlite vs R's data.table

	TLDR; sqlite (:memory:) 250 sec data.table 7 sec


	data: 100 million rows, 1 million groups
	generated by: https://github.com/szilard/benchm-databases/blob/master/0-gendata.txt


	sqlite3 :memory:
	## SQLite version 3.8.4.1

	create table d(x int, y double);
	.mode csv
	.import d-noh.csv d
	.timer on

	select x, avg(y) as ym
	from d
	group by x
	order by ym desc
	limit 5;

	## Run Time: real 249.674 user 227.471406 sys 13.416719



	R
	## R version 3.2.2

	library(data.table)
	## data.table 1.9.6

	d <- fread("d-noh.csv")
	setnames(d, c("x","y"))

	system.time(
	print(head(d[, list(ym=mean(y)), by=x][order(-ym)],5))
	)

	## user system elapsed
	## 6.811 0.176 7.005