ATpoint · February 25, 2020 08:36 · zx8754 · Feb 26, 2020
diff --git a/GRanges_Reduce_Genes.R b/GRanges_Reduce_Genes.R
 require(data.table)
 require(microbenchmark)
 require(GenomicRanges)

 x <- fread("
    chrom   start   end hgnc
    1   100 200 MYC
    1   150 300 MYC
    1   400 500 MYC
    1   150 230 TP53
    1   200 350 TP53
    1   420 550 TP53")

 fromZx <- function(Input){
  
  return(Input[, as.data.table(reduce(IRanges(start, end))), by = hgnc])
  
 }
 fromZx(x)

 fromMike <- function(Input){
  gr <- GRanges(Input)
  # in short:
  final <- unlist(reduce(split(gr, gr$hgnc)))
  
  # split into GRangesList
  grl <- split(gr, gr$hgnc)
  # all(names(grl) == sort(unique(gr$hgnc))
  
  # reduce each element (independently reduce ranges for each gene)
  grl_redux <- reduce(grl) # element-wise, like lapply(grl, reduce) 
  # all(names(grl_redux) == names(grl)) & all(lengths(grl_redux) <= lengths(grl))
  
  # return single GRanges, with rownames derived from hgnc
  final <- unlist(grl_redux) 
  # all(names(final) == names(grl_redux))
  return(final)
 }
 fromMike(x)

 fromMe <- function(Input){
  
  x.gr <- GRanges(seqnames = paste(Input$chrom, Input$hgnc, sep="_"),
                  ranges = IRanges(start = Input$start,
                                   end = Input$end))
  
  reduced.gr <- GenomicRanges::reduce(x.gr)
  
  splitted <- strsplit(as.character(seqnames(reduced.gr)), split="_")
  
  new.seqnames <- unlist(lapply(splitted, function(x)x[1]))
  
  final <- GRanges(seqnames = new.seqnames,
                   ranges = ranges(reduced.gr))
  elementMetadata(final) <- unlist(lapply(splitted, function(x)x[2]))
  
  return(final) 
  
 }
 fromMe(x)


 Speed benchmarks:
  
  > microbenchmark(fromZx(x))
 Unit: milliseconds
 expr      min      lq     mean   median       uq      max neval
 fromZx(x) 5.662879 6.76689 9.452377 7.903199 11.01084 22.11675   100

 > microbenchmark(fromMike(x))
 Unit: milliseconds
 expr      min       lq     mean   median       uq      max neval
 fromMike(x) 97.53267 103.5992 126.5775 113.4482 131.6864 725.7022   100

 > microbenchmark(fromMe(x))
 Unit: milliseconds
 expr      min       lq     mean   median       uq      max neval
 fromMe(x) 29.36052 32.10575 40.09418 35.39014 42.27503 163.3626   100
	require(data.table)
	require(microbenchmark)
	require(GenomicRanges)

	x <- fread("
	chrom start end hgnc
	1 100 200 MYC
	1 150 300 MYC
	1 400 500 MYC
	1 150 230 TP53
	1 200 350 TP53
	1 420 550 TP53")

	fromZx <- function(Input){

	return(Input[, as.data.table(reduce(IRanges(start, end))), by = hgnc])

	}
	fromZx(x)

	fromMike <- function(Input){
	gr <- GRanges(Input)
	# in short:
	final <- unlist(reduce(split(gr, gr$hgnc)))

	# split into GRangesList
	grl <- split(gr, gr$hgnc)
	# all(names(grl) == sort(unique(gr$hgnc))

	# reduce each element (independently reduce ranges for each gene)
	grl_redux <- reduce(grl) # element-wise, like lapply(grl, reduce)
	# all(names(grl_redux) == names(grl)) & all(lengths(grl_redux) <= lengths(grl))

	# return single GRanges, with rownames derived from hgnc
	final <- unlist(grl_redux)
	# all(names(final) == names(grl_redux))
	return(final)
	}
	fromMike(x)

	fromMe <- function(Input){

	x.gr <- GRanges(seqnames = paste(Input$chrom, Input$hgnc, sep="_"),
	ranges = IRanges(start = Input$start,
	end = Input$end))

	reduced.gr <- GenomicRanges::reduce(x.gr)

	splitted <- strsplit(as.character(seqnames(reduced.gr)), split="_")

	new.seqnames <- unlist(lapply(splitted, function(x)x[1]))

	final <- GRanges(seqnames = new.seqnames,
	ranges = ranges(reduced.gr))
	elementMetadata(final) <- unlist(lapply(splitted, function(x)x[2]))

	return(final)

	}
	fromMe(x)


	Speed benchmarks:

	> microbenchmark(fromZx(x))
	Unit: milliseconds
	expr min lq mean median uq max neval
	fromZx(x) 5.662879 6.76689 9.452377 7.903199 11.01084 22.11675 100

	> microbenchmark(fromMike(x))
	Unit: milliseconds
	expr min lq mean median uq max neval
	fromMike(x) 97.53267 103.5992 126.5775 113.4482 131.6864 725.7022 100

	> microbenchmark(fromMe(x))
	Unit: milliseconds
	expr min lq mean median uq max neval
	fromMe(x) 29.36052 32.10575 40.09418 35.39014 42.27503 163.3626 100