yuta-imai · August 3, 2016 00:02
diff --git a/hive_orc_test.hql b/hive_orc_test.hql
 CREATE EXTERNAL TABLE rankings_external (
     pageURL VARCHAR(300),
     pageRank INT,
     avgDuration INT
 )
 ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
 STORED AS SEQUENCEFILE
 LOCATION 's3a://big-data-benchmark/pavlo/sequence/1node/rankings/';

 CREATE TABLE rankings (
     pageURL VARCHAR(300),
     pageRank INT,
     avgDuration INT
 )
 STORED AS ORC;
 INSERT OVERWRITE TABLE rankings SELECT * FROM rankings_external;

 SELECT pagerank, count(1) AS cnt FROM rankings GROUP BY pagerank ORDER BY cnt DESC LIMIT 10;
	CREATE EXTERNAL TABLE rankings_external (
	pageURL VARCHAR(300),
	pageRank INT,
	avgDuration INT
	)
	ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
	STORED AS SEQUENCEFILE
	LOCATION 's3a://big-data-benchmark/pavlo/sequence/1node/rankings/';

	CREATE TABLE rankings (
	pageURL VARCHAR(300),
	pageRank INT,
	avgDuration INT
	)
	STORED AS ORC;
	INSERT OVERWRITE TABLE rankings SELECT * FROM rankings_external;

	SELECT pagerank, count(1) AS cnt FROM rankings GROUP BY pagerank ORDER BY cnt DESC LIMIT 10;