- hivemall https://github.com/myui/hivemall
- hive で machine learning
- http://qiita.com/myui/items/f726ca3dcc48410abe45
- Cloudera's Hive http://hive.apache.org/
- Cloudera's impala https://github.com/cloudera/impala
- Tajo http://tajo.incubator.apache.org/
- Facebook's Presto https://github.com/facebook/presto
- Pivotal's HAWQ http://www.gopivotal.com/pivotal-products/data/pivotal-hd
- Greenplum DB のエンジンを Hadoop へ移植したもの
- Shark http://shark.cs.berkeley.edu/
- mongodb
- couchdb
- Apache Cassandra http://cassandra.apache.org/
- distributed
- Redis
- kumofs
- ROMA
- VoltDB
- クエリを事前に Java のコードで書いておく方式。アドホックなクエリが実行できないのを犠牲にして速度を出せる
- 分散する
- ディスクに書き出しもできる
- DB に載せるデータの量だけメモリが必要
- Amazon Dynamo DB http://aws.amazon.com/jp/dynamodb/
- Postgres-XL
- Spark http://spark.incubator.apache.org/
- overview わかりやすかった http://spark.incubator.apache.org/talks/overview.pdf
- motivation
- Hadoop MapReduce だと繰り返し計算がおそい (そのたびに map/reduce するから)。machine learning とか graph では繰り返し計算が多発!
- interactive にデータ操作したい
- hdfs から読んだデータを cache でもち続けて操作できるようにした
- H2O http://0xdata.com/h2o/
- apache flink http://flink.incubator.apache.org/
- overview http://www.slideshare.net/stephanewen1/apache-flink-overview
- Introduction to Apache Flink http://www.slideshare.net/robertmetzger1/introduction-to-apache-flink-palo-alto-meetup
- hbase とか http://www.slideshare.net/yutuki/cassandrah-baseno-sql http://www.ne.jp/asahi/hishidama/home/tech/apache/hbase/index.html
http://repeatedly.github.io/ja/2014/07/mpp-on-hadoop-redshift-bigquery/
- storage format
- Parquet http://parquet.io/
- columnar
- Parquet http://parquet.io/
- version http://metasearch.sourceforge.jp/wiki/index.php?Hadoop%A4%CE%A5%D0%A1%BC%A5%B8%A5%E7%A5%F3