greenqy · December 8, 2015 09:38
diff --git a/create-hadoop-cluster-from-vms b/create-hadoop-cluster-from-vms
 启动集群
 ---------

 启动 hadoop 相关服务
 ==============

 ### 启动 hadoop

 ```bash
 start-dfs.sh
 start-yarn.sh
 ```

 ### 启动 hbase

 ```bash
 start-hbase.sh
 ```

 ### 启动 hive hcatalog

 ```bash
 rm /hadoop/hive/hcatalog/var/log/hcat.pid
 /hadoop/hive/hcatalog/sbin/hcat_server.sh start
 ```

 ### 启动 spark

 ```bash
 /hadoop/spark-1.4.0/sbin/start-all.sh
 ```

 启动工作流平台
 =============

 ### 启动 azkaban

 ```bash
 cd /hadoop/azkaban/azkaban-exec-server
 bin/azkaban-executor-start.sh

 cd /hadoop/azkaban/azkaban-web-server
 bin/azkaban-web-start.sh
 ```

 ### 启动 elasticsearch

 ```bash
 cd /hadoop/elasticsearch
 bin/elasticsearch
 ```

 ### 启动 session server

 ```bash
 cd /home/ubuntu/packages/session-server
 java -jar target/SessionServer-0.1.0.jar
 ```

 ### 启动 yellowbook

 ```bash
 cd /home/ubuntu/packages/yellowbook
 java -jar target/YellowBook-1.0-SNAPSHOT.jar
 ```

 ### 启动 workflow server

 ```bash
 cd /home/ubuntu/packages/workflow
 java -jar target/WorkflowServer-1.0.0.jar
 ```

 启动数据立方体平台
 ===================

 ```bash
 ## 登陆虚拟机 datanode02, 数据分析平台的安装在 /deploy 目录下
 ssh datanode02
 ```

 ### 启动 CubeAnaly

 ```bash
 cd /deploy/CubeAnaly
 java -jar CubeAnaly-0.1.0.jar
 ```

 ### 启动 AnalyUI

 ```bash
 cd /deploy/AnalyUI
 nodejs server.js 9000
 ```

 ### 启动 AutoPublishServer

 ```bash
 cd /deploy/AutoPublishServer
 java -jar AutoPublishServer-0.1.0.jar
 ```

 ### 启动 ReportServer

 ```bash
 cd /deploy/ReportServer
 java -jar ReportServer-0.1.0.jar
 ```


 利用拷贝虚拟机镜像来部署集群, 需要修改的配置文件包括:
 ------------

 ### hadoop

 * /etc/hosts 根据集群规模来配置, datanode也要保持同步
 * 配置文件, slaves 配置节点host
 * 删除 namenode 上的 /hadoop/hadoop/namespace, /hadoop/hadoop/tmp 文件夹
 * 删除所有 datanode 上的 /hadoop/hadoop/data, /hadoop/hadoop/tmp 文件夹

    $ stop-dfs.sh
    $ hdfs namenode -format
    $ start-dfs.sh
    $ start-yarn.sh

 由于删除了数据, 所以原先的数据就都没有了

 ### hive

    $ $HIVE_HOME/hcatalog/sbin/hcat_server.sh start

 执行 $ jps, 那个 RunJar 进程就是这个东西.

 ### hbase

 * /hadoop/hbase/conf目录下的 regionservers, backup-masters根据集群规模配置host
 * /hadoop/hbase/conf/hbase-site.xml 文件中的hbase.zookeeper.quorum根据集群规模来配置
 * 同步下所有节点的配置



 删除所有节点/hadoop/hbase 目录下的 zookeeper 目录

 删除 hdfs 上的 /hbase 目录:

    $ hadoop fs -rm -r /hbase

 ```bash
    $ stop-hbase.sh
    $ rm -rf zookeeper
    $ start-hbase.sh
 ```

 ### spark

 * /hadoop/spark-1.4.0/conf/slaves.sh 根据集群规模修改host

    $ sbin/start-all.sh

 ### azkaban

    $ bin/azkaban-executor-start.sh
    $ bin/azkaban-web-start.sh

 ### elastic search

    $ bin/elasticsearch

 ### session-server

 * config/application.properties 中的 hbase.zookeeper.quorum 修改成对应的集群规模

 ### yellowbook, workflow

 yellowbook 

 * session.properties
 * application.properties

 ### ui

 Settings.js, 修改成ip, 把浏览器的缓存去掉


 start script
 -----------

 # hadoop
 start-dfs.sh
 start-yarn.sh

 # hbase
 start-hbase.sh

 # hive hcatalog
 /hadoop/hive/hcatalog/sbin/hcat_server.sh stop
 /hadoop/hive/hcatalog/sbin/hcat_server.sh start

 # spark
 /hadoop/spark-1.4.0/sbin/start-all.sh
	启动集群
	---------

	启动 hadoop 相关服务
	==============

	### 启动 hadoop

	```bash
	start-dfs.sh
	start-yarn.sh
	```

	### 启动 hbase

	```bash
	start-hbase.sh
	```

	### 启动 hive hcatalog

	```bash
	rm /hadoop/hive/hcatalog/var/log/hcat.pid
	/hadoop/hive/hcatalog/sbin/hcat_server.sh start
	```

	### 启动 spark

	```bash
	/hadoop/spark-1.4.0/sbin/start-all.sh
	```

	启动工作流平台
	=============

	### 启动 azkaban

	```bash
	cd /hadoop/azkaban/azkaban-exec-server
	bin/azkaban-executor-start.sh

	cd /hadoop/azkaban/azkaban-web-server
	bin/azkaban-web-start.sh
	```

	### 启动 elasticsearch

	```bash
	cd /hadoop/elasticsearch
	bin/elasticsearch
	```

	### 启动 session server

	```bash
	cd /home/ubuntu/packages/session-server
	java -jar target/SessionServer-0.1.0.jar
	```

	### 启动 yellowbook

	```bash
	cd /home/ubuntu/packages/yellowbook
	java -jar target/YellowBook-1.0-SNAPSHOT.jar
	```

	### 启动 workflow server

	```bash
	cd /home/ubuntu/packages/workflow
	java -jar target/WorkflowServer-1.0.0.jar
	```

	启动数据立方体平台
	===================

	```bash
	## 登陆虚拟机 datanode02, 数据分析平台的安装在 /deploy 目录下
	ssh datanode02
	```

	### 启动 CubeAnaly

	```bash
	cd /deploy/CubeAnaly
	java -jar CubeAnaly-0.1.0.jar
	```

	### 启动 AnalyUI

	```bash
	cd /deploy/AnalyUI
	nodejs server.js 9000
	```

	### 启动 AutoPublishServer

	```bash
	cd /deploy/AutoPublishServer
	java -jar AutoPublishServer-0.1.0.jar
	```

	### 启动 ReportServer

	```bash
	cd /deploy/ReportServer
	java -jar ReportServer-0.1.0.jar
	```


	利用拷贝虚拟机镜像来部署集群, 需要修改的配置文件包括:
	------------

	### hadoop

	* /etc/hosts 根据集群规模来配置, datanode也要保持同步
	* 配置文件, slaves 配置节点host
	* 删除 namenode 上的 /hadoop/hadoop/namespace, /hadoop/hadoop/tmp 文件夹
	* 删除所有 datanode 上的 /hadoop/hadoop/data, /hadoop/hadoop/tmp 文件夹

	$ stop-dfs.sh
	$ hdfs namenode -format
	$ start-dfs.sh
	$ start-yarn.sh

	由于删除了数据, 所以原先的数据就都没有了

	### hive

	$ $HIVE_HOME/hcatalog/sbin/hcat_server.sh start

	执行 $ jps, 那个 RunJar 进程就是这个东西.

	### hbase

	* /hadoop/hbase/conf目录下的 regionservers, backup-masters根据集群规模配置host
	* /hadoop/hbase/conf/hbase-site.xml 文件中的hbase.zookeeper.quorum根据集群规模来配置
	* 同步下所有节点的配置



	删除所有节点/hadoop/hbase 目录下的 zookeeper 目录

	删除 hdfs 上的 /hbase 目录:

	$ hadoop fs -rm -r /hbase

	```bash
	$ stop-hbase.sh
	$ rm -rf zookeeper
	$ start-hbase.sh
	```

	### spark

	* /hadoop/spark-1.4.0/conf/slaves.sh 根据集群规模修改host

	$ sbin/start-all.sh

	### azkaban

	$ bin/azkaban-executor-start.sh
	$ bin/azkaban-web-start.sh

	### elastic search

	$ bin/elasticsearch

	### session-server

	* config/application.properties 中的 hbase.zookeeper.quorum 修改成对应的集群规模

	### yellowbook, workflow

	yellowbook

	* session.properties
	* application.properties

	### ui

	Settings.js, 修改成ip, 把浏览器的缓存去掉


	start script
	-----------

	# hadoop
	start-dfs.sh
	start-yarn.sh

	# hbase
	start-hbase.sh

	# hive hcatalog
	/hadoop/hive/hcatalog/sbin/hcat_server.sh stop
	/hadoop/hive/hcatalog/sbin/hcat_server.sh start

	# spark
	/hadoop/spark-1.4.0/sbin/start-all.sh
No results found