webwurst · March 10, 2016 16:09
diff --git a/copie-elasticsearch.conf b/copie-elasticsearch.conf
 #
 #   Ce fichier de configuration Logstash permet d'effectuer la copie d'index soit:
 #       - à l'intérieur d'un même cluster Elasticsearch
 #       - entre différents clusters Elasticsearch
 #
 #   Utile dans le cas où nous voulons réindexer un index à l'aide de nouveaux mappings ou pour 
 #   dupliquer la production vers un autre environnement de tests.
 #
 #   Pour invoquer la commande:
 #       LS_HEAP_SIZE="2048m" /path/to/bin/logstash -w 2 -f copie-elasticsearch.conf
 #
 #   Note: seulement les données sont copiées, pas les mappings associés.
 #
 #   Afin d'accélérer au maximum la copie, il est conseillé de:
 #       - désactiver les rafraîchissements (refresh_interval)
 #       - désactiver les replicas
 #
 #   Les étapes d'exploitation devraient donc être:
 #
 #       1. Spécifier l'adresse du serveur Elasticsearch utilisé:
 #       
 #           export ES_HOST="http://node.cluster.domain.com:9200"
 #
 #       2. Désactiver les rafraichissements et les replicas, soit:
 #
 #           1. Sur tous les index existants via l'API REST.
 #              Peut être utile pendant une copie, alors que les index existente déjà.
 #               
 #              curl -XPUT $ES_HOST/ul-*/_settings -d '{ "index.refresh_interval" : "-1" }'
 #              curl -XPUT $ES_HOST/ul-*/_settings -d '{ "index.number_of_replicas" : "0" }'
 #
 #           2. Pour les futurs index avec le template «ul-bulk-import».
 #              Très bonne stratégie à adopter avant même de procéder à la copie.
 #
 #              curl -XPUT $ES_HOST/_template/ul-bulk-import -d @ul-bulk-import.json
 #
 #       3. Procéder à la copie.
 #          Bien sûr, ajuster le fichier de paramètre avant de lancer la commande.
 #
 #          LS_HEAP_SIZE="2048m" /opt/logstash/bin/logstash -w 2 -f copie-elasticsearch.conf
 #
 #       4. Optimiser les indexes à l'aide d'un «force merge» (optionnel).
 #
 #          curl -XPOST $ES_HOST/ul-*/_forcemerge?max_num_segments=5
 #           
 #       5. Supprimer le template «ul-bulk-import».
 #
 #          curl -XDELETE $ES_HOST/_template/ul-bulk-import
 #
 #       6. Réactiver les rafraichissement et/ou les replicas selon ce qui est désiré dans 
 #          l'environnement de destination.
 #
 #          curl -XPUT $ES_HOST/ul-*/_settings -d '{ "index.refresh_interval" : "15s" }'
 #          curl -XPUT $ES_HOST/ul-*/_settings -d '{ "index.number_of_replicas" : "1" }'
 #
 #   TODO:
 #       - Il serait peut-être bien de regarder le paramètre index.translog.flush_threshold_size et voir
 #         si cela peut avoir un impact sur les performances d'import masssif.
 #           
 #         https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-translog.html
 #

 ###############################################################################
 #
 #   Entrée à partir d'Elasticsearch
 #
 #   Pour un plus grand parralélisme, plusieurs blocs d'entrée avec des patterns différents peuvent
 #   être utilisés.
 #
 #   Documentation: https://www.elastic.co/guide/en/logstash/current/plugins-inputs-elasticsearch.html
 #

 input {

    elasticsearch {
    
        # Éviter de spécifier le «master node».
        # De préférence, spécifier des «client nodes» ou des «data nodes».
        
        hosts   => [ "localhost" ]
        index   => "ul-index1-2016.03.*"
        
        query   => '{"query": { "match_all": {} } }'  
        docinfo => true
        
        # Paramètres de performance      
        
        scan    => true
        size    => 1000     # Attention: nombre par shard
        scroll  => "5m"

    }
    
    #elasticsearch {
    #    
    #    hosts   => [ "localhost" ]
    #    index   => "ul-index2-2016.03.*"
    #    
    #    query   => '{"query": { "match_all": {} } }'  
    #    docinfo => true
    #    
    #    # Paramètres de performance      
    #    
    #    scan    => true
    #    size    => 1000     # Attention: par shard.
    #    scroll  => "5m"
    #
    #}    
 }

 ###############################################################################
 #
 #   Filtres
 #
 #   Généralement, lorsqu'on veut une copie complète et identique on ne spécifie
 #   pas de filtres qui altère les événements. Cependant, il est possible de
 #   copier qu'un sous-ensemble des événements en éliminant qu'une portion de
 #   ces derniers.
 #
 #   On ajoute aussi le filtre metrics permettant de visualiser la progression de
 #   la copie.
 #

 filter {

    #drop {
    #    percentage => 50
    #}
    
    #ruby {
    #    code => "event.cancel if rand <= 0.40"
    #}

    #if [property] == "value" {
    #    drop { }
    #}   
    
    # Permet d'empêcher la copie d'index débutant par un point.
    # Généralement : .kibana et .marvel.
    #
    #if [@metadata][_index] =~ /^\./ {
    #    drop { }
    #}   

    metrics {
        meter           => "events"
        add_tag         => "metric"
        flush_interval  => 10
    }    
 }

 ###############################################################################
 #
 #   Sortie vers Elasticsearch
 #
 #   Documentation: https://www.elastic.co/guide/en/logstash/current/plugins-outputs-elasticsearch.html
 #

 output {

    if "metric" in [tags] {

        stdout {        
            codec => line {
                format => "count: %{[events][count]} rate: %{[events][rate_1m]}"
            }
        }

    } else {
    
        elasticsearch {
        
            # Éviter de spécifier le «master node».
            # De préférence, spécifier des «client nodes» ou des «data nodes».    
        
            hosts           => [ "localhost" ]
            #index           => "copie.%{[@metadata][_index]}"
            index           => "%{[@metadata][_index]}"
            
            document_type   => "%{[@metadata][_type]}"
            document_id     => "%{[@metadata][_id]}"
            
            # Paramètres de performance
            
            flush_size      => 250
            idle_flush_time => 10
            workers         => 4
        }    
    }
 }
	#
	# Ce fichier de configuration Logstash permet d'effectuer la copie d'index soit:
	# - à l'intérieur d'un même cluster Elasticsearch
	# - entre différents clusters Elasticsearch
	#
	# Utile dans le cas où nous voulons réindexer un index à l'aide de nouveaux mappings ou pour
	# dupliquer la production vers un autre environnement de tests.
	#
	# Pour invoquer la commande:
	# LS_HEAP_SIZE="2048m" /path/to/bin/logstash -w 2 -f copie-elasticsearch.conf
	#
	# Note: seulement les données sont copiées, pas les mappings associés.
	#
	# Afin d'accélérer au maximum la copie, il est conseillé de:
	# - désactiver les rafraîchissements (refresh_interval)
	# - désactiver les replicas
	#
	# Les étapes d'exploitation devraient donc être:
	#
	# 1. Spécifier l'adresse du serveur Elasticsearch utilisé:
	#
	# export ES_HOST="http://node.cluster.domain.com:9200"
	#
	# 2. Désactiver les rafraichissements et les replicas, soit:
	#
	# 1. Sur tous les index existants via l'API REST.
	# Peut être utile pendant une copie, alors que les index existente déjà.
	#
	# curl -XPUT $ES_HOST/ul-*/_settings -d '{ "index.refresh_interval" : "-1" }'
	# curl -XPUT $ES_HOST/ul-*/_settings -d '{ "index.number_of_replicas" : "0" }'
	#
	# 2. Pour les futurs index avec le template «ul-bulk-import».
	# Très bonne stratégie à adopter avant même de procéder à la copie.
	#
	# curl -XPUT $ES_HOST/_template/ul-bulk-import -d @ul-bulk-import.json
	#
	# 3. Procéder à la copie.
	# Bien sûr, ajuster le fichier de paramètre avant de lancer la commande.
	#
	# LS_HEAP_SIZE="2048m" /opt/logstash/bin/logstash -w 2 -f copie-elasticsearch.conf
	#
	# 4. Optimiser les indexes à l'aide d'un «force merge» (optionnel).
	#
	# curl -XPOST $ES_HOST/ul-*/_forcemerge?max_num_segments=5
	#
	# 5. Supprimer le template «ul-bulk-import».
	#
	# curl -XDELETE $ES_HOST/_template/ul-bulk-import
	#
	# 6. Réactiver les rafraichissement et/ou les replicas selon ce qui est désiré dans
	# l'environnement de destination.
	#
	# curl -XPUT $ES_HOST/ul-*/_settings -d '{ "index.refresh_interval" : "15s" }'
	# curl -XPUT $ES_HOST/ul-*/_settings -d '{ "index.number_of_replicas" : "1" }'
	#
	# TODO:
	# - Il serait peut-être bien de regarder le paramètre index.translog.flush_threshold_size et voir
	# si cela peut avoir un impact sur les performances d'import masssif.
	#
	# https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-translog.html
	#

	###############################################################################
	#
	# Entrée à partir d'Elasticsearch
	#
	# Pour un plus grand parralélisme, plusieurs blocs d'entrée avec des patterns différents peuvent
	# être utilisés.
	#
	# Documentation: https://www.elastic.co/guide/en/logstash/current/plugins-inputs-elasticsearch.html
	#

	input {

	elasticsearch {

	# Éviter de spécifier le «master node».
	# De préférence, spécifier des «client nodes» ou des «data nodes».

	hosts => [ "localhost" ]
	index => "ul-index1-2016.03.*"

	query => '{"query": { "match_all": {} } }'
	docinfo => true

	# Paramètres de performance

	scan => true
	size => 1000 # Attention: nombre par shard
	scroll => "5m"

	}

	#elasticsearch {
	#
	# hosts => [ "localhost" ]
	# index => "ul-index2-2016.03.*"
	#
	# query => '{"query": { "match_all": {} } }'
	# docinfo => true
	#
	# # Paramètres de performance
	#
	# scan => true
	# size => 1000 # Attention: par shard.
	# scroll => "5m"
	#
	#}
	}

	###############################################################################
	#
	# Filtres
	#
	# Généralement, lorsqu'on veut une copie complète et identique on ne spécifie
	# pas de filtres qui altère les événements. Cependant, il est possible de
	# copier qu'un sous-ensemble des événements en éliminant qu'une portion de
	# ces derniers.
	#
	# On ajoute aussi le filtre metrics permettant de visualiser la progression de
	# la copie.
	#

	filter {

	#drop {
	# percentage => 50
	#}

	#ruby {
	# code => "event.cancel if rand <= 0.40"
	#}

	#if [property] == "value" {
	# drop { }
	#}

	# Permet d'empêcher la copie d'index débutant par un point.
	# Généralement : .kibana et .marvel.
	#
	#if [@metadata][_index] =~ /^\./ {
	# drop { }
	#}

	metrics {
	meter => "events"
	add_tag => "metric"
	flush_interval => 10
	}
	}

	###############################################################################
	#
	# Sortie vers Elasticsearch
	#
	# Documentation: https://www.elastic.co/guide/en/logstash/current/plugins-outputs-elasticsearch.html
	#

	output {

	if "metric" in [tags] {

	stdout {
	codec => line {
	format => "count: %{[events][count]} rate: %{[events][rate_1m]}"
	}
	}

	} else {

	elasticsearch {

	# Éviter de spécifier le «master node».
	# De préférence, spécifier des «client nodes» ou des «data nodes».

	hosts => [ "localhost" ]
	#index => "copie.%{[@metadata][_index]}"
	index => "%{[@metadata][_index]}"

	document_type => "%{[@metadata][_type]}"
	document_id => "%{[@metadata][_id]}"

	# Paramètres de performance

	flush_size => 250
	idle_flush_time => 10
	workers => 4
	}
	}
	}