tensorflow_serving以下にソースが配置されている
- core
- サーバコア部分
- Policy部分の設定はavailability_preserving_policy.hを見て欲しいとのこと
- batching
- バッチ処理
- g3doc
- ドキュメント
- servables
- 変数
- sources
- ファイルシステムとの接続
- tools
- ツール
- apis
- 提供API
- gRPCサーバの実装はprediction_service.protoにあるらしい
- config
- 設定ファイル群
- example
- 例
- model_servers
- サーバコア部分
- resources
- ??
- test_util
- テスト周り
- util
- 便利ツール
モデルのバージョンはディレクトリ構造を意識している。例えば/tmp/my_model/123となっている場合base_pathは/tmp/my_model,バージョンは123となる。 バッチを許容するときは--enable_batchingを有効にする
ここのmain関数でRunServerを実行してサーバを立ち上げる。 立ち上げるまでは以下のようなフローで実行する。
- portは8500を利用する
- バッチ機能は使わない
- プロセス毎にGPUメモリの負荷を行う
- use_saved_modelはデフォルトtrueになっている、動的にもモデルを読み込みやすそう?
- tensorflow_session_parallelismが0になっているときはthread poolを自動で設定する、チューニングポイントになりそう
- 引数設定を考える
- ポートの指定(port)
- バッチを利用するかどうかの指定(enable_batching)
- バッチ設定ファイル(batch_parameters_file)
- モデル設定ファイル(model_config_file)
- モデル名(model_name)
- モデルのベースパス(model_base_path)
- 新しいモデルバージョンを確認する間隔(file_system_poll_wait_seconds)
- ファイルシステムのキャッシュを最初にservableを読み込んだ後に削除する、これによってモデルサーバのキャッシュを減らすことができる(flush_filesystem_caches)
- 一つのtensorflow sessionで利用できるthreadの数を指定する,platform_config_fileが指定されているとそちらを優先する(platform_config_file)
- 1プロセスあたりのGPUメモリ利用率の調整を行う(per_process_gpu_memory_fraction)
- メタ情報として登録しているタグ名の指定ができる(saved_model_tags)
- grpc周りの設定を行う、例えばgrpc.max_connection_age_ms=2000(grpc_channel_arguments)
- デフォルトのモデル設定はBUildSingleModelConfigが呼ばれる
- tensorflow::serving::ModelConfigを新たに作ってモデル名とモデルのベースパスをセットする
- ModelConfigはproto形式で記述されておりconfig/model_server_config.protoの中に入っている
- 1: 名前
- 2: ベースパス
- 3: モデルタイプ -> deprecated to model_platform
- 4: モデルのプラットフォーム
- 5: 予約
- 6: ログ設定
- 7: モデルのバージョンポリシー
- カスタムできるのはログ設定とモデルのバージョンポリシーになりそう
- プラットフォームの設定ファイルを指定する
- バッチファイルの指定
- GPUのオプション指定、プロセスごとのメモリ制限
- 内部の並列スレッド設定
- 外部の並列スレッド設定
- オプションの設定
- カスタムモデル設定
- バージョンポリシー設定
- ファイルシステムの更新設定
- ファイルシステムのflushの設定
- 今までの設定周りは全てoptionsという変数に押し込まれる
- サーバ設定チェックをとおこなう
- RunServerでサーバを実行する
- ServerBuilderを利用してサーバ設定を行う
- アドレスとポートを設定して(AddListeningPort)
- モデルサービスを登録して(RegisterService(ModelServiceImpl))
- 推論サービスを登録して(RegisterService(PredictionServerImpl))
- マックスメッセージサイズを指定する
- Channel設定をして
- サーバを起動 -> Wait状態にする
この登録サービスを一つずつ見ていく
- GetModelStatusはgRPCのステータスをみるやつ
- HandleReloadConfigRequestは設定ファイルの動的読み替え
- 要はモデル管理するためのサービスの模様
- 推論サービス(grpc::Status Predict)
- モデルのメタデータ取得(grpc::Status GeteModelMetadata)
- 分類API(grpc::Status Classify)
- 回帰API(gprc::Status Regress)
- MultiInference...? 上記のサービスを呼び出すときはtensorflow::RunOptionsを共通的に呼び出している。 RunOptionはTensorFlowに依存している。
TensorFlow実行時のオプションをいろいろ指定できる。
- GPUオプション
- GPUのメモリプールの設定(per_process_gpu_memory_fraction): プロセスあたりのGPUメモリ利用量
- GPUメモリアロケート時の処理(allocator_type): default(システムデフォルト) or "BFC"アルゴリズム
- deferred_deletion_bytes
- GPUメモリ利用アプローチ(allow_growth): 最初から必要な分確保するのか少しずつ必要な分確保するようにするのか
- 物理GPUから仮想GPUへの紐付け(visible_device_list)
- ポーリング間隔(polling_active_delay_usecs): キューが空じゃない時に定期間隔で取得しに行くもの
- oポーリング間隔(polling_active_delay_usecs): キューが空の時に定期間隔で取得しに行くもの
- GPU強制サポート: CPU tensorで処理が終わらない時に強制的にGPUを使うようにしてしまうもの、大きすぎるモデルのみを対象とする
- 最適化オプション
- グラフ内の共通オプションを削除(do_common_subexpression_elimination)
- 定数の畳み込みを行うかどうか(do_constant_folding)
- グラフの中に関数を入れ込むかどうか(do_function_inlining)
- JITの設定レベル(GlobalJitLevel)
- グラフオプション
- 受信ノードの活性化するスケジューラとしてcontrol flowを利用するかどうか(enable_recv_scheduling)
- グラフ最適化オプション(optimizer_options)
- コストモデルのアップデートを行う間隔(build_cost_model)
- コストモデルの統計をとり始めるステップ数(build_cost_model_after)
- それぞれのOpに対しての出力Shapeを返すかどうか(inferred_shapes)
- デバックノード設定(place_pruned_graph)
- floatをbfloatとして扱うかどうか(enable_bfloat16_sendrecv)
- グラフを再描画するための量とタイプを管理する
- スレッドプールオプション
- スレッドプールの数
- RPCオプション
- クライアント-マスター間の通信をRPCを常に使うか最適化された手法を利用するか(use_rpc_for_inprocess_master)
- Session設定
- CPUやGPUを利用するデバイス数(device<name, 数>のmapで指定)
- 並列化できるオペレーションの並列化数(intra_op_parallelism_threads)
- 各プロセス内で並行して実行可能な並列オペレーション数(inter_op_parallelism_threads) => 要実装確認
- ダイレクトセッション上で利用されるセッション内で利用可能なプロセス数(use_per_session_threads)
- セッション内でバックグラウンドにある小さい限られたスレッドプールを利用したい時に確保するプール数(session_inter_op_thread_pool) => 要実装確認
- Nodeを物理デバイスにひもづける際に再計算する間隔(placement_period)
- 利用しないデバイスを指定(device_filters)
- GPUに対する共通設定(gpu_options)