Skip to content

Instantly share code, notes, and snippets.

@sioncojp
Created November 22, 2018 07:24
Show Gist options
  • Save sioncojp/57d672fff1a35f3a10dd12526d54afbb to your computer and use it in GitHub Desktop.
Save sioncojp/57d672fff1a35f3a10dd12526d54afbb to your computer and use it in GitHub Desktop.
# サーバ
* サーバの種類を全部把握していること
* ストレージ容量、見積もり
* N+2構成になっているか
* サーバを更新する方法
* リリースプロセスの確認
# ネットワーク
* ネットワークQoS: 帯域、輻輳/制御、保証、回避
* DNS負荷分散
* N+2
* HTTPトラフィックと帯域幅の見積もり、負荷テスト
# パフォーマンス
* 負荷テスト
* E2Eテスト
* 他サービスへの影響(内部サービスや、他社サービスのクロール頻度等)
# 信頼性とフェイルオーバー
* マシンの故障、ラックの故障、クラスタやインスタンスが死んだとき
* データセンター間、データセンターとaws間の障害
* サーバ、サービスが死ぬかを検出する方法の洗い出しと、死んだらどうなるか
* クライアントorユーザに影響を与えずに、サービス、サーバを終了させる方法
* ロードバランシング構成、rate制限、timeout, 再試行, エラー処理の動作
* データのバックアップ/リストア方法
* ディザスタリカバリ
# 監視
* internal監視(CPU, Process)
* external監視(ping, DNS)
* E2E監視
* アラートの管理と閾値
* 監視の監視(datadogが落ちてないかとか)
# セキュリティ
* セキュリティ設計レビュー
* セキュリティコード監査
* 認証、SSL
* アクセスコントロール
* ブラックリストをなくすこと
# サービス成長
* スケーラビリティによるボトルネックの洗い出し
* ハードウェア単位のスケーリング
* 物理サーバであればスペアの用意
* ネットワークケーブルの用意など
* キャッシング、データシャーディングによる再共有方法
# 外部依存関係
* サードパーティシステムの監視、トラフィックやスパイク調整
* 間違ってサードパーティシステムを落とさない方法
# スケジュール
* cronの把握
* 定期イベントの把握
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment