最近一周一直在查 calico SDN 挂掉的问题, 过程十分艰辛, 回头想了想觉得可以好好反思一下.
太沉迷使用各种工具, 倒不是坏事, 只不过性价比太低了.
在开始怀疑 是自己 restart 服务导致的
之后, 就应该立刻开始进行集群的复刻和复现测试:
- 复刻: 完全相同的机器上, 使用完全相同的配置(除了端口和落盘目录等), 启动几乎等价的集群, 导入完全相同的数据
- 简化: 完全复刻客户端需要启动
calico-felix
, 想到一台机器部署两个 felix 是需要技巧的, 不如先简单尝试一下 etcdctl 能否复现, 因为成本低, 就算不能也能快速回到正确的轨道进行完全复刻