使用 Chaos Mesh 创建物理机故障

使用 Chaos Mesh 创建物理机故障

本文档介绍如何在 Chaos Mesh 中创建 PhysicalMachineChaos 混沌实验，以模拟物理机或虚拟机中的网络、磁盘、压力、JVM、时间等故障。

PhysicalMachineChaos 介绍

PhysicalMachineChaos 用于在物理机或虚拟机中模拟网络、磁盘、压力、JVM、时间等故障。在使用 Chaos Mesh 的 PhysicalMachineChaos 功能之前，你需要在物理机或虚拟机上部署 Chaosd。Chaos Mesh 与 Chaosd 的版本对应关系如下：

Chaos Mesh 版本	Chaosd 版本
v2.1.x	v1.1.x
v2.2.x	v1.2.x

运行 Chaosd Server

在使用 Chaos Mesh 创建 PhysicalMachineChaos 混沌实验前，你需要在待注入故障的所有物理机或虚拟机中部署服务模式的 Chaosd。部署 Chaosd 后运行 Chaosd Server 的方式如下：

部署 Chaosd 后，生成 TLS 证书，并创建 PhysicalMachine：

有关部署的具体方法，请参考 Chaosd 的下载和部署。
完成部署后，在运行 Chaosd Server 前，需要先生成 TLS 证书，并在 Kubernetes 集群内创建 PhysicalMachine。有关 TLS 证书的生成方式，请参考 Chaosctl 为 Chaosd 生成证书。

运行 Chaosd：

使用 Chaosctl 生成了 TSL 证书文件后，可以运行以下命令，启动服务模式的 Chaosd：
```
chaosd server --https-port 31768 --CA=/etc/chaosd/pki/ca.crt --cert=/etc/chaosd/pki/chaosd.crt --key=/etc/chaosd/pki/chaosd.key
```
注意

使用 Chaosctl 生成的 TLS 证书文件的保存路径为 Chaosctl 的默认输出路径。如果在生成证书时手动指定了其他路径，请手动将命令中的路径替换为对应的文件路径。
如果没有通过 Chaosctl 配置 TLS 证书，可以运行以下命令，启动服务模式的 Chaosd。但考虑到集群的安全性，不推荐使用这个方式：
```
chaosd server --port 31767
```

使用 Dashboard 方式创建实验

打开 Chaos Dashboard 面板，单击实验页面中的新的实验按钮创建实验：
在实验类型处选择物理，然后选择具体实验类型，例如网络攻击。然后选择具体的行为，最后再填写相应的配置：
填写实验信息，指定实验范围以及实验计划运行时间：
提交实验。

使用 YAML 方式创建实验

将实验配置写入到文件 physicalmachine.yaml 中，写入内容的示例如下：

apiVersion: chaos-mesh.org/v1alpha1
kind: PhysicalMachineChaos
metadata:
  name: physical-network-delay
  namespace: chaos-mesh
spec:
  action: network-delay
  mode: one
  selector:
    namespaces:
      - default
    labelSelectors:
      'arch': 'amd64'
  network-delay:
    device: ens33
    ip-address: 140.82.112.3
    latency: 1000ms
  duration: '10m'

该实验配置向指定物理机或虚拟机中的 Chaosd 服务发送 HTTP 请求，触发网络延迟实验。

使用 kubectl 创建实验，命令如下：
```
kubectl apply -f physicalmachine.yaml
```

配置说明

参数	类型	说明	默认值	是否必填	示例
`action`	string	定义物理机故障的行为，可选值为 `stress-cpu`, `stress-mem`, `disk-read-payload`, `disk-write-payload`, `disk-fill`, `network-corrupt`, `network-duplicate`, `network-loss`, `network-delay`, `network-partition`, `network-dns`, `process`, `jvm-exception`, `jvm-gc`, `jvm-latency`, `jvm-return`, `jvm-stress`, `jvm-rule-data`, `clock`	无	是	`stress-cpu`
`address`	string 数组	选择注入故障的 Chaosd 服务地址，`address` 与 `selector` 两者只能选择其中一项	[]	是	[“192.168.0.10:31767”]
`selector`	struct	指定注入故障的目标 PhysicalMachine，详情请参考定义实验范围，`address` 与 `selector` 两者只能选择其中一项	无	否
`mode`	string	指定实验的运行方式，可选择的方式包括：`one`（表示随机选出一个符合条件的 PhysicalMachine）、`all`（表示选出所有符合条件的 PhysicalMachine）、`fixed`（表示选出指定数量且符合条件的 PhysicalMachine）、`fixed-percent`（表示选出占符合条件的 PhysicalMachine 中指定百分比的 PhysicalMachine）、`random-max-percent`（表示选出占符合条件的 PhysicalMachine 中不超过指定百分比的 PhysicalMachine）	无	是	`one`
`value`	string	取决与 `mode` 的配置，为 `mode` 提供对应的参数。例如，当你将 `mode` 配置为 `fixed-percent` 时，`value` 用于指定 PhysicalMachine 的百分比	无	否	`1`
`duration`	string	指定实验的持续时间	无	是	`30s`

每种故障行为都有特定的配置。以下部分介绍各种故障类型以及对应的配置方法。

CPU 压力

模拟 CPU 压力场景，将 action 设置为 “stress-cpu”，对应的配置可参考模拟 CPU 压力相关参数说明。

内存压力

模拟内存压力场景，将 action 设置为 “stress-mem”，对应的配置可参考模拟内存压力相关参数说明。

磁盘读负载

模拟磁盘读负载，将 action 设置为 “disk-read-payload”，对应的配置可参考模拟磁盘读负载相关参数说明。

磁盘写负载

模拟磁盘读负载，将 action 设置为 “disk-write-payload”，对应的配置可参考模拟磁盘写负载相关参数说明。

磁盘填充

模拟磁盘填充，将 action 设置为 “disk-fill”，对应的配置可参考模拟磁盘填充相关参数说明。

网络包错误

模拟网络包错误，将 action 设置为 “network-corrupt”，对应的配置可参考网络包错误相关参数说明。

网络包延迟

模拟网络包延迟，将 action 设置为 “network-delay”，对应的配置可参考网络包延迟相关参数说明。

网络包重复

模拟网络包重复，将 action 设置为 “network-duplicate”，对应的配置可参考网络包重复相关参数说明。

网络包丢失

模拟网络包丢失，将 action 设置为 “network-loss”，对应的配置可参考网络包丢失相关参数说明。

网络分区

模拟网络分区，将 action 设置为 “network-partition”，对应的配置可参考网络分区相关参数说明。

DNS 故障

模拟 DNS 故障，将 action 设置为 “network-dns”，对应的配置可参考 DNS 故障相关参数说明。

进程故障

模拟进程故障，将 action 设置为 “process”，对应的配置可参考进程故障相关参数说明。

JVM 应用抛出自定义异常

模拟 JVM 应用抛出自定义异常，将 action 设置为 “jvm-exception”，对应的配置可参考抛出自定义异常相关参数说明。

JVM 应用增加方法延迟

模拟 JVM 应用增加方法延迟，将 action 设置为 “jvm-latency”，对应的配置可参考增加方法延迟相关参数说明。

JVM 应用修改方法返回值

模拟 JVM 应用修改方法返回值，将 action 设置为 “jvm-return”，对应的配置可参考修改方法返回值相关参数说明。

JVM 应用触发垃圾回收

模拟 JVM 应用触发垃圾回收，将 action 设置为 “jvm-gc”，对应的配置可参考触发垃圾回收相关参数说明。

JVM 应用使用 Byteman 配置文件触发故障

JVM 应用使用 Byteman 配置触发故障，将 action 设置为 “jvm-rule-data”，对应的配置可参考设置 Byteman 配置触发故障相关参数说明。

时间偏移

模拟时间偏移故障，将 action 设置为 “clock”，对应的配置可参考模拟时间故障相关参数说明。