kube-scheduler 配置 (v1)

资源类型

ClientConnectionConfiguration

出现在:

ClientConnectionConfiguration 中包含用来构造客户端所需的细节。

字段描述
kubeconfig [必需]
string

kubeconfig 字段为指向 KubeConfig 文件的路径。

acceptContentTypes [必需]
string

acceptContentTypes 定义的是客户端与服务器建立连接时要发送的 Accept 头部, 这里的设置值会覆盖默认值 “application/json”。此字段会影响某特定客户端与服务器的所有连接。

contentType [必需]
string

contentType 包含的是此客户端向服务器发送数据时使用的内容类型(Content Type)。

qps [必需]
float32

qps 控制此连接允许的每秒查询次数。

burst [必需]
int32

burst 允许在客户端超出其速率限制时可以累积的额外查询个数。

DebuggingConfiguration

出现在:

DebuggingConfiguration 包含与调试功能相关的配置。

字段描述
enableProfiling [必需]
bool

enableProfiling 字段允许通过 Web 接口 host:port/debug/pprof/ 执行性能分析。

enableContentionProfiling [必需]
bool

enableContentionProfiling 字段在 enableProfiling 为 true 时启用阻塞分析。

LeaderElectionConfiguration

出现在:

LeaderElectionConfiguration 为能够支持领导者选举的组件定义其领导者选举客户端的配置。

字段描述
leaderElect [必需]
bool

leaderElect 允许领导者选举客户端在进入主循环执行之前先获得领导者角色。 运行多副本组件时启用此功能有助于提高可用性。

leaseDuration [必需]
meta/v1.Duration

leaseDuration 是非领导角色候选者在观察到需要领导席位更新时要等待的时间; 只有经过所设置时长才可以尝试去获得一个仍处于领导状态但需要被刷新的席位。 这里的设置值本质上意味着某个领导者在被另一个候选者替换掉之前可以停止运行的最长时长。 只有当启用了领导者选举时此字段有意义。

renewDeadline [必需]
meta/v1.Duration

renewDeadline 设置的是当前领导者在停止扮演领导角色之前需要刷新领导状态的时间间隔。 此值必须小于或等于租约期限的长度。只有到启用了领导者选举时此字段才有意义。

retryPeriod [Required[必需]
meta/v1.Duration

retryPeriod 是客户端在连续两次尝试获得或者刷新领导状态之间需要等待的时长。 只有当启用了领导者选举时此字段才有意义。

resourceLock [必需]
string

resourceLock 字段给出在领导者选举期间要作为锁来使用的资源对象类型。

resourceName [必需]
string

resourceName 字段给出在领导者选举期间要作为锁来使用的资源对象名称。

resourceNamespace [必需]
string

resourceNamespace 字段给出在领导者选举期间要作为锁来使用的资源对象所在名字空间。

DefaultPreemptionArgs

DefaultPreemptionArgs 包含用来配置 DefaultPreemption 插件的参数。

字段描述
apiVersion
string
kubescheduler.config.k8s.io/v1
kind
string
DefaultPreemptionArgs
minCandidateNodesPercentage [必需]
int32

minCandidateNodesPercentage 字段为试运行抢占时 shortlist 中候选节点数的下限, 数值为节点数的百分比。字段值必须介于 [0, 100] 之间。未指定时默认值为整个集群规模的 10%。

minCandidateNodesAbsolute [必需]
int32

minCandidateNodesAbsolute 字段设置 shortlist 中候选节点的绝对下限。 用于试运行抢占而列举的候选节点个数近似于通过下面的公式计算的:
候选节点数 = max(节点数 * minCandidateNodesPercentage, minCandidateNodesAbsolute)
之所以说是”近似于”是因为存在一些类似于 PDB 违例这种因素, 会影响到进入 shortlist 中候选节点的个数。 取值至少为 0 节点。若未设置默认为 100 节点。

InterPodAffinityArgs

InterPodAffinityArgs 包含用来配置 InterPodAffinity 插件的参数。

字段描述
apiVersion
string
kubescheduler.config.k8s.io/v1
kind
string
InterPodAffinityArgs
hardPodAffinityWeight [必需]
int32

hardPodAffinityWeight 字段是一个计分权重值。针对新增的 Pod,要对现存的、 带有与新 Pod 匹配的硬性亲和性设置的 Pods 计算亲和性得分。

ignorePreferredTermsOfExistingPods [必需]
bool

ignorePreferredTermsOfExistingPods 配置调度器在为候选节点评分时忽略现有 Pod 的优选亲和性规则, 除非传入的 Pod 具有 Pod 间的亲和性。

KubeSchedulerConfiguration

KubeSchedulerConfiguration 用来配置调度器。

字段描述
apiVersion
string
kubescheduler.config.k8s.io/v1
kind
string
KubeSchedulerConfiguration
parallelism [必需]
int32

parallelism 字段设置为调度 Pod 而执行算法时的并发度。此值必须大于 0。默认值为 16。

leaderElection [必需]
LeaderElectionConfiguration

LeaderElection 字段用来定义领导者选举客户端的配置。

clientConnection [必需]
ClientConnectionConfiguration

clientConnection 字段为与 API 服务器通信时使用的代理服务器设置 kubeconfig 文件和客户端连接配置。

DebuggingConfiguration [必需]
DebuggingConfiguration
DebuggingConfiguration 的成员被内嵌到此类型中)

DebuggingConfiguration 字段设置与调试相关功能特性的配置。 TODO:我们可能想把它做成一个子结构,像调试 component-base/config/v1alpha1.DebuggingConfiguration 一样。

percentageOfNodesToScore [必需]
int32

percentageOfNodesToScore 字段为所有节点的百分比,一旦调度器找到所设置比例的、能够运行 Pod 的节点, 则停止在集群中继续寻找更合适的节点。这一配置有助于提高调度器的性能。 调度器总会尝试寻找至少 “minFeasibleNodesToFind” 个可行节点,无论此字段的取值如何。 例如:当集群规模为 500 个节点,而此字段的取值为 30, 则调度器在找到 150 个合适的节点后会停止继续寻找合适的节点。当此值为 0 时, 调度器会使用默认节点数百分比(基于集群规模确定的值,在 5% 到 50% 之间)来执行打分操作。 它可被配置文件级别的 PercentageOfNodesToScore 覆盖。

podInitialBackoffSeconds [必需]
int64

podInitialBackoffSeconds 字段设置不可调度 Pod 的初始回退秒数。 如果设置了此字段,其取值必须大于零。若此值为 null,则使用默认值(1s)。

podMaxBackoffSeconds [必需]
int64

podMaxBackoffSeconds 字段设置不可调度的 Pod 的最大回退秒数。 如果设置了此字段,则其值必须大于 podInitialBackoffSeconds 字段值。 如果此值设置为 null,则使用默认值(10s)。

profiles [必需]
[]KubeSchedulerProfile

profiles 字段为 kube-scheduler 所支持的方案(profiles)。 Pod 可以通过设置其对应的调度器名称来选择使用特定的方案。 未指定调度器名称的 Pod 会使用 “default-scheduler” 方案来调度,如果存在的话。

extenders [必需]
[]Extender

extenders 字段为调度器扩展模块(Extender)的列表,每个元素包含如何与某扩展模块通信的配置信息。 所有调度器方案会共享此扩展模块列表。

delayCacheUntilActive [Required]
bool

DelayCacheUntilActive 指定何时开始缓存。如果字段设置为 true 并且启用了领导者选举, 则调度程序将等待填充通知者缓存,直到它成为领导者,这样做会减慢故障转移速度, 并在等待成为领导者时降低内存开销。 默认为 false。

NodeAffinityArgs

NodeAffinityArgs 中包含配置 NodeAffinity 插件的参数。

字段描述
apiVersion
string
kubescheduler.config.k8s.io/v1
kind
string
NodeAffinityArgs
addedAffinity
core/v1.NodeAffinity

addedAffinity 会作为附加的亲和性属性添加到所有 Pod 的规约中指定的 NodeAffinity 中。 换言之,节点需要同时满足 addedAffinity 和 .spec.nodeAffinity。 默认情况下,addedAffinity 为空(与所有节点匹配)。使用了 addedAffinity 时, 某些带有已经能够与某特定节点匹配的亲和性需求的 Pod (例如 DaemonSet Pod)可能会继续呈现不可调度状态。

NodeResourcesBalancedAllocationArgs

NodeResourcesBalancedAllocationArgs 包含用来配置 NodeResourcesBalancedAllocation 插件的参数。

字段描述
apiVersion
string
kubescheduler.config.k8s.io/v1
kind
string
NodeResourcesBalancedAllocationArgs
resources [必需]
[]ResourceSpec

要管理的资源;如果未设置,则默认值为 “cpu” 和 “memory”。

NodeResourcesFitArgs

NodeResourcesFitArgs 包含用来配置 NodeResourcesFit 插件的参数。

字段描述
apiVersion
string
kubescheduler.config.k8s.io/v1
kind
string
NodeResourcesFitArgs
ignoredResources [必需]
[]string

ignoredResources 字段为 NodeResources 匹配过滤器要忽略的资源列表。此列表不影响节点打分。

ignoredResourceGroups [必需]
[]string

ignoredResourceGroups 字段定义 NodeResources 匹配过滤器要忽略的资源组列表。 例如,如果配置值为 [“example.com”], 则以 “example.com” 开头的资源名 (如”example.com/aaa” 和 “example.com/bbb”)都会被忽略。 资源组名称中不可以包含 ‘/‘。此设置不影响节点的打分。

scoringStrategy [必需]
ScoringStrategy

scoringStrategy 用来选择节点资源打分策略。默认的策略为 LeastAllocated, 且 “cpu” 和 “memory” 的权重相同。

PodTopologySpreadArgs

PodTopologySpreadArgs 包含用来配置 PodTopologySpread 插件的参数。

字段描述
apiVersion
string
kubescheduler.config.k8s.io/v1
kind
string
PodTopologySpreadArgs
defaultConstraints
[]core/v1.TopologySpreadConstraint

defaultConstraints 字段针对未定义 .spec.topologySpreadConstraints 的 Pod, 为其提供拓扑分布约束。.defaultConstraints[∗].labelSelectors必须为空, 因为这一信息要从 Pod 所属的 Service、ReplicationController、ReplicaSet 或 StatefulSet 来推导。 此字段不为空时,.defaultingType 必须为 “List”。

defaultingType
PodTopologySpreadConstraintsDefaulting

defaultingType 决定如何推导 .defaultConstraints。 可选值为 “System” 或 “List”。

  • “System”:使用 Kubernetes 定义的约束,将 Pod 分布到不同节点和可用区;
  • “List”:使用 .defaultConstraints 中定义的约束。

默认值为 “System”。

VolumeBindingArgs

VolumeBindingArgs 包含用来配置 VolumeBinding 插件的参数。

字段描述
apiVersion
string
kubescheduler.config.k8s.io/v1
kind
string
VolumeBindingArgs
bindTimeoutSeconds [必需]
int64

bindTimeoutSeconds 字段设置卷绑定操作的超时秒数。字段值必须是非负数。 取值为 0 意味着不等待。如果此值为 null,则使用默认值(600)。

shape
[]UtilizationShapePoint

shape 用来设置打分函数曲线所使用的计分点, 这些计分点用来基于静态制备的 PV 卷的利用率为节点打分。 卷的利用率是计算得来的, 将 Pod 所请求的总的存储空间大小除以每个节点上可用的总的卷容量。 每个计分点包含利用率(范围从 0 到 100)和其对应的得分(范围从 0 到 10)。 你可以通过为不同的使用率值设置不同的得分来反转优先级:

默认的曲线计分点为:

  1. 利用率为 0 时得分为 0;
  2. 利用率为 100 时得分为 10。

所有计分点必须按利用率值的升序来排序。

Extender

出现在:

Extender 包含与扩展模块(Extender)通信所用的参数。 如果未指定 verb 或者 verb 为空,则假定对应的扩展模块选择不提供该扩展功能。

字段描述
urlPrefix [必需]
string

用来访问扩展模块的 URL 前缀。

filterVerb [必需]
string

filter 调用所使用的动词,如果不支持过滤操作则为空。 此动词会在向扩展模块发送 filter 调用时追加到 urlPrefix 后面。

preemptVerb [必需]
string

preempt 调用所使用的动词,如果不支持 preempt 操作则为空。 此动词会在向扩展模块发送 preempt 调用时追加到 urlPrefix 后面。

prioritizeVerb [必需]
string

prioritize 调用所使用的动词,如果不支持 prioritize 操作则为空。 此动词会在向扩展模块发送 prioritize 调用时追加到 urlPrefix 后面。

weight [必需]
int64

针对 prioritize 调用所生成的节点分数要使用的数值系数。 weight 值必须是正整数。

bindVerb [必需]
string

bind 调用所使用的动词,如果不支持 bind 操作则为空。 此动词会在向扩展模块发送 bind 调用时追加到 urlPrefix 后面。 如果扩展模块实现了此方法,扩展模块要负责将 Pod 绑定到 API 服务器。 只有一个扩展模块可以实现此函数。

enableHTTPS [必需]
bool

enableHTTPS 字段设置是否需要使用 HTTPS 来与扩展模块通信。

tlsConfig [Required]
ExtenderTLSConfig

tlsConfig 字段设置传输层安全性(TLS)配置。

httpTimeout [必需]
meta/v1.Duration

httpTimeout 给出扩展模块功能调用的超时值。filter 操作超时会导致 Pod 无法被调度。 prioritize 操作超时会被忽略, Kubernetes 或者其他扩展模块所给出的优先级值会被用来选择节点。

nodeCacheCapable [必需]
bool

nodeCacheCapable 指示扩展模块可以缓存节点信息,从而调度器应该发送关于可选节点的最少信息, 假定扩展模块已经缓存了集群中所有节点的全部详细信息。

managedResources
[]ExtenderManagedResource

managedResources 是一个由此扩展模块所管理的扩展资源的列表。

  • 如果某 Pod 请求了此列表中的至少一个扩展资源,则 Pod 会在 filter、 prioritize 和 bind (如果扩展模块可以执行绑定操作)阶段被发送到该扩展模块。
  • 如果某资源上设置了 ignoredByScheduler 为 true,则 kube-scheduler 会在断言阶段略过对该资源的检查。
ignorable [必需]
bool

ignorable 用来设置扩展模块是否是可忽略的。 换言之,当扩展模块返回错误或者完全不可达时,调度操作不应失败。

ExtenderManagedResource

出现在:

ExtenderManagedResource 描述某扩展模块所管理的扩展资源的参数。

字段描述
name [必需]
string

扩展资源的名称。

ignoredByScheduler [必需]
bool

ignoredByScheduler 标明 kube-scheduler 是否应在应用断言时忽略此资源。

ExtenderTLSConfig

出现在:

ExtenderTLSConfig 包含启用与扩展模块间 TLS 传输所需的配置参数。

字段描述
insecure [必需]
bool

访问服务器时不需要检查 TLS 证书。此配置仅针对测试用途。

serverName [必需]
string

serverName 会被发送到服务器端,作为 SNI 标志; 客户端会使用此设置来检查服务器证书。 如果 serverName 为空,则会使用联系服务器时所用的主机名。

certFile [必需]
string

服务器端所要求的 TLS 客户端证书认证。

keyFile [必需]
string

服务器端所要求的 TLS 客户端秘钥认证。

caFile [必需]
string

服务器端被信任的根证书。

certData [必需]
[]byte

certData 包含 PEM 编码的字节流(通常从某客户端证书文件读入)。 此字段优先级高于 certFile 字段。

keyData [必需]
[]byte

keyData 包含 PEM 编码的字节流(通常从某客户端证书秘钥文件读入)。 此字段优先级高于 keyFile 字段。

caData [必需]
[]byte

caData 包含 PEM 编码的字节流(通常从某根证书包文件读入)。 此字段优先级高于 caFile 字段。

KubeSchedulerProfile

出现在:

KubeSchedulerProfile 是一个调度方案。

字段描述
schedulerName [必需]
string

schedulerName 是与此调度方案相关联的调度器的名称。 如果 schedulerName 与 Pod 的 spec.schedulerName 匹配, 则该 Pod 会使用此方案来调度。

percentageOfNodesToScore [必需]
int32

percentageOfNodesToScore 是已发现可运行 Pod 的节点与所有节点的百分比, 调度器所发现的可行节点到达此阈值时,将停止在集群中继续搜索可行节点。 这有助于提高调度器的性能。无论此标志的值是多少,调度器总是尝试至少找到 “minFeasibleNodesToFind” 个可行的节点。 例如:如果集群大小为 500 个节点并且此标志的值为 30,则调度器在找到 150 个可行节点后将停止寻找更多可行的节点。 当值为 0 时,默认百分比(根据集群大小为 5% - 50%)的节点将被评分。此设置值将覆盖全局的 PercentageOfNodesToScore 值。 如果为空,将使用全局 PercentageOfNodesToScore。

plugins [必需]
Plugins

plugins 设置一组应该被启用或禁止的插件。 被启用的插件是指除了默认插件之外需要被启用的插件。 被禁止的插件是指需要被禁用的默认插件。

如果针对某个扩展点没有设置被启用或被禁止的插件, 则使用该扩展点的默认插件(如果有的话)。如果设置了 QueueSort 插件, 则同一个 QueueSort 插件和 pluginConfig 要被设置到所有调度方案之上。

pluginConfig [必需]
[]PluginConfig

pluginConfig 是为每个插件提供的一组可选的定制插件参数。 如果忽略了插件的配置参数,则意味着使用该插件的默认配置。

Plugin

出现在:

Plugin 指定插件的名称及其权重(如果适用的话)。权重仅用于评分(Score)插件。

字段描述
name [必需]
string

插件的名称。

weight [必需]
int32

插件的权重;仅适用于评分(Score)插件。

PluginConfig

出现在:

PluginConfig 给出初始化阶段要传递给插件的参数。 在多个扩展点被调用的插件仅会被初始化一次。 参数可以是任意结构。插件负责处理这里所传的参数。

字段描述
name [必需]
string

name 是所配置的插件的名称。

args [必需]
k8s.io/apimachinery/pkg/runtime.RawExtension

args 定义在初始化阶段要传递给插件的参数。参数可以为任意结构。

PluginSet

出现在:

PluginSet 为某扩展点设置要启用或禁用的插件。 如果数组为空,或者取值为 null,则使用该扩展点的默认插件集合。

字段描述
enabled [必需]
[]Plugin

enabled 设置在默认插件之外要启用的插件。 如果在调度器的配置文件中也配置了默认插件,则对应插件的权重会被覆盖。 此处所设置的插件会在默认插件之后被调用,调用顺序与数组中元素顺序相同。

disabled [必需]
[]Plugin

disabled 设置要被禁用的默认插件。 如果需要禁用所有的默认插件,应该提供仅包含一个元素 “∗” 的数组。

Plugins

出现在:

Plugins 结构中包含多个扩展点。当此结构被设置时, 针对特定扩展点所启用的所有插件都在这一列表中。 如果配置中不包含某个扩展点,则使用该扩展点的默认插件集合。 被启用的插件的调用顺序与这里指定的顺序相同,都在默认插件之后调用。 如果它们需要在默认插件之前调用,则需要先行禁止默认插件, 之后在这里按期望的顺序重新启用。

字段描述
preEnqueue [必需]
PluginSet

preEnqueue 是在将 Pod 添加到调度队列之前应调用的插件的列表。

queueSort [必需]
PluginSet

queueSort 是一个在对调度队列中 Pod 排序时要调用的插件列表。

preFilter [必需]
PluginSet

preFilter 是一个在调度框架中 “PreFilter(预过滤)”扩展点上要调用的插件列表。

filter [必需]
PluginSet

filter 是一个在需要过滤掉无法运行 Pod 的节点时被调用的插件列表。

postFilter [必需]
PluginSet

postFilter 是一个在过滤阶段结束后会被调用的插件列表; 这里的插件只有在找不到合适的节点来运行 Pod 时才会被调用。

preScore [必需]
PluginSet

preScore 是一个在打分之前要调用的插件列表。

score [必需]
PluginSet

score 是一个在对已经通过过滤阶段的节点进行排序时调用的插件的列表。

reserve [必需]
PluginSet

reserve 是一组在运行 Pod 的节点已被选定后,需要预留或者释放资源时调用的插件的列表。

permit [必需]
PluginSet

permit 是一个用来控制 Pod 绑定关系的插件列表。 这些插件可以禁止或者延迟 Pod 的绑定。

preBind [必需]
PluginSet

preBind 是一个在 Pod 被绑定到某节点之前要被调用的插件的列表。

bind [必需]
PluginSet

bind 是一个在调度框架中 “Bind(绑定)”扩展点上要调用的插件的列表。 调度器按顺序调用这些插件。只要其中某个插件返回成功,则调度器就略过余下的插件。

postBind [必需]
PluginSet

postBind 是一个在 Pod 已经被成功绑定之后要调用的插件的列表。

multiPoint [必需]
PluginSet

multiPoint 是一个简化的配置段落,用来为所有合法的扩展点启用插件。 通过 multiPoint 启用的插件会自动注册到插件所实现的每个独立的扩展点上。 通过 multiPoint 禁用的插件会禁用对应的操作行为。 通过 multiPoint 所禁止的 “∗” 也是如此,意味着所有默认插件都不会被自动注册。 插件也可以通过各个独立的扩展点来禁用。

就优先序而言,插件配置遵从以下基本层次:

  1. 特定的扩展点;
  2. 显式配置的 multiPoint 插件;
  3. 默认插件的集合,以及 multiPoint 插件。

这意味着优先序较高的插件会先被运行,并且覆盖 multiPoint 中的任何配置。

用户显式配置的插件也会比默认插件优先序高。

在这样的层次结构设计之下,enabled 的优先序高于 disabled。 例如,某插件同时出现在 multiPoint.enabledmultiPoint.disalbed 时, 该插件会被启用。类似的, 同时设置 multiPoint.disabled = ‘∗’multiPoint.enabled = pluginA 时, 插件 pluginA 仍然会被注册。这一设计与所有其他扩展点的配置行为是相符的。

PodTopologySpreadConstraintsDefaulting

string 类型的别名)

出现在:

PodTopologySpreadConstraintsDefaulting 定义如何为 PodTopologySpread 插件设置默认的约束。

RequestedToCapacityRatioParam

出现在:

RequestedToCapacityRatioParam 结构定义 RequestedToCapacityRatio 的参数。

字段描述
shape [必需]
[]UtilizationShapePoint

shape 是一个定义评分函数曲线的计分点的列表。

ResourceSpec

出现在:

ResourceSpec 用来代表某个资源。

字段描述
name [必需]
string

资源名称。

weight [必需]
int64

资源权重。

ScoringStrategy

出现在:

ScoringStrategy 为节点资源插件定义 ScoringStrategyType。

字段描述
type [必需]
ScoringStrategyType

type 用来选择要运行的策略。

resources [必需]
[]ResourceSpec

resources 设置在评分时要考虑的资源。

默认的资源集合包含 “cpu” 和 “memory”,且二者权重相同。

权重的取值范围为 1 到 100。

当权重未设置或者显式设置为 0 时,意味着使用默认值 1。

requestedToCapacityRatio [必需]
RequestedToCapacityRatioParam

特定于 RequestedToCapacityRatio 策略的参数。

ScoringStrategyType

string 数据类型的别名)

出现在:

ScoringStrategyType 是 NodeResourcesFit 插件所使用的的评分策略类型。

UtilizationShapePoint

出现在:

UtilizationShapePoint 代表的是优先级函数曲线中的一个评分点。

字段描述
utilization [必需]
int32

利用率(x 轴)。合法值为 0 到 100。完全被利用的节点映射到 100。

score [必需]
int32

score 分配给指定利用率的分值(y 轴)。合法值为 0 到 10。