Kubernetes监控

用Grafana Cloud在几分钟内可视化和提醒您的Kubernetes集群。

为什么在Grafana Cloud中使用Kubernetes Monitoring

时间的价值

使用这个即用的监视工具,只需运行一些CLI命令,或向Helm图表添加一些小更改,就可以减少部署、设置和故障排除时间。

更快地找出根本原因

使用集群导航视图深入您的基础设施以识别和解决问题,而无需在不同窗口和监视工具之间切换的麻烦。

从Kubernetes集群向下钻取到Kubernetes pod

在一个UI中快速移动整个Kubernetes设置。只需点击几下,从集群视图开始,一直钻到特定的Kubernetes pods。

  • 高级监控提供了基础设施的可见性。
  • 用颜色编码的运行状况图像和图标可以更快地识别和解决问题。

自以为是的指标和警报

访问有效监视Kubernetes集群所需的kube状态度量和警报规则。

  • 一组精心策划的指标,以避免基数爆炸
  • 社区建立警报标准

即时普罗米修斯相关日志

Prometheus和Grafana Loki的共享元数据为您的Kubernetes集群保留了完全相同的标签,因此访问相关的Kubernetes指标和日志非常容易。

预配置的仪表盘

Grafana Cloud中的Kubernetes Monitoring提供了开箱即用的仪表板,涵盖Kubernetes集群及其工作负载。这些仪表板监控:

  • 资源使用情况
  • 集群操作

这很容易开始

有关完整的实现细节和最佳实践,请参见Kubernetes监控文档

1

报名

创建您的免费Grafana Cloud帐户

2

连接数据

只需单击几下,就可以为预构建的仪表板和警报规则设置默认配置。

3.

部署

数据将从您的集群流到Grafana Cloud。

Kubernetes度量和警报规则

Grafana Cloud中的Kubernetes Monitoring解决方案以60秒的抓取间隔摄取一组默认指标。警报规则集有助于为集群及其工作负载设置和运行警报。

阅读更多关于Kubernetes指标而且报警规则

主要指标包括

*可滚动
KubeNodeNotReady
KubeNodeUnreachable
KubeletTooManyPods
KubeNodeReadinessFlapping
KubeletPlegDurationHigh
KubeletPodStartUpLatencyHigh
KubeletClientCertificateExpiration
KubeletServerCertificateExpiration
KubeletClientCertificateRenewalErrors
KubeletServerCertificateRenewalErrors
KubeletDown
KubeVersionMismatch
KubeClientErrors
KubeCPUOvercommit
KubeMemoryOvercommit
KubeCPUQuotaOvercommit
KubeMemoryQuotaOvercommit
KubeQuotaAlmostFull
KubeQuotaFullyUsed
KubeQuotaExceeded
CPUThrottlingHigh
KubePodCrashLooping
KubePodNotRead
KubeDeploymentGenerationMismatch
KubeDeploymentReplicasMismatch
KubeStatefulSetReplicasMismatch
KubeStatefulSetGenerationMismatch
KubeStatefulSetUpdateNotRolledOut
KubeDaemonSetRolloutStuck
KubeContainerWaiting
KubeDaemonSetNotScheduled
KubeDaemonSetMisScheduled
KubeJobCompletion
KubeJobFailed
KubeHpaReplicasMismatch
KubeHpaMaxedOut

包括关键警报规则

*可滚动
集群:名称空间:pod_cpu:活跃:kube_pod_container_resource_limits
集群:名称空间:pod_cpu:活跃:kube_pod_container_resource_requests
集群:名称空间:pod_memory:活跃:kube_pod_container_resource_limits
集群:名称空间:pod_memory:活跃:kube_pod_container_resource_requests
container_cpu_cfs_periods_total
container_cpu_cfs_throttled_periods_total
container_cpu_usage_seconds_total
container_fs_reads_bytes_total
container_fs_reads_total
container_fs_writes_bytes_total
container_fs_writes_total
container_memory_cache
container_memory_rss
container_memory_swap
container_memory_working_set_bytes
container_network_receive_bytes_total
container_network_receive_packets_dropped_total
container_network_receive_packets_total
container_network_transmit_bytes_total
container_network_transmit_packets_dropped_total
container_network_transmit_packets_total
go_goroutines
kube_daemonset_status_current_number_scheduled
kube_daemonset_status_desired_number_scheduled
kube_daemonset_status_number_available
kube_daemonset_status_number_misscheduled
kube_daemonset_updated_number_scheduled
kube_deployment_metadata_generation
kube_deployment_spec_replicas
kube_deployment_status_observed_generation
kube_deployment_status_replicas_available
kube_deployment_status_replicas_updated
kube_horizontalpodautoscaler_spec_max_replicas
kube_horizontalpodautoscaler_spec_min_replicas
kube_horizontalpodautoscaler_status_current_replicas
kube_horizontalpodautoscaler_status_desired_replicas
kube_job_failed
kube_job_spec_completions
kube_job_status_succeeded
kube_namespace_created
kube_node_info
kube_node_spec_taint
kube_node_status_allocatable
kube_node_status_capacity
kube_node_status_condition
kube_pod_container_resource_limits
kube_pod_container_resource_requests
kube_pod_container_status_waiting_reason
kube_pod_info
kube_pod_owner
kube_pod_status_phase
kube_replicaset_owner
kube_resourcequota
kube_statefulset_metadata_generation
kube_statefulset_replicas
kube_statefulset_status_current_revision
kube_statefulset_status_observed_generation
kube_statefulset_status_replicas
kube_statefulset_status_replicas_ready
kube_statefulset_status_replicas_updated
kube_statefulset_status_update_revision
kubelet_certificate_manager_client_expiration_renew_errors
kubelet_certificate_manager_client_ttl_seconds
kubelet_certificate_manager_server_ttl_seconds
kubelet_cgroup_manager_duration_seconds_bucket
kubelet_cgroup_manager_duration_seconds_count
kubelet_node_config_error
kubelet_node_name
kubelet_pleg_relist_duration_seconds_bucket
kubelet_pleg_relist_duration_seconds_count
kubelet_pleg_relist_interval_seconds_bucket
kubelet_pod_start_duration_seconds_count
kubelet_pod_worker_duration_seconds_bucket
kubelet_pod_worker_duration_seconds_count
kubelet_running_container_count
kubelet_running_containers
kubelet_running_pod_count
kubelet_running_pods
kubelet_runtime_operations_duration_seconds_bucket
kubelet_runtime_operations_errors_total
kubelet_runtime_operations_total
kubelet_server_expiration_renew_errors
kubelet_volume_stats_available_bytes
kubelet_volume_stats_capacity_bytes
kubelet_volume_stats_inodes
kubelet_volume_stats_inodes_used
kubernetes_build_info
machine_memory_bytes
namespace_cpu: kube_pod_container_resource_limits:和
namespace_cpu: kube_pod_container_resource_requests:和
namespace_memory: kube_pod_container_resource_limits:和
namespace_memory: kube_pod_container_resource_requests:和
namespace_workload_pod
namespace_workload_pod: kube_pod_owner:标出
node_namespace_pod_container: container_cpu_usage_seconds_total: sum_irate
node_namespace_pod_container: container_memory_cache
node_namespace_pod_container: container_memory_rss
node_namespace_pod_container: container_memory_swap
node_namespace_pod_container: container_memory_working_set_bytes
node_quantile: kubelet_pleg_relist_duration_seconds: histogram_quantile
process_cpu_seconds_total
process_resident_memory_bytes
rest_client_request_duration_seconds_bucket
rest_client_requests_total
storage_operation_duration_seconds_bucket
storage_operation_duration_seconds_count
storage_operation_errors_total
向上
volume_manager_total_volumes

准备好开始使用Kubernetes Monitoring了吗?

要使用Kubernetes Monitoring,在Grafana Cloud中有三个选项。所有的计划都有预先构建的仪表盘、指标和警报规则。

云自由

bob体育手机二维码

最多3个活动用户

10k度量、50GB日志和50GB跟踪

功能包括:

  • 14天保留
  • Grafana OnCall
  • 综合监测
  • Grafana报警

云亲

8美元/月+使用率

包括免费的所有功能,加上:

  • 留存率:13个月;记录和追踪需要30天
  • Grafana机器学习
  • SSO / SAML / LDAP
  • 数据源权限
  • 云SLA和支持
  • 查询缓存
  • 报告和导出
  • 可选插件企业插件

云先进

定制的价格

包括免费的所有功能,加上:

  • 留存率:13个月;日志和痕迹30天
  • Grafana机器学习
  • SSO / SAML / LDAP
  • 数据源权限
  • 云SLA和支持
  • 查询缓存
  • 报告和导出
  • 可选插件企业插件