dm-multipath介绍一个系统如果可以使用多个不同的通信路径访问同一个存储设备,如光纤、iscsi、SAS等。
想满足当其中一条路径出现故障时,自动切换到另一条路径的需求,红帽推荐使用dm-multipath子系统实现多路径支持
dm-multipath会根据/etc/multipath.conf中的设置,自动检测路径并将路径分组,当组出现故障时,守护进程会将存储流量切换到另一个组
按名称访问多路径设备
内核为每个多路径设备分配一个世界范围标识符WWIDs,默认情况下系统会将设备名称直接设置为其WWIDs。并在/dev/mapper下为每...
如果情况非常特殊需要选择部署偶数节点的Pacemaker集群,也不是不行
脑裂问题挑战在偶数节点集群容易受到脑裂的影响:俩节点精确分成两半,都能正常工作且成为自己是正常的
红帽建议使用仲裁设备充当第三个节点
two_node标志
没有节点故障的余地,所以进行双机部署时,Pacemaker会自动设置votequorum为two_node标志,这种模式下集群将仲裁设置为1,只允许一个节点失败
1234567891011121314151617181920212223242526272829cat /etc/corosync/corosync.conf.1754551840totem ...
云环境与本地主机的区别本地环境大多是使用LVM做的,也就是像这样
12345678910[root@1panel ~]# lsblkNAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTSsda 8:0 0 500G 0 disk├─sda1 8:1 0 1G 0 part /boot├─sda2 8:2 0 49G 0 part│ ├─almalinux_192-roo...
启停与增删节点1.启动和停止集群服务控制集群节点在运行时是否参与集群。2.启用和禁用集群服务可以控制集群节点是否自动启动集群服务并在启动时加入集群。3.在集群中添加和删除集群节点将永久更改该节点是否为集群的成员。4.备用模式和非备用模式控制集群节点是否允许承载集群内的资源。
启停pcs
123456789101112131415在当前节点上启停pcspcs cluster startpcs cluster start --all指定某个节点启停pcspcs cluster stop 10.163.2.106pcs cluster start 10.163.2.106所有节点启停pcspc...
Pacemaker组件Resoures和Resoures Group
单个IP 文件系统或数据库都被认为是resource,通过分资源组的方式来定义资源之间的关系
failover故障转移
Fencing击毙
通过关闭节点来阻断故障节点的资源使用
Shared Storage共享存储
可以用SAN、RAID、CephFS、GlusterFS、DRBD等
Quorum仲裁
每个成员默认都有1票,一般节点都是奇数个。如果仲裁失败,就不会启动任何资源和资源组
Pacemaker架构硬件架构1.集群节点
2.公共网络—客户访问
3.私有网络—集群节点内部通信
4.联网电源开关(带外管理
5.后端...
NFS-Ganesha 本质是协议转换层,牺牲少量性能换取最大兼容性;
普通挂载是性能最优路径,但受限于 Linux 生态;
维度
NFS-Ganesha 挂载 CephFS
普通挂载(内核/FUSE)
协议兼容性
✅ 提供 标准 NFSv3/v4 协议,兼容所有支持 NFS 的系统(Windows、旧版Linux、IoT设备等)
❌ 仅支持原生 CephFS 客户端(Linux 内核 ≥4.0 或 FUSE)
客户端要求
客户端无需安装 Ceph 组件
客户端需部署 ceph-common 和密钥
跨平台能力
⭐ 支持非 Linux 系统(如...
计算备份数据量先进行一手全量备份,看看占用空间咋样
12mysqldump --single-transaction --routines --triggers --events \ -u root -pPassword --all-databases > full_backup.sql
一个full备份的sql出来57M,相当于备份一次只需要57M的空间
那么如果每天备份,一个月测试恢复一次,那就需要至少1.7G的空间,考虑到以后可能还会涨,最后搞个30G的pvc
创建需求PVC123456789101112131415161718{{- if .Valu...
环境说明
k8s v1.28 单主单从主节点IP 172.16.100.11从节点IP 172.16.100.10ubuntu20.04calico v3.25pod网段默认192.168.0.0/16虚拟网卡网段172.16.2.0/23
蒲公英就是一个点对点的vpn软件,和向日葵是同为贝锐的产品,专门用来异地组网的,客户需要远程访问服务做演示
故障现象与排查客户在k8s主节点成功安装了蒲公英后,获取到了虚拟IP 172.16.2.169
尝试访问集群服务时,发现主节点的服务通过NodePort暴露的端口无法访问通过ss -tunlp | grep 300xx 查看...
在集群维护期间,集群可以在降级状态下操作和服务客户端。但是,添加或移除osd会影响集群性能。回填操作会在osd之间产生大量数据传输,导致集群性能下降。
12345678910在执行集群维护之前评估潜在的性能影响:1.Client load客户端负载2.Node capacity节点规模3.Spare cluter capacity备用集群容量4.CRUSH rules映射规则,每个使用特定CRUSH层次结构的池都会受到性能影响5.Pool types池类型复制池使用更多的网络带宽来复制数据副本擦除编码池使用更多的CPU来计算数据和编码块6.Node hardware硬件
替换一个失败的...
概念介绍
MGR至少两个,以提供高可用性第一个MGR被认为是active的,其他为备用MGR
主MGR会周期发送信标,默认超时时间30s,修改mon_mgr_beacon_grace参数来调整
1234567ceph mgr stat{ "epoch": 37, "available": true, "active_name": "cephadm-3.zwfiyn", "num_standby": 3}
MGR是模块化架构可以根据需求启用或...