先梳理业务需求:CPU 核心数、内存容量、磁盘类型与容量、网络带宽、是否需要 GPU、可用性(单点故障容忍)与预算。将预算分为:机柜与机房费用、硬件采购、网络带宽、远程运维(Remote Hands)、备件库存和意外费用(10%-15%)。
在韩国选择机房时,优先考虑网络延迟和带宽质量,询问运营商(如本地骨干或国际带宽提供商)的直连点、对等关系(peering)、DDoS 防护和带宽突发策略。确认机房是否提供远程插拔、电源冗余(A/B)、冷却 SLA 和现场远程操作(Remote Hands)计费规则。
根据负载选 CPU:单实例高并发选高频/少核,虚拟化或容器密集选多核。主板需支持所选 CPU、内存插槽、PCIe 通道数与远程管理(IPMI/BMC)。内存根据应用预留 20% 余量,ECC 建议用于生产。
系统盘优先 NVMe/SSD(性能),数据盘根据读写特性选 SSD 或 HDD。企业环境采用 RAID(0/1/10/5/6)或基于软件的分布式存储。推荐 1) 系统 NVMe 单盘 2) 数据使用 RAID1/10 或 Ceph/Gluster 等分布式方案。实际操作示例:用 mdadm 创建 RAID1:mdadm --create /dev/md0 --level=1 --raid-devices=2 /dev/sda /dev/sdb。
至少配置双网口冗余:一条用于公网、一条用于监控/管理或内网。若业务需要高吞吐,选择 10GbE NIC 并确认主板/机箱的 PCIe 带宽。设置链路聚合(bonding/teaming)并在交换机侧配置 LACP。
选用冗余电源(1+1),PSU 额定功率留 20%-30% 余量。确认机房供电方式(单相/三相)和 PDU 支持远程断电。机箱通风、风扇速度曲线和机柜内热通道(hot/cold aisle)布置要合理。
向正规渠道采购,获取保修与备件 SLA。跨国运输注意关税、清关文件与保修政策,提前与机房/代理确认送货到机房(on-site delivery)流程和交付时间窗口。
到机房后按顺序:1) 检查设备外观与序列号;2) 上架并固定导轨;3) 连接电源到机柜 PDU,不同相位分散负载;4) 连接管理网口到管理交换机;5) 贴标签并填写资产清单。
首次上电按顺序开:BMC/ILO/IPMI → RAID 控制器 → BIOS/UEFI。进入 BIOS/UEFI 设置时间、引导顺序、虚拟化与节能设置。更新主板固件、RAID 固件与 NIC 驱动至最新稳定版本。
如果使用 Linux,示例流程:1) 使用 mdadm 创建 RAID(见上);2) 用 parted 创建 GPT 分区:parted /dev/md0 mklabel gpt mkpart primary 1MiB 100%;3) 格式化:mkfs.xfs /dev/md0p1 或 mkfs.ext4;4) 挂载并写入 /etc/fstab,使用 UUID 确保稳定挂载。
安装常见 Linux 发行版(Ubuntu/CentOS),在安装中配置静态 IP(避免 DHCP 造成重启地址变动)。设置 hostname、/etc/hosts、DNS、NTP。示例 Debian 网络绑定配置(/etc/network/interfaces)或 NetworkManager 配置示例须根据发行版调整。
关闭不必要服务,启用防火墙(ufw/iptables/nftables),限制 SSH 登录(仅密钥登录,禁用密码,改端口或使用 Port Knocking),部署 Fail2ban,启用 BMC 的强密码与限制管理网段。
部署监控(Prometheus+Grafana 或 Zabbix),采集 CPU、内存、磁盘、网络、温度与 SMART。日志集中化(ELK/Graylog)。备份策略:定期快照 + 异地备份(S3/对象存储或本地机房互备),定期演练恢复。
建立 SOP:每天自动化监控告警,每周检查 SMART 与 RAID 状态(smartctl -a /dev/sdX;cat /proc/mdstat),每月固件与安全补丁窗口。故障时按优先级:1) 保持数据冷冻(避免自动修复造成数据覆盖),2) 记录事件,3) 启用远程手操作(Remote Hands)或现场更换硬盘并重建 RAID。
答:优先评估低延迟与直连骨干(测延迟与丢包),询问峰值带宽策略、对等点、DDoS 防护与 SLA。实地或第三方测速历史流量与延迟,要求试用期或按月计费以便初期调整。
答:预先与机房签订 Remote Hands 服务并在本地保留关键备件或委托机房备件库存;发生故障按 SOP 先远程排查(IPMI、RAID 日志),确认故障后提交远程工单并指派替换备件,保留备份以防数据丢失。
答:注意本地法规对用户数据的存储与传输要求,确认是否需要备案或特定资质(视业务而定),并与机房/法律顾问核实跨境数据传输政策。同时设置网段白名单、DDoS 保护和合规审计日志。