首页 > 基础资料 博客日记
H200 安装驱动并使用sglang启动模型
2026-04-17 17:30:01基础资料围观1次
文章H200 安装驱动并使用sglang启动模型分享给大家,欢迎收藏极客资料网,专注分享技术知识
机器信息
系统:rocklinux 9.4
架构:x86
前置操作:关闭防火墙和selinux
一、安装kernel-devel、kernel-headers
如果没有互联网环境,可以使用iso文件搭建本地镜像仓库,这两个包的版本一定要和当前系统的内核版本一致
dnf install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)
二、安装dkms
dnf install -y dkms
三、安装驱动
rocklinux兼容rhel
可以使用rhel的rpm包:https://www.nvidia.cn/drivers/details/266455/
下载后安装
rpm -ivh nvidia-driver-local-repo-rhel9-590.48.01-1.0-1.x86_64.rpm
安装驱动
nvidia-driver可能会被过滤,导致dnf list | grep nvidia-driver,不显示驱动包,可以直接手动rpm安装
cd /var/nvidia-driver-local-repo-rhel9-590.48.01
rpm -ivh nvidia-kmod-common-590.48.01-1.el9.noarch.rpm \
kmod-nvidia-latest-dkms-590.48.01-1.el9.x86_64.rpm \
nvidia-driver-590.48.01-1.el9.x86_64.rpm \
nvidia-driver-libs-590.48.01-1.el9.x86_64.rpm \
nvidia-driver-cuda-590.48.01-1.el9.x86_64.rpm \
nvidia-driver-cuda-libs-590.48.01-1.el9.x86_64.rpm \
libnvidia-ml-590.48.01-1.el9.x86_64.rpm \
libnvidia-cfg-590.48.01-1.el9.x86_64.rpm \
nvidia-modprobe-590.48.01-1.el9.x86_64.rpm \
nvidia-persistenced-590.48.01-1.el9.x86_64.rpm \
nvidia-fabricmanager-590.48.01-1.el9.x86_64.rpm \
--nodeps --force
检查驱动是否编译完成
dkms install nvidia/590.48.01
执行结果
[root@localhost nvidia-driver-local-repo-rhel9-590.48.01]# dkms install nvidia/590.48.01
Module nvidia/590.48.01 already installed on kernel 5.14.0-427.13.1.el9_4.x86_64 (x86_64), skip. You may override by specifying --force.
[root@localhost nvidia-driver-local-repo-rhel9-590.48.01]#
加载模块
modprobe nvidia
modprobe nvidia-uvm
启动SXM 专属服务用于显卡间通信
systemctl enable --now nvidia-persistenced
systemctl enable --now nvidia-fabricmanager
查看显卡状态
nvidia-smi
执行结果,正常显示显卡信息则成功安装了驱动
[root@h200-new ~]# nvidia-smi
Thu Apr 16 14:02:07 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01 Driver Version: 590.48.01 CUDA Version: 13.1 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA H200 On | 00000000:19:00.0 Off | 0 |
| N/A 37C P0 78W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA H200 On | 00000000:3B:00.0 Off | 0 |
| N/A 32C P0 80W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA H200 On | 00000000:4C:00.0 Off | 0 |
| N/A 31C P0 76W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA H200 On | 00000000:5D:00.0 Off | 0 |
| N/A 35C P0 78W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA H200 On | 00000000:9B:00.0 Off | 0 |
| N/A 37C P0 77W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 5 NVIDIA H200 On | 00000000:BB:00.0 Off | 0 |
| N/A 33C P0 79W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 6 NVIDIA H200 On | 00000000:CB:00.0 Off | 0 |
| N/A 36C P0 78W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 7 NVIDIA H200 On | 00000000:DB:00.0 Off | 0 |
| N/A 32C P0 77W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
[root@h200-new ~]#
四、安装docker和libnvidia-container
docker二进制包下载:https://download.docker.com/linux/static/stable/x86_64/
解压压缩包,将二进制文件移动至/usr/local/bin/下
新建service文件内容如下
/usr/lib/systemd/system/docker.service
[Unit]
Description=Docker Application Container Engine
Documentation=http://docs.docker.io
[Service]
Environment="PATH=/usr/local/bin:/bin:/sbin:/usr/bin:/usr/sbin"
ExecStart=/usr/local/bin/dockerd --log-level=error $DOCKER_NETWORK_OPTIONS \
--data-root=/data/docker/data
ExecReload=/bin/kill -s HUP $MAINPID
Restart=on-failure
RestartSec=5
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
Delegate=yes
KillMode=process
[Install]
WantedBy=multi-user.target
启动docker
systemctl daemon-reload
systemctl enable docker --now
安装libnvidia-container
下载地址:https://github.com/NVIDIA/libnvidia-container/tree/gh-pages/stable
安装
[root@h200-new containerd-tools]# ls
libnvidia-container-tools-1.17.4-1.x86_64.rpm nvidia-container-toolkit-1.17.4-1.x86_64.rpm
libnvidia-container1-1.17.4-1.x86_64.rpm nvidia-container-toolkit-base-1.17.4-1.x86_64.rpm
[root@h200-new containerd-tools]# rpm -ivh *rpm
warning: libnvidia-container-tools-1.17.4-1.x86_64.rpm: Header V4 RSA/SHA512 Signature, key ID f796ecb0: NOKEY
Verifying... ################################# [100%]
Preparing... ################################# [100%]
Updating / installing...
1:nvidia-container-toolkit-base-1.1################################# [ 25%]
2:libnvidia-container1-1.17.4-1 ################################# [ 50%]
3:libnvidia-container-tools-1.17.4-################################# [ 75%]
4:nvidia-container-toolkit-1.17.4-1################################# [100%]
[root@h200-new containerd-tools]#
配置生效
nvidia-ctk runtime configure --runtime=docker
systemctl restart docker
五、使用sglang 启动模型
模型下载至:/data/llm/glm5.1-fp8
sglang镜像版本:lmsysorg/sglang:v0.5.10
启动sglang
docker run -d \
--name sglang-glm5 \
--gpus all \
--ipc=host \
--ulimit memlock=-1 \
--ulimit stack=67108864 \
-p 30000:30000 \
-e SGLANG_ENABLE_SPEC_V2=1 \
-e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
-e TORCHINDUCTOR_CACHE_DIR=/data/glmcache5.1 \
-v /data/llm/:/data/models \
--shm-size=32g \
--restart=always \
lmsysorg/sglang:v0.5.10 \
sglang serve \
--model-path /data/models/glm5.1-fp8 \
--served-model-name glm-5.1-fp8 \
--api-key xxxxxx \
--host 0.0.0.0 \
--tp 8 \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.9 \
--context-length=184320 \
--max-running-requests=10 \
--max-prefill-tokens=8192
使用docker logs -f sglang-glm5 查看模型加载进度,等待模型加载完成
查看显卡使用情况
[root@h200-new data]# nvidia-smi
Thu Apr 16 18:00:27 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01 Driver Version: 590.48.01 CUDA Version: 13.1 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA H200 On | 00000000:19:00.0 Off | 0 |
| N/A 55C P0 136W / 700W | 141572MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA H200 On | 00000000:3B:00.0 Off | 0 |
| N/A 42C P0 126W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA H200 On | 00000000:4C:00.0 Off | 0 |
| N/A 40C P0 122W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA H200 On | 00000000:5D:00.0 Off | 0 |
| N/A 54C P0 135W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA H200 On | 00000000:9B:00.0 Off | 0 |
| N/A 54C P0 132W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 5 NVIDIA H200 On | 00000000:BB:00.0 Off | 0 |
| N/A 42C P0 123W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 6 NVIDIA H200 On | 00000000:CB:00.0 Off | 0 |
| N/A 55C P0 135W / 700W | 141624MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 7 NVIDIA H200 On | 00000000:DB:00.0 Off | 0 |
| N/A 41C P0 123W / 700W | 140658MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 161448 C sglang::scheduler_TP0 14156... |
| 1 N/A N/A 161449 C sglang::scheduler_TP1 14161... |
| 2 N/A N/A 161450 C sglang::scheduler_TP2 14161... |
| 3 N/A N/A 161451 C sglang::scheduler_TP3 14161... |
| 4 N/A N/A 161452 C sglang::scheduler_TP4 14161... |
| 5 N/A N/A 161453 C sglang::scheduler_TP5 14161... |
| 6 N/A N/A 161454 C sglang::scheduler_TP6 14161... |
| 7 N/A N/A 161455 C sglang::scheduler_TP7 14064... |
+-----------------------------------------------------------------------------------------+
[root@h200-new data]#
测试
[root@h200-new llm]# curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer xxxxxxx" \
-d '{
"model": "glm-5.1-fp8",
"messages": [
{"role": "system", "content": "你是一个人工智能助手。"},
{"role": "user", "content": "你好,请确认你的模型版本,并简单介绍下 H100 GPU 的优势。"}
],
"temperature": 0.7
}'
{"id":"3dd2d8cbf57546bd926b30e35559dd8d","object":"chat.completion","created":1776325869,"model":"glm-5.1-fp8","choices":[{"index":0,"message":{"role":"assistant","content":"你好!我是一个由 Z.ai 开发的人工智能助手(基于 GLM 大语言模型)。\n\n关于 NVIDIA H100 GPU,它是基于 Hopper 架构的旗舰级数据中心 GPU,专为加速人工智能和高性能计算而设计。它的主要优势包括:\n\n1. **Transformer 引擎**:这是 H100 最大的亮点之一。它专门针对当前大语言模型(LLM)的基础——Transformer 架构进行了优化,能够动态分配 FP8 和 FP16 精度,在保持模型精度的同时,将大模型的训练和推理速度提升至前所未有的水平。\n2. **极高的性能飞跃**:相比上一代 A100,H100 在 AI 训练上最高可提供 9 倍的提升,在 AI 推理上最高可提供 30 倍的提升(特别是在结合 FP8 和 Transformer 引擎时)。\n3. **HBM3 高带宽内存**:H100 采用了更先进的 HBM3 内存,最高提供 80GB 容量和超过 3TB/s 的惊人带宽,极大缓解了大规模 AI 模型的“内存墙”问题。\n4. **第四代 NVLink 与 PCIe 5.0**:NVLink 互联带宽提升至 900GB/s,是 PCIe 5.0 的 7 倍,使得成千上万张 H100 组成的集群能够高效协同工作,构建超大规模计算集群。\n5. **原生 FP8 支持**:H100 是首批原生支持 FP8(8位浮点)数据格式的 GPU 之一,这不仅能将内存占用减半,还能大幅提高吞吐量,对 AI 推理极其有利。\n6. **DPX 指令集**:专门用于加速动态规划算法,在基因组学测序、物流路线优化等科学计算领域,速度比 A100 提升高达 7 倍。\n\n总的来说,H100 是目前大模型时代最重要的算力基础设施,凭借其针对 Transformer 的特化设计和极高的带宽,成为了训练和部署下一代 AI 的首选硬件。","reasoning_content":"1. **分析请求:**\n * 任务 1:确认我的模型版本。\n * 任务 2:简单介绍 H100 GPU 的优势。\n * 语言:中文。\n\n2. **处理任务 1:确认模型版本:**\n * *自我认知:* 我是一个人工智能助手。我的具体底层模型版本通常不作为硬编码字符串公开,但我是由 Z.ai 开发的大语言模型(GLM 系列)。我应该清楚地说明我是一个人工智能助手,并提及我的开发者/模型系列(GLM),而不必捏造特定的版本号(除非我绝对确定,但通常“由 Z.ai 开发的 GLM 大语言模型”是最准确和安全的回答)。\n * *起草:* 你好!我是一个由 Z.ai 训练的大语言模型(基于 GLM 架构)。\n\n3. **处理任务 2:介绍 H100 GPU 的优势:**\n * *主题:* NVIDIA H100 Hopper GPU。\n * *需要涵盖的关键优势:*\n * 架构:Hopper 架构(继 Ampere/A100 之后)。\n * 性能:AI 训练和推理的巨大飞跃。Transformer 引擎(对大语言模型至关重要)。\n * 内存/带宽:HBM3 内存(与 A100 的 HBM2e 相比,带宽大幅提升)。\n * 互连:NVLink 4.0(比第 3 代更快)、PCIe Gen 5。\n * 安全/可靠性:机密计算、原生 FP8 支持。\n * DPX 指令集:用于动态规划。\n * *构建介绍结构:* 使用项目符号以提高可读性。保持简洁但全面。\n * *起草要点:*\n 1. **Hopper 架构与 Transformer 引擎**:专门针对大语言模型(LLM)优化,自动分配 FP8/FP16 精度,大幅提升推理和训练速度。\n 2. **极致的性能提升**:相比上一代 A100,AI 训练速度提升数倍,推理速度最高提升 30 倍。\n 3. **更快的 HBM3 内存**:提供更高的内存带宽(最高可达 3TB/s),解决大规模模型的内存瓶颈。\n 4. **第四代 NVLink 与 PCIe 5.0**:多卡互联带宽翻倍,支持构建更大规模的计算集群。\n 5. **FP8 数据格式支持**:在保持精度的同时,大幅减少内存占用和计算时间。\n 6. **DPX 指令集**:加速动态规划算法,适用于基因组学、物流优化等领域。\n\n4. **审查与润色:**\n * 将两个回答流畅地结合起来。\n * 确保语气乐于助人且专业。\n * *起草时的自我纠正:* 确保不要声称自己是 GPT-4 或 Claude 3,因为那是不正确的。坚持 Z.ai/GLM 的身份。\n\n5. **最终输出生成(中文):**\n 你好!我是一个由 Z.ai 开发的人工智能助手(基于 GLM 大语言模型)。\n\n 关于 NVIDIA H100 GPU,它是基于 Hopper 架构的旗舰级数据中心 GPU,专为加速 AI 和高性能计算(HPC)而设计。它的主要优势包括:\n\n 1. **Transformer 引擎**:这是 H100 最大的亮点之一。它专门针对当前大语言模型(LLM)的基础——Transformer 架构进行了优化,能够动态分配 FP8 和 FP16 精度,在保持模型精度的同时,将大模型的训练和推理速度提升至前所未有的水平。\n 2. **极高的性能飞跃**:相比上一代 A100,H100 在 AI 训练上最高可提供 9 倍的提升,在 AI 推理上最高可提供 30 倍的提升(特别是在结合 FP8 和 Transformer 引擎时)。\n 3. **HBM3 高带宽内存**:H100 采用了更先进的 HBM3 内存,最高提供 80GB 容量和超过 3TB/s 的惊人带宽,极大缓解了大规模 AI 模型的“内存墙”问题。\n 4. **第四代 NVLink 与 PCIe 5.0**:NVLink 互联带宽提升至 900GB/s,是 PCIe 5.0 的 7 倍,使得成千上万张 H100 组成的集群能够高效协同工作,构建超大规模计算集群。\n 5. **原生 FP8 支持**:H100 是首批原生支持 FP8(8位浮点)数据格式的 GPU 之一,这不仅能将内存占用减半,还能大幅提高吞吐量,对 AI 推理极其有利。\n 6. **DPX 指令集**:专门用于加速动态规划算法,在基因组学测序、物流路线优化等科学计算领域,速度比 A100 提升高达 7 倍。\n\n 总的来说,H100 是目前大模型时代最重要的算力基础设施,凭借其针对 Transformer 的特化设计和极高的带宽,成为了训练和部署下一代 AI 的首选硬件。","tool_calls":null},"logprobs":null,"finish_reason":"stop","matched_stop":154827}],"usage":{"prompt_tokens":29,"total_tokens":1576,"completion_tokens":1547,"prompt_tokens_details":null,"reasoning_tokens":1119},"metadata":{"weight_version":"default"}}[root@h200-new llm]#
[root@h200-new llm]#
文章来源:https://www.cnblogs.com/mintsi/p/19884601
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- 在后台服务中使用 Scoped 服务,为什么总是报错?
- H200 安装驱动并使用sglang启动模型
- 玩转控件:封装个带图片的Label控件
- Oracle数据库SCN推进技术详解与实践指南
- [A Primer On MC and CC] 2.1 Memory Consistency 1 - 指令重排序和 SC 模型
- 我用 AI 辅助开发了一系列小工具(2):图片压缩工具
- wireshark 抓包Trap上报告警内容
- 如果 Seedance 3.0 真把"长视频 + 多语言口型同步 + 低成本"做起来,广告和短剧团队可能会先挨刀
- 我用AI写了一个颜值拉满的桌面媒体播放器,全程没动一行代码,这就是AI编程新范式
- Claude Code 4.7 真正该升级的不是模型,而是你的工作流

