大模型训练 - Hostease中文官方博客

多卡并行(NVLink)技术详解：为什么 GPU 训练里 1+1 有时＞2？

2026年7月9日2026年6月29日作者 @hosteasecn

多GPU训练跑不快，很多时候不是算力不够，而是GPU之间“传数据”太慢。我结合我们排查多卡训练卡顿的经历，讲清NVLink为何能突破PCIe瓶颈、如何影响AllReduce与模型并行，并给出对比表、落地建议与新手FAQ。

2025年12月12日作者 @hosteasecn

这篇文章带你一步看懂NVIDIA A100、H100和最新H200三代数据中心GPU在架构、显存容量与带宽、Tensor算力、NVLink互联等关键参数上的差异，并结合真实部署案例，聊聊大模型训练和推理该选哪一款GPU服务器、更适合怎样的业务场景，帮你少踩坑、选对配置。

2025年9月1日作者 @hosteasecn

训练大模型时，GPU算力再强也需要高速带宽和SSD存储支撑。本文结合实际场景，解读为什么选择GPU服务器不能只看显卡，带宽与存储才是训练效率的关键，并给出Hostease选型建议。