开源周进行到第三天,DeepSeek 不仅带来了技术,还传出 R2 正在路上的好消息。作为用户,一边见识着 DeepSeek 抛出来的一个个技术库,还能看到应用了这些技术的模型,怎么不算一种见证巨星的诞生。
今天出场的是 DeepGEMM,是一个专为干净、高效的 FP8 通用矩阵乘法 (GEMM) 而设计的库,具有细粒度缩放功能,如DeepSeek-V3中所述。它支持普通和混合专家 (MoE) 分组 GEMM。该库用 CUDA 编写,在安装过程中无需编译,而是使用轻量级即时 (JIT) 模块在运行时编译所有内核。