2月4日|騰訊混元AI Infra團隊正式推出開源生產級高性能LLM推理核心算子庫 HPC-Ops。在真實場景下,基於HPC-Ops,混元模型推理 QPM 提升30%,DeepSeek模型 QPM 提升17%。同時,在單算子性能方面,HPC-Ops實現Attention相比 FlashInfer/FlashAttention 最高提升2.22倍;GroupGEMM 相比 DeepGEMM 最高提升1.88倍;FusedMoE 相比 TensorRT-LLM 最高提升1.49倍。
新聞來源 (不包括新聞圖片): 格隆匯