@togethercompute 无服务器推理平台现在对领先的开源软件模型的速度提高了 2 倍——这得益于 5D 并行、解耦服务、推测性解码、融合 fp4 内核等一系列技术。 https://t.co/jG1omhYQYk