X (Twitter)

¡Cerebras ha vuelto a la carga! Han lanzado DeepSeek-V3.2, una versión optimizada. Las versiones 508B y 345B presentan reducciones de tamaño del 25 % y el 50 %, respectivamente. Son ideales para implementaciones locales con recursos de máquina limitados. El método de poda REAP aún se utiliza, lo que permite seleccionar y eliminar de forma inteligente expertos redundantes para comprimir el modelo MoE. Sin embargo, siendo sinceros, hay algunos puntos que requieren debate. En primer lugar, cerebras no ha publicado más resultados de pruebas, solo las de HumanEval y MBPP. Estas dos pruebas no se proporcionaron cuando DeepSeek lanzó oficialmente la versión 3.2 (o quizás simplemente no las vi). Además, el modelo 345B obtuvo una puntuación superior al 508B en estas dos pruebas. Por lo tanto, se recomienda que quienes deseen utilizar este modelo de poda a gran escala comprueben su rendimiento específico antes de usarlo.

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo