X (Twitter)

OpenAI publica un modelo de inferencia de seguridad de código abierto: gpt-oss-safeguard Específicamente utilizado para la revisión de contenido Versión del modelo: gpt-oss-safeguard-120B gpt-oss-safeguard-20B A diferencia de los algoritmos tradicionales de moderación de contenido de "caja negra": gpt-oss-safeguard utiliza el razonamiento en lugar de la memoria, leyendo directamente sus políticas de seguridad y realizando la revisión del contenido de acuerdo con esas políticas durante el razonamiento. No se requiere aprendizaje previo... Esto significa que la seguridad del contenido está evolucionando más allá del "aprendizaje pasivo de reglas". Entrando en una nueva fase de "comprensión proactiva de las reglas" significar: - No es necesario volver a entrenar la política; solo hay que modificar el texto de entrada. El modelo puede mostrar su propio proceso de razonamiento, explicando por qué llegó a esa conclusión. - Se pueden personalizar diferentes políticas para diferentes productos y diferentes escenarios. (Nuevo) Se pueden personalizar diferentes políticas para diferentes productos y diferentes escenarios.

Las evaluaciones de rendimiento muestran que gpt-oss-safeguard supera a GPT-5-txiaohu.ai/c/xiaohu-ai/op…os gpt-oss en términos de precisión al implementar múltiples políticas simultáneamente. Detalles:

Hilo de 小互 (@imxiaohu)

Información del autor

Contenido del hilo