X (Twitter)

OpenAI lança modelo de inferência de segurança de código aberto: gpt-oss-safeguard Utilizado especificamente para revisão de conteúdo. Versão do modelo: gpt-oss-safeguard-120B gpt-oss-safeguard-20B Ao contrário dos algoritmos tradicionais de moderação de conteúdo do tipo "caixa preta": O gpt-oss-safeguard usa raciocínio em vez de memória, lendo diretamente suas políticas de segurança e realizando a revisão de conteúdo de acordo com essas políticas durante o raciocínio. Não é necessário nenhum aprendizado... Isso significa que a segurança de conteúdo está indo além da "aprendizagem passiva de regras". Entrando em uma nova fase de "compreensão proativa das regras" significar: - A política não precisa ser retreinada; apenas o texto de entrada precisa ser modificado. - O modelo pode apresentar seu próprio processo de raciocínio, explicando por que chegou à conclusão. - É possível personalizar diferentes políticas para diferentes produtos e cenários. (Novo) - É possível personalizar diferentes políticas para diferentes produtos e cenários.

As avaliações de desempenho mostram que o gpt-oss-safeguard supera o GPT-5-thinxiaohu.ai/c/xiaohu-ai/op…pt-oss em termos de precisão ao implementar várias políticas simultaneamente. Detalhes:

Thread de 小互 (@imxiaohu)

Informações do autor

Conteúdo da thread