Cyril y el equipo de CTGT están desarrollando la interpretabilidad mecanicista. Permiten editar el comportamiento de los LLM para añadir garantías de seguridad sin necesidad de reentrenamiento, de una forma mucho más fiable que la simple indicación.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.