ResearchRubrics A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
discuss: huggingface.co/papers/2511.07…
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
2 tweets · 17 nov. 2025, 18:13
ResearchRubrics A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
discuss: huggingface.co/papers/2511.07…