Tenho muito interesse em investigar o COMO os modelos têm um desempenho melhor em seus próprios contextos (ex: Claude em CC). Para tarefas, a presença de ferramentas importantes faz sentido, mas não vi métricas de implementação detalhadas para medir isso. Perguntas como: - A ferramenta integrada de Tarefas/Planejamento é usada com frequência e, portanto, é importante para implementações bem-sucedidas? - Quão sensível é o modelo a mudanças nas descrições das ferramentas? São correções simples que podem ser feitas com instruções? Quanto tempo leva para que o modelo aprenda a usar bem a nova ferramenta? - etc + Experimentos com diferentes estruturas são interessantes aqui, como Kimi em um arnês CC pronto para uso → Kimi ajustado em um arnês CC
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.