Considero que esas críticas ya no vienen al caso. Es un problema de representación: por mucho que uno se esfuerce en describir con palabras la representación tokenizada de la imagen, no se pueden rastrear las entidades con precisión. Pero eso se puede solucionar fácilmente de unas cuatro maneras distintas. Simplemente, tiene baja prioridad.
Literalmente, @vikhyatk podría solucionarlo con cuadros delimitadores y zoom/recorte, si quisiera.