Considero essas críticas irrelevantes agora. É uma questão de representação: por mais que você "pense" em palavras sobre a sua representação tokenizada da imagem, você não consegue rastrear entidades com precisão. Mas isso não é difícil de resolver de... quatro maneiras diferentes. Só que é uma prioridade baixa.
Literalmente, o @vikhyatk poderia resolver isso com caixas delimitadoras e zoom/recorte, se quisesse.