Oportunidade de emprego de alto nível: miHoYo está recrutando um líder geral de web crawler [P7-P8] ----- miHoYo, Chefe de Rastreamento Web Geral, Xangai A descrição da vaga define a função de liderar o projeto de uma estrutura unificada e de propósito geral para rastreamento da web e construir um sistema de rastreamento distribuído de alta concorrência que abranja fontes de dados multimodais, incluindo páginas da web, fóruns, mídias sociais, documentos e transcrição de vídeo/áudio. Responsável por coletar, fragmentar e armazenar, analisar (HTML/JSON/texto multilíngue/legendas/fluxos de comentários, etc.) e desduplicar os dados coletados; colaborar com as equipes de limpeza de dados, qualidade de conteúdo, amostragem e treinamento para alcançar um pipeline de dados rastreável de ponta a ponta. Planeje o cluster de rastreadores, o pool de proxies, o agendamento distribuído, as contramedidas dinâmicas anti-rastreamento e as estratégias de rastreamento incremental; Estabelecer especificações de esquema de dados de múltiplas fontes e padrões de coleta de metadados para dar suporte à análise de dados em Trino/Spark/big data lake; Requisitos da vaga: Bacharelado ou formação superior em Ciência da Computação, Engenharia de Software ou áreas afins; Pelo menos 5 anos de experiência em engenharia de backend/dados e 3 anos de experiência em sistemas de rastreamento distribuídos ou plataformas de aquisição de dados em larga escala; Proficiência em qualquer uma das seguintes linguagens: Python, Go ou Java, e seus respectivos modelos de programação concorrente; Familiarizado com frameworks de web scraping e mecanismos anti-scraping como Scrapy, Playwright e Selenium; Experiência em agendamento distribuído e ecossistema de big data (Kafka, Spark, Airflow, Trino, S3/TOS/HDFS); Compreender a extração da estrutura de páginas web (HTML DOM, XPath, expressões regulares, detecção de idioma) e algoritmos para desduplicação, segmentação e extração de conteúdo; Serão atribuídos pontos de bónus aos candidatos que demonstrarem conhecimentos práticos em controlo de qualidade de corpora, remoção de ruído em dados e formatos de dados de treino de modelos de linguagem. Candidatos com experiência em mecanismos de busca, agregação de conteúdo, extração de informações e rastreamento/transmissão de dados são preferenciais; Possui habilidades de comunicação interdepartamental e gestão de projetos, além de um forte senso de responsabilidade pela qualidade dos modelos baseados em dados; ------ Os detalhes para inscrição podem ser encontrados em: https://t.co/SgMGfxLGyw
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.