Oportunidad laboral de alto nivel: miHoYo está reclutando un líder de rastreo web general [P7-P8] ----- miHoYo, Director de Rastreadores Web Generales, Shanghái La descripción del trabajo describe el rol de liderar el diseño de un marco de rastreo web unificado y de propósito general y construir un sistema de rastreo distribuido de alta concurrencia que cubra fuentes de datos multimodales, incluidas páginas web, foros, redes sociales, documentos y transcripción de video/audio. Responsable del aterrizaje, fragmentación y almacenamiento, análisis (HTML/JSON/texto multilingüe/subtítulos/flujos de comentarios, etc.) y desduplicación de los datos rastreados; colaborar con los equipos de limpieza de datos, calidad de contenido, muestreo y capacitación para lograr una cadena de datos rastreable de extremo a extremo. Planificar el clúster de rastreadores, el grupo de servidores proxy, la programación distribuida, las contramedidas anti-rastreo dinámicas y las estrategias de rastreo incremental; Establecer especificaciones de esquemas de datos de múltiples fuentes y estándares de recopilación de metadatos para respaldar el análisis de Trino/Spark/big data lake; Requisitos del puesto: Licenciatura o título superior en Ciencias de la Computación, Ingeniería de Software o campos relacionados; Al menos 5 años de experiencia en ingeniería de backend/datos y 3 años de experiencia en sistemas de rastreo distribuidos o plataformas de adquisición de datos a gran escala; Competente en cualquiera de los siguientes lenguajes: Python, Go o Java, y sus modelos de programación concurrente; Familiarizado con marcos de raspado web y mecanismos anti-raspado como Scrapy, Playwright y Selenium; Experiencia en programación distribuida y ecosistema de big data (Kafka, Spark, Airflow, Trino, S3/TOS/HDFS); Comprender la extracción de la estructura de la página web (HTML DOM, XPath, expresiones regulares, detección de idioma) y algoritmos para la deduplicación, segmentación y extracción de contenido; Se otorgarán puntos de bonificación a los candidatos que tengan una comprensión práctica del control de calidad del corpus, la eliminación de ruido de datos y los formatos de datos de entrenamiento del modelo de lenguaje. Se prefieren aquellos con experiencia en motores de búsqueda, agregación de contenido, extracción de información y rastreo/transmisión de datos; Posee habilidades de comunicación entre equipos y de gestión de proyectos, y tiene un fuerte sentido de responsabilidad por la calidad de los modelos basados en datos; ------ Los detalles de inscripción se pueden encontrar en: https://t.co/SgMGfxLGyw
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.