X (Twitter)

Opportunité d'emploi haut de gamme : miHoYo recrute un responsable général de robots d'exploration Web [P7-P8] ----- miHoYo, responsable du robot d'exploration Web général, Shanghai La description du poste souligne le rôle consistant à diriger la conception d'un cadre d'exploration Web unifié et polyvalent, ainsi qu'à construire un système d'exploration distribué à haute concurrence couvrant des sources de données multimodales, notamment les pages Web, les forums, les médias sociaux, les documents et la transcription vidéo/audio. Responsable de la réception, du partitionnement et du stockage, de l'analyse (HTML/JSON/texte multilingue/sous-titres/flux de commentaires, etc.) et de la déduplication des données collectées ; collaboration avec les équipes de nettoyage des données, de qualité du contenu, d'échantillonnage et de formation pour obtenir un pipeline de données traçable de bout en bout. Planifiez le cluster de robots d'exploration, le pool de proxys, la planification distribuée, les contre-mesures anti-exploration dynamiques et les stratégies d'exploration incrémentales ; Établir des spécifications de schéma de données multi-sources et des normes de collecte de métadonnées pour prendre en charge l'analyse Trino/Spark/big data lake ; Exigences du poste : Baccalauréat ou diplôme supérieur en informatique, en génie logiciel ou dans des domaines connexes ; Au moins 5 ans d'expérience en ingénierie backend/données et 3 ans d'expérience dans les systèmes de crawler distribués ou les plateformes d'acquisition de données à grande échelle ; Maîtrise d'au moins un des langages suivants : Python, Go ou Java, et de leurs modèles de programmation concurrente ; Familiarisé avec les frameworks de web scraping et les mécanismes anti-scraping tels que Scrapy, Playwright et Selenium ; Expérience en matière de planification distribuée et d'écosystème de données massives (Kafka, Spark, Airflow, Trino, S3/TOS/HDFS) ; Comprendre l'extraction de la structure des pages Web (HTML DOM, XPath, expressions régulières, détection de la langue) et les algorithmes de déduplication, de segmentation et d'extraction de contenu ; Des points bonus seront attribués aux candidats qui possèdent une compréhension pratique du contrôle qualité des corpus, du débruitage des données et des formats de données d'entraînement des modèles de langage. Les candidats ayant une expérience des moteurs de recherche, de l'agrégation de contenu, de l'extraction d'informations et de l'exploration/diffusion de données seront privilégiés ; Possède des compétences en communication inter-équipes et en gestion de projet, et fait preuve d'un fort sens des responsabilités quant à la qualité des modèles basés sur les données ; ------ Les détails d'inscription sont disponibles à l'adresse suivante : https://t.co/SgMGfxLGyw

Fil de Y11 (@seclink)

Informations sur l'auteur

Contenu du fil