X (Twitter)

고급 채용 기회: miHoYo에서 일반 웹 크롤러 리더를 모집합니다 [P7-P8] ----- miHoYo, 상하이 총괄 웹 크롤러 책임자 직무 설명에서는 통합된 범용 웹 크롤링 프레임워크의 설계를 주도하고 웹 페이지, 포럼, 소셜 미디어, 문서, 비디오/오디오 필사본을 포함한 다중 모드 데이터 소스를 포괄하는 높은 동시성 분산 크롤링 시스템을 구축하는 역할을 설명합니다. 크롤링된 데이터의 랜딩, 분할 및 저장, 파싱(HTML/JSON/다국어 텍스트/자막/댓글 스트림 등) 및 중복 제거를 담당합니다. 데이터 정리, 콘텐츠 품질, 샘플링 및 교육 팀과 협업하여 종단 간 추적 가능한 데이터 파이프라인을 구축합니다. 크롤러 클러스터, 프록시 풀, 분산 스케줄링, 동적 크롤링 방지 대책, 증분 크롤링 전략을 계획합니다. Trino/Spark/빅데이터 레이크 분석을 지원하기 위해 다중 소스 데이터 스키마 사양과 메타데이터 수집 표준을 수립합니다. 직무 요구 사항: 컴퓨터 과학, 소프트웨어 엔지니어링 또는 관련 분야 학사 학위 이상 백엔드/데이터 엔지니어링 분야에서 최소 5년 이상의 경험, 분산 크롤러 시스템 또는 대규모 데이터 수집 플랫폼 분야에서 3년 이상의 경험 다음 언어 중 하나에 능숙함: Python, Go 또는 Java 및 이들의 동시 프로그래밍 모델 Scrapy, Playwright, Selenium과 같은 웹 스크래핑 프레임워크와 안티 스크래핑 메커니즘에 익숙합니다. 분산 스케줄링 및 빅데이터 생태계(Kafka, Spark, Airflow, Trino, S3/TOS/HDFS) 경험이 있습니다. 웹페이지 구조 추출(HTML DOM, XPath, 정규 표현식, 언어 감지)과 중복 제거, 세분화, 콘텐츠 추출 알고리즘을 이해합니다. 코퍼스 품질 관리, 데이터 잡음 제거, 언어 모델 교육 데이터 형식에 대한 실질적인 이해가 있는 지원자에게는 보너스 포인트가 부여됩니다. 검색 엔진, 콘텐츠 수집, 정보 추출, 데이터 크롤링/스트리밍 분야의 경험이 있는 사람을 선호합니다. 팀 간 커뮤니케이션 및 프로젝트 관리 기술을 보유하고 있으며, 데이터 기반 모델의 품질에 대한 강한 책임감을 가지고 있습니다. ------ 등록 세부 사항은 https://t.co/SgMGfxLGyw에서 확인할 수 있습니다.

Y11(@seclink)의 스레드

작성자 정보

스레드 내용