高階工作機會:米哈遊招通用網頁爬蟲負責人【P7-P8】 ----- 通用網頁爬蟲負責人米哈遊· 上海> 職位描述主導設計統一的通用網頁爬取框架,建構高並發分散式爬取系統,涵蓋網頁、論壇、社群媒體、文件、視訊/音訊轉寫等多模態資料來源; 負責抓取後的資料落地、分片儲存、內容解析(HTML/JSON/多語言文字/字幕/評論流等)與去重,與資料清洗、內容品質、取樣與訓練團隊合作,實現端到端可追溯的資料管線; 規劃爬蟲叢集、代理池、分散式調度、動態反爬對抗與增量抓取策略; 建立多來源資料schema 規範與元資料擷取標準,支撐Trino/Spark/大資料湖分析; 職位要求電腦科學、軟體工程或相關專業,本科及以上學歷; 至少5年以上後端/資料工程經驗,3年以上分散式爬蟲系統或大規模資料擷取平台經驗; 精通Python/Go/Java 任一語言及其並發程式設計模型; 熟悉Scrapy、Playwright、Selenium 等爬取框架及反爬機制; 具備分散式調度與大數據生態(Kafka、Spark、Airflow、Trino、S3/TOS/HDFS)經驗; 理解網頁結構化抽取(HTML DOM、XPath、正規、語言偵測)與去重、分段、內容抽取演算法; 對語料品質控制、資料去雜訊與語言模型訓練資料格式有實際理解者加分; 有搜尋引擎、內容聚合、資訊擷取、資料抓取/串流擷取經驗者優先; 具備跨團隊溝通與專案推進能力,對數據驅動的模式品質有強烈責任感; ------ 報名地址詳見:https://t.co/SgMGfxLGyw 搜尋
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。