ハイエンドの求人チャンス:miHoYoがWebクローラーのリーダーを募集中 [P7-P8] ----- miHoYo、上海のジェネラルウェブクローラー責任者 職務内容には、統合された汎用 Web クローリング フレームワークの設計を主導し、Web ページ、フォーラム、ソーシャル メディア、ドキュメント、ビデオ/オーディオの転写などのマルチモーダル データ ソースをカバーする高並行性分散クローリング システムを構築する役割が概説されています。 クロールされたデータのランディング、シャーディングと保存、解析(HTML/JSON/多言語テキスト/字幕/コメント ストリームなど)、重複排除を担当し、データ クリーニング、コンテンツ品質、サンプリング、トレーニング チームと協力して、エンドツーエンドで追跡可能なデータ パイプラインを実現します。 クローラー クラスター、プロキシ プール、分散スケジュール、動的なクロール対策、および増分クロール戦略を計画します。 Trino/Spark/ビッグデータ レイク分析をサポートするためのマルチソース データ スキーマ仕様とメタデータ収集標準を確立します。 職務要件: コンピュータサイエンス、ソフトウェアエンジニアリングまたは関連分野で学士号以上を取得していること。 バックエンド/データ エンジニアリングの経験が 5 年以上、分散クローラー システムまたは大規模データ取得プラットフォームの経験が 3 年以上。 Python、Go、Java のいずれかの言語とそれらの並行プログラミング モデルに精通していること。 Scrapy、Playwright、Selenium などの Web スクレイピング フレームワークとアンチスクレイピング メカニズムに精通している。 分散スケジューリングとビッグデータ エコシステム (Kafka、Spark、Airflow、Trino、S3/TOS/HDFS) の経験あり。 Web ページ構造の抽出 (HTML DOM、XPath、正規表現、言語検出) と重複排除、セグメンテーション、コンテンツ抽出のアルゴリズムを理解します。 コーパス品質管理、データノイズ除去、言語モデルトレーニングデータ形式について実践的な理解がある候補者にはボーナスポイントが付与されます。 検索エンジン、コンテンツ集約、情報抽出、データクロール/ストリーミングの経験がある方が望ましいです。 チーム間のコミュニケーションとプロジェクト管理のスキルを持ち、データ駆動型モデルの品質に対して強い責任感を持っています。 ------ 登録の詳細はこちらをご覧ください:https://t.co/SgMGfxLGyw
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。