X (Twitter)

ハイエンドの求人チャンス：miHoYoがWebクローラーのリーダーを募集中 [P7-P8] ----- miHoYo、上海のジェネラルウェブクローラー責任者職務内容には、統合された汎用 Web クローリングフレームワークの設計を主導し、Web ページ、フォーラム、ソーシャルメディア、ドキュメント、ビデオ/オーディオの転写などのマルチモーダルデータソースをカバーする高並行性分散クローリングシステムを構築する役割が概説されています。クロールされたデータのランディング、シャーディングと保存、解析（HTML/JSON/多言語テキスト/字幕/コメントストリームなど）、重複排除を担当し、データクリーニング、コンテンツ品質、サンプリング、トレーニングチームと協力して、エンドツーエンドで追跡可能なデータパイプラインを実現します。クローラークラスター、プロキシプール、分散スケジュール、動的なクロール対策、および増分クロール戦略を計画します。 Trino/Spark/ビッグデータレイク分析をサポートするためのマルチソースデータスキーマ仕様とメタデータ収集標準を確立します。職務要件: コンピュータサイエンス、ソフトウェアエンジニアリングまたは関連分野で学士号以上を取得していること。バックエンド/データエンジニアリングの経験が 5 年以上、分散クローラーシステムまたは大規模データ取得プラットフォームの経験が 3 年以上。 Python、Go、Java のいずれかの言語とそれらの並行プログラミングモデルに精通していること。 Scrapy、Playwright、Selenium などの Web スクレイピングフレームワークとアンチスクレイピングメカニズムに精通している。分散スケジューリングとビッグデータエコシステム (Kafka、Spark、Airflow、Trino、S3/TOS/HDFS) の経験あり。 Web ページ構造の抽出 (HTML DOM、XPath、正規表現、言語検出) と重複排除、セグメンテーション、コンテンツ抽出のアルゴリズムを理解します。コーパス品質管理、データノイズ除去、言語モデルトレーニングデータ形式について実践的な理解がある候補者にはボーナスポイントが付与されます。検索エンジン、コンテンツ集約、情報抽出、データクロール/ストリーミングの経験がある方が望ましいです。チーム間のコミュニケーションとプロジェクト管理のスキルを持ち、データ駆動型モデルの品質に対して強い責任感を持っています。 ------ 登録の詳細はこちらをご覧ください：https://t.co/SgMGfxLGyw

Y11（@seclink）のスレッド

作者情報

スレッド内容