Web スクレイピングや Web サイトの移行を行うときに、乱雑な HTML タグでいっぱいの画面をクリーンアップして、きれいな Markdown 形式に変換するのは本当に頭の痛い作業です。 私はオープンソース コミュニティで python-markdownify という便利なツールを発見しました。これは HTML を Markdown に変換する問題を解決するために特別に設計されています。 コアロジックは非常に単純です。複雑な HTML 文字列またはファイルを、適切に構造化された Markdown テキストに正確に変換します。 高度なカスタマイズをサポートしており、特定のタグのフィルタリング、タイトル スタイルの調整、表や画像の処理など、すべてを必要に応じて構成できます。 GitHub: https://t.co/i1Vn9IfaLZ pip を使用してワンクリックでインストールでき、Python コードで柔軟に呼び出すことができるほか、コマンドラインから直接ファイルのバッチ変換もサポートします。 継承されたクラスは、特別なビジネス ニーズに対応するために変換ルールをオーバーライドすることもできるため、拡張性が非常に高くなります。 大量のテキストデータを処理する必要がある場合やブログを移行する場合、このライブラリを使用すると正規表現を書く時間を大幅に節約できます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
