웹 스크래핑이나 웹사이트 마이그레이션을 할 때, 지저분한 HTML 태그로 가득 찬 화면을 정리하고 이를 깔끔한 마크다운 형식으로 변환하는 것은 정말 골치 아픈 일이 될 수 있습니다. 저는 오픈소스 커뮤니티에서 python-markdownify라는 유용한 도구를 발견했는데, 이 도구는 HTML을 마크다운으로 변환하는 문제를 해결하도록 특별히 설계되었습니다. 핵심 논리는 매우 간단합니다. 복잡한 HTML 문자열이나 파일을 잘 구성된 마크다운 텍스트로 정확하게 변환하는 것입니다. 높은 수준의 사용자 정의가 가능합니다. 특정 태그 필터링, 제목 스타일 조정, 표와 이미지 처리 등 모든 것을 필요에 따라 구성할 수 있습니다. GitHub: https://t.co/i1Vn9IfaLZ pip를 사용하여 한 번의 클릭으로 설치할 수 있으며, Python 코드에서 유연하게 호출할 수 있고, 명령줄에서 직접 파일의 일괄 변환을 지원할 수 있습니다. 상속된 클래스가 변환 규칙을 재정의하여 특수한 비즈니스 요구 사항을 처리할 수 있도록 하여 확장성이 매우 뛰어납니다. 대량의 텍스트 데이터를 처리해야 하거나 블로그를 마이그레이션하는 경우, 이 라이브러리는 정규 표현식을 작성하는 데 많은 시간을 절약할 수 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
