파이썬으로 웹 문서 크롤링하고 태그 제거하기

파이썬으로 웹 문서 크롤링하고 태그 제거하기

How to crawl web site and remove html tag using python

개요

파이썬은 크롤링을 위한 패키지가 잘 갖춰져있어 쉽게 따라할 수 있다. 웹 페이지를 읽어들이고 html 태그를 제거해보자.

예제

코드

import requests
from bs4 import BeautifulSoup
import re
 
rq = requests.get("https://ko.wikipedia.org/wiki/%EC%98%A4%EB%A7%88%EC%9D%B4%EA%B1%B8")
rqctnt = rq.content
soup = BeautifulSoup(rqctnt,"html.parser")
 
OMG = str(soup.find\_all("p"))
 
OMG = re.sub('<.+?>', '', OMG, 0).strip()

결과

20180521\_143907.png

  • 예제로 위키피디아에서 오마이걸 항목을 읽어와보도록 하자. 필요한 패키지는 보이는대로 requestsbs4가 있다.

20180521\_143926.png

  • 읽어들이기만 하고 출력해보면 위와 같이 html 태그가 덕지덕지 붙어있다. 제거하기 위해서는 예제 코드에 나온 것처럼 정규표현식을 사용해야하고 패키지 re 가 필요하다.

20180521\_143943.png

  • 태그를 제거한 후 출력해보면 위와 같이 깔끔하게 필요한 내용만 찍힌다. <<바나나 알러지 원숭이>>에서 <&le;로, >&gt;로 바뀌어 나왔으니 이 부분만 한 번 더 고쳐주면 된다.
댓글