파이썬으로 웹 문서 크롤링하고 태그 제거하기
개요
파이썬은 크롤링을 위한 패키지가 잘 갖춰져있어 쉽게 따라할 수 있다. 웹 페이지를 읽어들이고 html 태그를 제거해보자.
예제
코드
import requests
from bs4 import BeautifulSoup
import re
rq = requests.get("https://ko.wikipedia.org/wiki/%EC%98%A4%EB%A7%88%EC%9D%B4%EA%B1%B8")
rqctnt = rq.content
soup = BeautifulSoup(rqctnt,"html.parser")
OMG = str(soup.find\_all("p"))
OMG = re.sub('<.+?>', '', OMG, 0).strip()
결과
- 예제로 위키피디아에서 오마이걸 항목을 읽어와보도록 하자. 필요한 패키지는 보이는대로
requests
와bs4
가 있다.
- 읽어들이기만 하고 출력해보면 위와 같이 html 태그가 덕지덕지 붙어있다. 제거하기 위해서는 예제 코드에 나온 것처럼 정규표현식을 사용해야하고 패키지
re
가 필요하다.
- 태그를 제거한 후 출력해보면 위와 같이 깔끔하게 필요한 내용만 찍힌다.
<<바나나 알러지 원숭이>>
에서<
는≤
로,>
는>
로 바뀌어 나왔으니 이 부분만 한 번 더 고쳐주면 된다.