파이썬으로 웹 문서 크롤링하고 태그 제거하기

파이썬으로 웹 문서 크롤링하고 태그 제거하기

개요

파이썬은 크롤링을 위한 패키지가 잘 갖춰져있어 쉽게 따라할 수 있다. 웹 페이지를 읽어들이고 html 태그를 제거해보자.

예제

코드

import requests
from bs4 import BeautifulSoup
import re
 
rq = requests.get("https://ko.wikipedia.org/wiki/%EC%98%A4%EB%A7%88%EC%9D%B4%EA%B1%B8")
rqctnt = rq.content
soup = BeautifulSoup(rqctnt,"html.parser")
 
OMG = str(soup.find\_all("p"))
 
OMG = re.sub('<.+?>', '', OMG, 0).strip()

결과

20180521\_143907.png

20180521\_143926.png

20180521\_143943.png

댓글