PythonでWebドキュメントをクローリングして、タグを削除する
概要
Pythonはクローリング用のパッケージがよく整っており、簡単にフォローできる。ウェブページを読み込んで、htmlタグを削除してみよう。
例
コード
import requests
from bs4 import BeautifulSoup
import re
rq = requests.get("https://ko.wikipedia.org/wiki/%EC%98%A4%EB%A7%88%EC%9D%B4%EA%B1%B8")
rqctnt = rq.content
soup = BeautifulSoup(rqctnt,"html.parser")
OMG = str(soup.find\_all("p"))
OMG = re.sub('<.+?>', '', OMG, 0).strip()
結果
- 例として、Wikipediaのオーマイガールの項目を読んでみよう。必要なパッケージは、見る通り
requests
とbs4
がある。
- 読み込んでそのまま出力してみると、上に示したようにhtmlタグがこびりついている。削除するためには、例のコードにあるように正規表現を使う必要があって、パッケージ
re
が必要だ。
- タグを削除して出力してみると、上に示されているように、必要な内容だけがきれいに表示される。
<<バナナアレルギー猿>>
では<
は≤
に、>
は>
に変わって出てきたので、この部分だけもう一度直せばいい。