PythonでWebドキュメントをクローリングして、タグを削除する
概要
Pythonはクローリング用のパッケージがよく整っており、簡単にフォローできる。ウェブページを読み込んで、htmlタグを削除してみよう。
例
コード
import requests
from bs4 import BeautifulSoup
import re
rq = requests.get("https://ko.wikipedia.org/wiki/%EC%98%A4%EB%A7%88%EC%9D%B4%EA%B1%B8")
rqctnt = rq.content
soup = BeautifulSoup(rqctnt,"html.parser")
OMG = str(soup.find\_all("p"))
OMG = re.sub('<.+?>', '', OMG, 0).strip()
結果

- 例として、Wikipediaのオーマイガールの項目を読んでみよう。必要なパッケージは、見る通り
requestsとbs4がある。

- 読み込んでそのまま出力してみると、上に示したようにhtmlタグがこびりついている。削除するためには、例のコードにあるように正規表現を使う必要があって、パッケージ
reが必要だ。

- タグを削除して出力してみると、上に示されているように、必要な内容だけがきれいに表示される。
<<バナナアレルギー猿>>では<は≤に、>は>に変わって出てきたので、この部分だけもう一度直せばいい。
