logo

PythonでWebドキュメントをクローリングして、タグを削除する 📂プログラミング

PythonでWebドキュメントをクローリングして、タグを削除する

概要

Pythonはクローリング用のパッケージがよく整っており、簡単にフォローできる。ウェブページを読み込んで、htmlタグを削除してみよう。

コード

import requests
from bs4 import BeautifulSoup
import re
 
rq = requests.get("https://ko.wikipedia.org/wiki/%EC%98%A4%EB%A7%88%EC%9D%B4%EA%B1%B8")
rqctnt = rq.content
soup = BeautifulSoup(rqctnt,"html.parser")
 
OMG = str(soup.find\_all("p"))
 
OMG = re.sub('<.+?>', '', OMG, 0).strip()

結果

20180521\_143907.png

  • 例として、Wikipediaのオーマイガールの項目を読んでみよう。必要なパッケージは、見る通りrequestsbs4がある。

20180521\_143926.png

  • 読み込んでそのまま出力してみると、上に示したようにhtmlタグがこびりついている。削除するためには、例のコードにあるように正規表現を使う必要があって、パッケージreが必要だ。

20180521\_143943.png

  • タグを削除して出力してみると、上に示されているように、必要な内容だけがきれいに表示される。<<バナナアレルギー猿>>では<&le;に、>&gt;に変わって出てきたので、この部分だけもう一度直せばいい。