コード一覧

【Python】BeautifulSoupの基本コード

URLへアクセス

coding:utf-8を入れておかないと取得してきた文字がバグる。
これだけ実行しても特に何も起きないけど、接続するための基本コード。

要素を取得する方法

HTMLからどの要素を取得して、どういう形に変換するかを指定する。
基本的な書き方は soup.find(“タグ名”)

タグ名で取得する

タグがない場合、Noneが返ってくる。
また、これだけだと、テキストだけじゃなくて、タグも全部表示される。
例えば、https://www.python.jp/につないで、以下を実行すると


以下のように、タグも全部取ってくる。

 

テキストだけ取ってくる場合は以下のようにする。

 

これを実行すると以下のようになる。

プログラミング言語 Python の概要を紹介します

ちょうど、<p>タグのなかのテキストだけを取ってきた感じ。

ドキュメント
http://kondou.com/BS4/