プログラミングマガジン

プログラミングを中心にIT技術をできるだけわかりやすくまとめます。

  • ホーム
  • Python
  • 【Python】主流のスクレピングライブラリ
 
 
     
  • サーバー言語  
    • Python
    • Ruby
    • PHP
    • SQL
  •  
  • インフラ  
       
    • AWS
    •  
    • 基本
    • Git
  • Web
       
    • Web開発
    • JavaScript
    • Vue.js
    • React
  •  
  • 設計  
       
    • 実装設計
    • DB設計
  • 問い合わせ
  

【Python】主流のスクレピングライブラリ

05.26

  • miyabisan2
  • コメントを書く

この記事は2分で読めます

Pythonのスクレイピングライブラリの主流は、今は大きく二つのライブラリを使い分けます。

  • Requests + BeautifulSoup
  • Scrapy
  • Selenium

Requests + BeautifulSoup

JavaScriptが使われていない静的なサイトであればこれでいけます。

ユースケース

  • homesやsuumoなどのように不動産情報を取得したい場合など。

Requests

PythonでHTTP通信をするためのライブラリ。平たく言えば、HTMLを取得できるライブラリです。

また、WebページのURLだけでなくAPIにアクセスすることも可能です。

なお、Requestsは外部ライブラリなのでpip installが必要になります。(ただ、もしAnacondaを使用して開発をしている場合はデフォルトでRequestsは入っているのでインストールは不要です。)

urllibと比較してどうか?

urllibでもRequestsとほぼ同等のことが実現できます。本によってはRequestsではなくurllibが紹介されていたりします。

urllibに比べてRequestsの方がより簡潔に記述することができます。

ただ、urllibはPythonの標準ライブラリでpip installが不要なのが利点になります。(もしAnacondaを使っておらず、pip installできない環境であればurllibの方が良いかと思います。)

BeautifulSoup

Requestsで取得したHTMLを解析できるライブラリです。

Scrapy

「Requests + BeautifulSoup」に代わるフレームワークとも言われます。「Requests + BeautifulSoup」だと別々のライブラリが必要ですが、「Scrapy」ならこれ一つカバーできます。それだけでなくそれらを上回る機能も存在します。

また、JavaScriptを使っているサイトであれば「scrapy-selenium」というライブラリを別途使う必要があります。

Selenium

JavaScriptが使われているような難しいWebサイトから情報を取得したい場合はこれを使います。

具体的に言えば、最近は無限スクロール(初期レンダリングで全てのデータが描画されず、スクロールするたびに描画されていく方式)のサイトが多いです。そうした無限スクロールにはJavaScriptの技術が使われておりどうしても静的なDOM操作だけでは対応できません。自動DOM操作を再現できるSeleniumでの実装なら実現が可能です。

Selenium自体はPython独自のものではなく専用ツールがあるのでPythonのSeleniumのクライアントライブラリとは別にツールを用意する必要があります。

あとは、実際のブラウザで操作するので動作が遅いことが難点です。

ユースケース

  • 気象庁のホームページなどで動的にデータが表示されているようなサイトから情報を取得したい場合
  • 他にはyahoo画像検索などのように画像データを取得したい場合

データ保存用のライブラリ

Pandas

CSVなどに保存したい場合はこれを使います。Pythonにおいてはスクレピングの分野だけではなく、データサイエンス(データ分析)の分野などでも度々登場してくる利用頻度が高いライブラリです。

os

PCにスクレイピングした画像などを保存したい場合に使います。保存そのものよりも保存用のフォルダを作成したりする場合に使います。

ちなみに、外部ライブラリではなく(pipなどでインストールする物ではない)Python組み込みのライブラリです。

 

 

 

スポンサーリンク
  • 2023 05.26
  • miyabisan2
  • コメントを書く
  • Python
  • Tweets Twitter
  • このエントリーをはてなブックマークに追加
  • LINEで送る

関連記事

  1. 2018 06.18

    【Python】対話実行モード(REPL)。開発環境(PyCharm、IDLEなど)

  2. 2023 06.15

    【Python】環境構築手法比較

  3. 2023 06.09

    【NoSQL】MongoDBの基本

  4. 2018 06.18

    【Python】基礎知識(言語の特徴、フレームワーク)

  5. 2023 06.04

    【Python】Scrapyで複数ページを操る。

  6. 2023 08.13

    【Lambda】PythonでLamda関数を定義して実行する

  • コメント ( 0 )
  • トラックバック ( 0 )
  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

返信をキャンセルする。

【設計】スクレイピングプログラムの設計

【Python】基本文法

RETURN TOP

著者プロフィール

エンジニア歴10年で過去に業務系、Webデザイン、インフラ系なども経験あります。現在はWeb系でフロントエンド開発中心です。

詳細なプロフィールはこちら

スポンサーリンク

カテゴリー

  • Android
  • AngularJS
  • API
  • AWS
  • C++
  • CSS
  • cursor
  • C言語
  • DDD
  • DevOps
  • Django
  • Docker
  • Figma
  • Git
  • GitLab
  • GraphQL
  • gRPC
  • Hasura
  • Java
  • JavaScript
  • Kubernetes
  • Laravel
  • linux
  • MySQL
  • Next.js
  • nginx
  • Node.js
  • NoSQL
  • Nuxt.js
  • Oracle
  • PHP
  • Python
  • React
  • Redux
  • Rspec
  • Ruby
  • Ruby on Rails
  • Sass
  • Spring Framework
  • SQL
  • TypeScript
  • Unity
  • Vue.js
  • Webサービス開発
  • Webデザイン
  • Web技術
  • インフラ
  • オブジェクト指向
  • システム開発
  • セキュリティ
  • その他
  • データベース
  • デザインパターン
  • テスト
  • ネットワーク
  • プログラミング全般
  • マイクロサービス
  • マイクロソフト系技術
  • マルチメディア
  • リファクタリング
  • 副業
  • 未分類
  • 業務知識
  • 生成AI
  • 設計
  • 関数型言語
RETURN TOP

Copyright ©  プログラミングマガジン | プライバシーポリシー