プログラミングマガジン

プログラミングを中心にIT技術をできるだけわかりやすくまとめます。

  • ホーム
  • Python
  • 【Python】Scrapyで複数ページを操る。
 
 
     
  • サーバー言語  
    • Python
    • Ruby
    • PHP
    • SQL
  •  
  • インフラ  
       
    • AWS
    •  
    • 基本
    • Git
  • Web
       
    • Web開発
    • JavaScript
    • Vue.js
    • React
  •  
  • 設計  
       
    • 実装設計
    • DB設計
  • 問い合わせ
  

【Python】Scrapyで複数ページを操る。

06.04

  • miyabisan2
  • コメントを書く

この記事は1分で読めます

Scrapyでのリンクのたどり方

複数の方法があります。

scrapy.Request(URL,コールバックメソッド)

  • URLは絶対URL(https://xxx.com)のみ
  • レスポンスはコールバックメソッドで受け取ります。

response.follow(URL/Selector,コールバックメソッド)

  • 相対URLにも対応
  • a要素のSelectorから自動的にhrefを取得してくれる。
  • レスポンスはコールバックメソッドで受け取ります。

一覧画面のページングを辿るサンプルコード

1
2
3
4
5
6
7
8
9
10
class SampleSpider(scrapy.Spider):
    name = "spider名"
    allowed_domains = ["www.xxx.com"]
    start_urls = ["https://www.xxx.com/1"]
 
    def parse(self, response):
              # 特定ページでの処理
        next_page = response.xpath('次のページへのリンクボタンのXPath')
        if next_page:
            yield response.follow(url=next_page[0],callback=self.parse)

url=next_page

次のページのリンクのSelectorを渡します。

callback=self.parse

単一ページで情報を取得する処理を記述します。そうすることであるページで「次へ」リンクがあるかぎりずっとループして処理をし続けてくれます。

一覧画面から詳細画面を辿って情報を取得するサンプル

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
class SampleSpider(scrapy.Spider):
    name = "spider名"
    allowed_domains = ["www.xxx.com"]
    start_urls = ["https://www.xxx.com/1"]
 
    def parse(self, response):
        # 一覧画面のitem一覧
        items = response.xpath("一覧情報のxpath")
 
        for item in items:
            yield response.follow(url=itemxpath("詳細画面へのURLのxpath").get(),callback=self.parse_item)
 
    def parse_item(self, response):
         item_info = response.xpath("詳細画面の各情報のxpath")
 
         yield {
           情報1: item_info.xpath(".情報1のXpath").get(),
           情報2: item_info.xpath(".情報2のXpath").get()
         }

ポイントとしては、parse_itemと詳細画面の情報を取得するためのメソッドを追加して呼び出します。

 

 

スポンサーリンク
  • 2023 06.04
  • miyabisan2
  • コメントを書く
  • Python
  • Tweets Twitter
  • このエントリーをはてなブックマークに追加
  • LINEで送る

関連記事

  1. 2023 06.12

    【Python】pyinstallerでPythonのコードをexe化する。

  2. 2023 05.30

    【Python】スクレイピング結果をCSVに保存する。

  3. 2023 06.04

    スクレイピングにおけるXPathの基本

  4. 2023 06.22

    【Python】Tkinterについて

  5. 2023 05.28

    【Python】「BeautifulSoup」について

  6. 2023 08.13

    【Lambda】PythonでLamda関数を定義して実行する

  • コメント ( 0 )
  • トラックバック ( 0 )
  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

返信をキャンセルする。

【Python】Scrapyでspiderを作成する流…

【Python】ログ出力ライブラリlogging

RETURN TOP

著者プロフィール

エンジニア歴10年で過去に業務系、Webデザイン、インフラ系なども経験あります。現在はWeb系でフロントエンド開発中心です。

詳細なプロフィールはこちら

スポンサーリンク

カテゴリー

  • Android
  • API
  • AWS
  • C++
  • CSS
  • C言語
  • DDD
  • DevOps
  • Django
  • Docker
  • Git
  • GitLab
  • GraphQL
  • Hasura
  • Java
  • JavaScript
  • Kubernetes
  • Laravel
  • linux
  • MySQL
  • Next.js
  • nginx
  • Node.js
  • NoSQL
  • Nuxt.js
  • Oracle
  • PHP
  • Python
  • React
  • Redux
  • Rspec
  • Ruby
  • Ruby on Rails
  • Sass
  • Spring Framework
  • SQL
  • TypeScript
  • Unity
  • Vue.js
  • WebRTC
  • Webサービス開発
  • Webデザイン
  • Web技術
  • インフラ
  • オブジェクト指向
  • システム開発
  • セキュリティ
  • その他
  • データベース
  • デザインパターン
  • テスト
  • ネットワーク
  • プログラミング全般
  • マイクロサービス
  • マイクロソフト系技術
  • マルチメディア
  • リファクタリング
  • 副業
  • 未分類
  • 業務知識
  • 設計
  • 関数型言語
RETURN TOP

Copyright ©  プログラミングマガジン | プライバシーポリシー