プログラミングマガジン

プログラミングを中心にIT技術をできるだけわかりやすくまとめます。

  • ホーム
  • Python
  • 【Python】Scrapyでspiderを作成する流れ
 
 
     
  • サーバー言語  
    • Python
    • Ruby
    • PHP
    • SQL
  •  
  • インフラ  
       
    • AWS
    •  
    • 基本
    • Git
  • Web
       
    • Web開発
    • JavaScript
    • Vue.js
    • React
  •  
  • 設計  
       
    • 実装設計
    • DB設計
  • 問い合わせ
  

【Python】Scrapyでspiderを作成する流れ

06.04

  • miyabisan2
  • コメントを書く

この記事は2分で読めます

スパイダーの作成

1
2
cd spiders
scrapy genspider [-t テンプレート] スパイダー名 URL(最初のhttps://と最後の/は不要)

プロジェクト内のspidersフォルダに移動して上記コマンドを実行します。

-t テンプレート

デフォルトは「basicテンプレート」になっています。

テンプレートの確認

1
2
3
4
5
6
7
scrapy genspider -l
 
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

選べるテンプレートは上記コマンドで確認できます。

生成されるスパイダーclass

1
2
3
4
5
6
7
8
9
10
import scrapy
 
 
class XXXSpider(scrapy.Spider):
    name = "スパイダー名"
    allowed_domains = ["xxx"]
    start_urls = ["https://xxx"]
 
    def parse(self, response):
        pass

scrapy.Spider

継承しているクラスです。これを継承しているのでほんの数行でも多くのことを行うことができます。

allowed_domains

spiderがアクセスするドメイン名です。指定されたドメイン以外にスクレイピングすることを防止できます。設定しなくても動きますが、思わぬサイトにアクセスしてしまわないように設定したほうが無難です。

start_urls

ここで設定したURLに対してリクエストをまず行います。配列なので複数設定も可能です。

parseメソッド

Webサイトからのレスポンスをここでキャッチします。ここにXPathやCSSセレクタなどを使った情報抽出処理などを記述していきます。

サンプル

Scrapyではほんの数行のコードを記述するだけで基本的なコーディングは終わります。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import scrapy
 
 
class QiitaTrend1dSpider(scrapy.Spider):
    name = "spider名"
    allowed_domains = ["xxx.com"]
    start_urls = ["https://xxx.com"]
 
    def parse(self, response):
        変数1 = response.xpath('変数1を取得するXpath').get()
        変数2 = response.xpath('変数2を取得するXpath').getall()
 
        yield {
            'キー1':変数1,
            'キー2': 変数2,
        }

response

データ型は「scrapy.http.response.html.HtmlResponse」というclassになります。

公式サイトに詳しい使い方は載っています。(xpathやcssメソッドについてもこのページに記載があります。)

https://doc-ja-scrapy.readthedocs.io/ja/latest/topics/request-response.html

yield 戻り値

関数の実行を一時的に停止して戻り値を返します。response結果に対して辞書型を戻り値として設定してあげることによって画面やコンソールに取得結果が出力されます。一旦停止するだけなのでその後処理は継続して実行されます。

spiderの実行

プロジェクトフォルダ直下で、以下のコマンドを実行します。

1
scrapy crawl スパイダー名(spiderクラスの中のnameで指定した値)

jsonに出力したい場合

oオプションを使います。

1
scrapy crawl spider名 -o xxx.json

入れ子(Selectorに対してXPathを指定):相対XPath

1
2
parent = response.xpath('//div[contains(@class,"parent")]')
child = parent.xpath('.//div[contains(@class,"pName")]/p')

親要素のSelectorに対してxpathを実行できます。その際はresponseにXPathを指定するのと異なり、ドットを先頭につける必要があるので注意です。

これを相対XPathと呼びます。

スポンサーリンク
  • 2023 06.04
  • miyabisan2
  • コメントを書く
  • Python
  • Tweets Twitter
  • このエントリーをはてなブックマークに追加
  • LINEで送る

関連記事

  1. 2023 05.28

    【Python】「BeautifulSoup」について

  2. 2018 06.18

    【Python】基礎知識(言語の特徴、フレームワーク)

  3. 2023 06.24

    【Python】pep8、linter(flake8)、フォーマッター(black、isort)、VSCode拡張機能(autopep8)

  4. 2023 06.22

    【Python】Tkinterについて

  5. 2023 06.09

    【NoSQL】MongoDBの基本

  6. 2023 07.20

    【Python】ValueError: Timeout value connect was エラーの対処

  • コメント ( 0 )
  • トラックバック ( 0 )
  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

返信をキャンセルする。

スクレイピングにおけるXPathの基本

【Python】Scrapyで複数ページを操る。

RETURN TOP

著者プロフィール

エンジニア歴10年で過去に業務系、Webデザイン、インフラ系なども経験あります。現在はWeb系でフロントエンド開発中心です。

詳細なプロフィールはこちら

スポンサーリンク

カテゴリー

  • Android
  • AngularJS
  • API
  • AWS
  • C++
  • CSS
  • cursor
  • C言語
  • DDD
  • DevOps
  • Django
  • Docker
  • Figma
  • Git
  • GitLab
  • GraphQL
  • gRPC
  • Hasura
  • Java
  • JavaScript
  • Kubernetes
  • Laravel
  • linux
  • MySQL
  • Next.js
  • nginx
  • Node.js
  • NoSQL
  • Nuxt.js
  • Oracle
  • PHP
  • Python
  • React
  • Redux
  • Rspec
  • Ruby
  • Ruby on Rails
  • Sass
  • Spring Framework
  • SQL
  • TypeScript
  • Unity
  • Vue.js
  • Webサービス開発
  • Webデザイン
  • Web技術
  • インフラ
  • オブジェクト指向
  • システム開発
  • セキュリティ
  • その他
  • データベース
  • デザインパターン
  • テスト
  • ネットワーク
  • プログラミング全般
  • マイクロサービス
  • マイクロソフト系技術
  • マルチメディア
  • リファクタリング
  • 副業
  • 未分類
  • 業務知識
  • 生成AI
  • 設計
  • 関数型言語
RETURN TOP

Copyright ©  プログラミングマガジン | プライバシーポリシー