プログラミングマガジン

プログラミングを中心にIT技術をできるだけわかりやすくまとめます。

  • ホーム
  • Python
  • 【Python】Scrapyの構成、処理の流れ
 
 
     
  • サーバー言語  
    • Python
    • Ruby
    • PHP
    • SQL
  •  
  • インフラ  
       
    • AWS
    •  
    • 基本
    • Git
  • Web
       
    • Web開発
    • JavaScript
    • Vue.js
    • React
  •  
  • 設計  
       
    • 実装設計
    • DB設計
  • 問い合わせ
  

【Python】Scrapyの構成、処理の流れ

06.01

  • miyabisan2
  • コメントを書く

この記事は2分で読めます

構成

Spider

Scrapyでは主にコードはこのクラスに記述をしていきます。ここに記述すればScrapyがうまいこと他の作業をやってくれるようになります。

開発者はSpiderで以下の物を指定します。

  • 最初にアクセスするURLを指定
  • リンクのたどり方を指定
  • 必要なデータ抽出法を指定

Middleware

SpiderとEngineとの間の処理を拡張するために使います。

Item

Spiderでは取得したデータをこれに格納してEngineやItem pipelineを通じて送ることも可能です。

Engine

全ての構成要素を制御して一貫性を保つようにコーディネートしてくれます。

Scheduler

リクエスト処理をスケジュール管理します。具体的にはリクエストの順番をキューという形で保存します。

Downloader

リクエストで指定されたURLのWebページをダウンロードします。

Middleware

DownloaderとEngineとの間の処理を拡張するために使います。

Item Pipeline

抽出したデータ処理に関係します。具体的にはデータクレンジング(データ整形)、重複削除、データチェックなどをしてくれます。またデータベースへ保存したい場合などもこのItem Pipelineを使って行います。また、取得したデータ(Item)と取得順などが格納されています。

データベースへ保存したい場合は接続方法やSQLがデータベースによって異なるので必要に応じてItem Pipelineに処理を記述していく必要があります。

Feed Exporter

抽出したデータをCSVやJSONなどのファイルに出力します。関心事としてはあくまでファイル出力に関することだけで、データベースへの保存に関しては全く関与しません。

処理の流れ

上記はScrapyの構成をご紹介しましたが実際にどのような流れで処理が行われているかご紹介します。

  1. startURLに指定されたURLに対してspiderはEngineにリクエストを送ります。
  2. EngineはリクエストをSchedulerに転送します。
  3. Schedulerがリクエストをスケジュール登録し、スケジュール通りになったら再度Engineにリクエストが送られます。
  4. EngineはDownload Middlewareを用いてDownloaderにリクエストを送ります。
  5. DownloaderはインターネットからHTMLなどのWebページをダウンロードします。
  6. ダウンロードしたレスポンスはEngineに送付されます。
  7. EngineはSpider Middlewareを用いてSpiderにレスポンス結果を返します。
  8. SpiderではXPathなどを用いてレスポンスからデータを抽出するか、リンクなどを取得して再度リンクをリクエストしたりします。
  9. 最終的にSpiderはレスポンス結果をPythonの辞書に格納して、Feed Exporterなどでファイル出力します。

上記は、1リクエストを処理する流れになりますが、実際はScrapy上で多数のリクエストが同時に高速に捌かれてるようになっています。まずは1リクエストの流れを抑えましょう。

スポンサーリンク
  • 2023 06.01
  • miyabisan2
  • コメントを書く
  • Python
  • Tweets Twitter
  • このエントリーをはてなブックマークに追加
  • LINEで送る

関連記事

  1. 2023 06.17

    【Python】日時関連

  2. 2023 06.04

    スクレイピングにおけるXPathの基本

  3. 2023 06.09

    【Python】Scrapy Item、Item Loader、Item pipelineの基本

  4. 2023 08.13

    【Lambda】PythonでLamda関数を定義して実行する

  5. 2023 06.06

    【Python】scrapyのcrawlテンプレートで実装

  6. 2023 06.08

    【Python】Scrapyのデバッグ方法

  • コメント ( 0 )
  • トラックバック ( 0 )
  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

返信をキャンセルする。

【Python】Seleniumでクローリング環境を構…

【Python】Scrapyのコマンド、開発の流れ

RETURN TOP

著者プロフィール

エンジニア歴10年で過去に業務系、Webデザイン、インフラ系なども経験あります。現在はWeb系でフロントエンド開発中心です。

詳細なプロフィールはこちら

スポンサーリンク

カテゴリー

  • Android
  • AngularJS
  • API
  • AWS
  • C++
  • CSS
  • cursor
  • C言語
  • DDD
  • DevOps
  • Django
  • Docker
  • Figma
  • Git
  • GitLab
  • GraphQL
  • gRPC
  • Hasura
  • Java
  • JavaScript
  • Kubernetes
  • Laravel
  • linux
  • MySQL
  • Next.js
  • nginx
  • Node.js
  • NoSQL
  • Nuxt.js
  • Oracle
  • PHP
  • Python
  • React
  • Redux
  • Rspec
  • Ruby
  • Ruby on Rails
  • Sass
  • Spring Framework
  • SQL
  • TypeScript
  • Unity
  • Vue.js
  • Webサービス開発
  • Webデザイン
  • Web技術
  • インフラ
  • オブジェクト指向
  • システム開発
  • セキュリティ
  • その他
  • データベース
  • デザインパターン
  • テスト
  • ネットワーク
  • プログラミング全般
  • マイクロサービス
  • マイクロソフト系技術
  • マルチメディア
  • リファクタリング
  • 副業
  • 未分類
  • 業務知識
  • 生成AI
  • 設計
  • 関数型言語
RETURN TOP

Copyright ©  プログラミングマガジン | プライバシーポリシー