【Python】Scrapyの構成、処理の流れ

構成

Scrapyでは主にコードはこのクラスに記述をしていきます。ここに記述すればScrapyがうまいこと他の作業をやってくれるようになります。

開発者はSpiderで以下の物を指定します。

SpiderとEngineとの間の処理を拡張するために使います。

Spiderでは取得したデータをこれに格納してEngineやItem pipelineを通じて送ることも可能です。

全ての構成要素を制御して一貫性を保つようにコーディネートしてくれます。

リクエスト処理をスケジュール管理します。具体的にはリクエストの順番をキューという形で保存します。

リクエストで指定されたURLのWebページをダウンロードします。

DownloaderとEngineとの間の処理を拡張するために使います。

抽出したデータ処理に関係します。具体的にはデータクレンジング（データ整形）、重複削除、データチェックなどをしてくれます。またデータベースへ保存したい場合などもこのItem Pipelineを使って行います。また、取得したデータ(Item)と取得順などが格納されています。

データベースへ保存したい場合は接続方法やSQLがデータベースによって異なるので必要に応じてItem Pipelineに処理を記述していく必要があります。

抽出したデータをCSVやJSONなどのファイルに出力します。関心事としてはあくまでファイル出力に関することだけで、データベースへの保存に関しては全く関与しません。

上記はScrapyの構成をご紹介しましたが実際にどのような流れで処理が行われているかご紹介します。

上記は、1リクエストを処理する流れになりますが、実際はScrapy上で多数のリクエストが同時に高速に捌かれてるようになっています。まずは1リクエストの流れを抑えましょう。