プログラミングマガジン

プログラミングを中心にIT技術をできるだけわかりやすくまとめます。

  • ホーム
  • Python
  • 【Python】ScrapyのImagePipelineの使い方
 
 
     
  • サーバー言語  
    • Python
    • Ruby
    • PHP
    • SQL
  •  
  • インフラ  
       
    • AWS
    •  
    • 基本
    • Git
  • Web
       
    • Web開発
    • JavaScript
    • Vue.js
    • React
  •  
  • 設計  
       
    • 実装設計
    • DB設計
  • 問い合わせ
  

【Python】ScrapyのImagePipelineの使い方

06.10

  • miyabisan2
  • コメントを書く

この記事は2分で読めます

ImagePipelineとは?

ScrapyにはURLを渡すと画像ファイルをダウンロードして所定のフォルダに入れてくれる便利機能があります。ただ、以下の特徴になっているので適宜カスタマイズが必要になります。

  • デフォルトでランダムなファイル名
  • 保存場所が一定

注意点

画像ファイルをダウンロードするには完全な形の「絶対URL」が必要になります。(相対URLだとダウンロードできないです。)、絶対URLが画像に使ってあるサイトなら特に意識しなくても良いのですが相対パスが指定されている場合は必ず以下の加工をした上でImagePipelineでは扱ってあげる必要があります。

指定方法1

1
f'https://xxx.com/{相対ドメイン名}'

指定方法2

1
response.urljoin(相対URL)

scrapy/projects/プロジェクト名/プロジェクト名/items.py

まずは、Items.pyに対して画像を格納するフィールドを定義します。

1
2
3
import scrapy
class XXXItem(scrapy.Item):
  image_urls = scrapy.Field()

spiderのコード

1
2
3
4
def parse_item(self, response):
        loader = ItemLoader(item=BookItem(), response = response)
        loader.add_value('image_urls',response.urljoin(response.xpath('取得画像のXPath').get()))
        yield loader.load_item()

response.urljoinを使って絶対URLを取得します。response.urljoin自体にXpathを渡すのではなく相対URLを渡したいのでresponse.xpathにて相対URLを取得します。

ItemLoaderはadd_valueでXpathなどを使わずそのままItemに格納します。

settings.pyの設定

1
2
3
4
5
6
ITEM_PIPELINES = {
   "scrapy.pipelines.images.ImagesPipeline": 400,
}
 
IMAGES_STORE = r'任意のパス/projects/プロジェクト名/images'
IMAGES_URLS_FIELD = 'image_urls'

ITEM_PIPELINES

ImagePipelineの優先度の設定です。通常の自作pipelineと違ってscrapy本来が持っている機能なので指定はscrapyから始まります。

IMAGES_STORE

画像の保存先になります。お使いのPC上の任意の絶対パスなどで大丈夫です。パスの前には「r」を付けます。パスの中には円マークやバックスラッシュなどが含まれているのでこれを正しく認識できるようにするためです。

IMAGES_URLS_FIELD

画像ファイルのURLを格納したItemのフィールド名を指定します。この記事では「image_urls」という名前のフィールド名にしているのでその名前を指定しています。

ImagePipelineのコードをオーバーライドする。

現状だとfullというディレクトリに帰って来ています。それを防止するために以下のようにImagePipelineのコードを上書きしてファイル名だけ取得するようにします。

pipelines.pyにて以下のように記述します。

1
2
3
4
5
from scrapy.pipelines.images import ImagesPipeline
 
class customImagePipeline(ImagesPipeline):
    def file_path(self,request,response=None, info=None,*,item=None):
        return request.url.split('/')[-1]

settings.py

ITEM_PIPELINESの方の設定もオーバーライドしたメソッドを呼び出すようにします。

1
2
3
ITEM_PIPELINES = {
   "プロジェクト名.pipelines.customImagePipeline": 400,
}

 

 

スポンサーリンク
  • 2023 06.10
  • miyabisan2
  • コメントを書く
  • Python
  • Tweets Twitter
  • このエントリーをはてなブックマークに追加
  • LINEで送る

関連記事

  1. 2023 06.04

    【Python】ログ出力ライブラリlogging

  2. 2023 06.12

    【Python】pyinstallerでPythonのコードをexe化する。

  3. 2023 05.28

    【Python】「Requests」の使い方

  4. 2023 06.11

    【Python】スプレットシート操作

  5. 2023 05.30

    【Python】VSCodeで環境構築

  6. 2023 06.01

    【Python】Scrapyの構成、処理の流れ

  • コメント ( 0 )
  • トラックバック ( 0 )
  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

返信をキャンセルする。

【Python】scrapyからSQLite3へデータ…

【Python】「scrapy-selenium」を扱…

RETURN TOP

著者プロフィール

エンジニア歴10年で過去に業務系、Webデザイン、インフラ系なども経験あります。現在はWeb系でフロントエンド開発中心です。

詳細なプロフィールはこちら

スポンサーリンク

カテゴリー

  • Android
  • AngularJS
  • API
  • AWS
  • C++
  • CSS
  • cursor
  • C言語
  • DDD
  • DevOps
  • Django
  • Docker
  • Figma
  • Git
  • GitLab
  • GraphQL
  • gRPC
  • Hasura
  • Java
  • JavaScript
  • Kubernetes
  • Laravel
  • linux
  • MySQL
  • Next.js
  • nginx
  • Node.js
  • NoSQL
  • Nuxt.js
  • Oracle
  • PHP
  • Python
  • React
  • Redux
  • Rspec
  • Ruby
  • Ruby on Rails
  • Sass
  • Spring Framework
  • SQL
  • TypeScript
  • Unity
  • Vue.js
  • Webサービス開発
  • Webデザイン
  • Web技術
  • インフラ
  • オブジェクト指向
  • システム開発
  • セキュリティ
  • その他
  • データベース
  • デザインパターン
  • テスト
  • ネットワーク
  • プログラミング全般
  • マイクロサービス
  • マイクロソフト系技術
  • マルチメディア
  • リファクタリング
  • 副業
  • 未分類
  • 業務知識
  • 生成AI
  • 設計
  • 関数型言語
RETURN TOP

Copyright ©  プログラミングマガジン | プライバシーポリシー