プログラミングマガジン

プログラミングを中心にIT技術をできるだけわかりやすくまとめます。

  • ホーム
  • Python
  • 【Python】スクレイピングプログラムの実装時の細かい配慮
 
 
     
  • サーバー言語  
    • Python
    • Ruby
    • PHP
    • SQL
  •  
  • インフラ  
       
    • AWS
    •  
    • 基本
    • Git
  • Web
       
    • Web開発
    • JavaScript
    • Vue.js
    • React
  •  
  • 設計  
       
    • 実装設計
    • DB設計
  • 問い合わせ
  

【Python】スクレイピングプログラムの実装時の細かい配慮

06.06

  • miyabisan2
  • コメントを書く

この記事は2分で読めます

ログイン画面

ログイン画面は通常の入力と異なりCSRFトークンをPOSTリクエストに合わせて送信する必要があります。ログイン処理が必要なWebアプリのスクレイピングの場合は、CSRFトークンが設定されているinput要素からCSRFトークンを取得して送信するように実装しましょう。

CSRFトークンは、formのhiddenパラメータに埋め込まれていることが多いのでformのhidden要素をXpathかCSSセレクタなどで特定します。

要素の絞り込み方

id属性を持っているなら積極的に利用する

HTMLのid属性はそのHTMLでは必ず一意な要素になるのでもし持っていたら積極的に活用しましょう。ただ、最近はclassだけ利用してコーディングをするという設計になっているサイトが多いのであくまでラッキー程度になります。

データ整形

取得データが改行が含まれているケースがある。

例えば、タイトルを取得したいと思ってもタイトルに改行が含まれているケースがあります。

Scrapyの場合

getAllで配列として取得してPythonのjoinメソッドで半角スペースを開けて返すメソッドを作って結合します。

取得しているデータの先頭や末尾に空白が含まれているケースがある。

XPathを使っている場合

normalize-spaceでXpathを囲ってあげることで先頭や末尾のスペースを除去できます。

1
'normalize-space(//h3/text())'

XPathを使っていない場合(例えば、CSSセレクタで取得する場合)

Pythonのstripメソッドを使う。先頭や末尾のスペースを取り除けます。

数値が文字列として取得されてきてしまう。

例えば、金額などの項目です。後で数値として処理したいのに文字列のままになっていると不便です。

整形するメソッドを作ってあげるようにしましょう。具体的には例えば金額であれば以下のような加工処理が必要です。

  • ¥をrepalceで置換する。
  • ,をreplaceで置換する。
  • intで数値型に変換する。

並び順を考慮する

Scrapyの場合

Scrapyだと以下のようなアーキテクチャになっており意図した順番にならない可能性があります。

  • 複数同時にリクエストを処理できるようになっている。
  • LIFOの方式をとっており、並び順で処理されることがない。

Scrapyでは保留中のリクエストを保存するためにLIFO キューを利用します。

 

スポンサーリンク
  • 2023 06.06
  • miyabisan2
  • コメントを書く
  • Python
  • Tweets Twitter
  • このエントリーをはてなブックマークに追加
  • LINEで送る

関連記事

  1. 2023 06.11

    【Python】スプレットシート操作

  2. 2023 06.12

    【Python】pyinstallerでPythonのコードをexe化する。

  3. 2023 06.09

    【Python】Scrapy Item、Item Loader、Item pipelineの基本

  4. 2023 06.12

    【Python】「Jupyter Notebook」とは?

  5. 2023 06.10

    【Python】ScrapyのImagePipelineの使い方

  6. 2023 06.06

    【Python】scrapyのcrawlテンプレートで実装

  • コメント ( 0 )
  • トラックバック ( 0 )
  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

返信をキャンセルする。

【Python】scrapyのcrawlテンプレートで…

【Python】Scrapyのデバッグ方法

RETURN TOP

著者プロフィール

エンジニア歴10年で過去に業務系、Webデザイン、インフラ系なども経験あります。現在はWeb系でフロントエンド開発中心です。

詳細なプロフィールはこちら

スポンサーリンク

カテゴリー

  • Android
  • AngularJS
  • API
  • AWS
  • C++
  • CSS
  • cursor
  • C言語
  • DDD
  • DevOps
  • Django
  • Docker
  • Figma
  • Git
  • GitLab
  • GraphQL
  • gRPC
  • Hasura
  • Java
  • JavaScript
  • Kubernetes
  • Laravel
  • linux
  • MySQL
  • Next.js
  • nginx
  • Node.js
  • NoSQL
  • Nuxt.js
  • Oracle
  • PHP
  • Python
  • React
  • Redux
  • Rspec
  • Ruby
  • Ruby on Rails
  • Sass
  • Spring Framework
  • SQL
  • TypeScript
  • Unity
  • Vue.js
  • Webサービス開発
  • Webデザイン
  • Web技術
  • インフラ
  • オブジェクト指向
  • システム開発
  • セキュリティ
  • その他
  • データベース
  • デザインパターン
  • テスト
  • ネットワーク
  • プログラミング全般
  • マイクロサービス
  • マイクロソフト系技術
  • マルチメディア
  • リファクタリング
  • 副業
  • 未分類
  • 業務知識
  • 生成AI
  • 設計
  • 関数型言語
RETURN TOP

Copyright ©  プログラミングマガジン | プライバシーポリシー