カテゴリー:Python
-
Scrapy Itemとは? Webサイトから取得したデータを格納する入れ物(オブジェクト) あらかじめ定義したフィールドに対してデータを定義する。 データ構造を正確に保つことができる。(定義していないフィールドに…
-
06.08
【Python】Scrapyのデバッグ方法
スパイダーをVSCodeのステップ実行でデバッグする。 scrapy.cfgファイルがあるディレクトリに対して、ファイルを任意の名前をつけて保存します。(例:xxx_debug.pyなど) [crayon-64827f1064b2494…
-
crawlテンプレートとは? 通常のWebサイトをクロールするためのspiderのテンプレートになります。ルールを定義してリンクを辿っていきます。デフォルトのbasicテンプレートに比べてリンクをたどりやすくなっています。 Basicテ…
-
06.04
【Python】Scrapyで複数ページを操る。
Scrapyでのリンクのたどり方 複数の方法があります。 scrapy.Request(URL,コールバックメソッド) URLは絶対URL(https://xxx.com)のみ レスポンスはコールバックメソッドで受け取り…
-
スパイダーの作成 [crayon-64827f10660bd052710376/] プロジェクト内のspidersフォルダに移動して上記コマンドを実行します。 -t テンプレート デフォルトは「basicテンプレート」になっています…
-
06.04
スクレイピングにおけるXPathの基本
XPathとは? XMLやHTMLなどから欲しい部分を指定して取得することができる簡易言語です。XSLTなどでXML操作に利用されるのはもちろん、現在はスクレイピング用途でも幅広く利用されています。 XPathのメリット CSSセレク…
-
基本情報の確認 [crayon-64827f1067fa3678188297/] バージョン、アクティブなプロジェクト、利用できるコマンドの情報を表示できます。 scrapyコマンド一覧 コマンド 内容 be…
-
06.01
【Python】Scrapyの構成、処理の流れ
構成 Spider Scrapyでは主にコードはこのクラスに記述をしていきます。ここに記述すればScrapyがうまいこと他の作業をやってくれるようになります。 開発者はSpiderで以下の物を指定します。 最初にアク…
-
Seleniumとは? Webブラウザ操作を自動化するためのツールでPythonライブラリとは別に準備されています。 BeautifulSoup+ Requestとの比較 最近は無限スクロール(初期レンダリングで全てのデータが描画され…
-
05.30
【Python】VSCodeで環境構築
プラグイン マストで入れたい Python VSCode上でPythonを実行するために必要な拡張機能です。 できれば入れたい Error Lens エラー内容をわかりやすく表示してくれる。 Material Icon The…