-
06.09
【NoSQL】MongoDBの基本
MongoDBとは? NoSQLの一種です。NoSQLにも種類がありますがその中でもドキュメントDBに分類されます。 コレクション RDBで言えばテーブルに当たります。 ドキュメント RDBで言えばレコードに当たります。J…
-
Scrapy Itemとは? Webサイトから取得したデータを格納する入れ物(オブジェクト) あらかじめ定義したフィールドに対してデータを定義する。 データ構造を正確に保つことができる。(定義していないフィールドに…
-
06.08
【Python】Scrapyのデバッグ方法
スパイダーをVSCodeのステップ実行でデバッグする。 scrapy.cfgファイルがあるディレクトリに対して、ファイルを任意の名前をつけて保存します。(例:xxx_debug.pyなど) [crayon-678742edc962288…
-
ログイン画面 ログイン画面は通常の入力と異なりCSRFトークンをPOSTリクエストに合わせて送信する必要があります。ログイン処理が必要なWebアプリのスクレイピングの場合は、CSRFトークンが設定されているinput要素からCSRFトーク…
-
crawlテンプレートとは? 通常のWebサイトをクロールするためのspiderのテンプレートになります。ルールを定義してリンクを辿っていきます。デフォルトのbasicテンプレートに比べてリンクをたどりやすくなっています。 Basicテ…
-
06.04
【Python】ログ出力ライブラリlogging
Python logging Pythonでログを出力するためのモジュールです。printでも良いのですがloggingの方が便利機能が豊富に含まれています。 [crayon-678742edca415403807900/] …
-
06.04
【Python】Scrapyで複数ページを操る。
Scrapyでのリンクのたどり方 複数の方法があります。 scrapy.Request(URL,コールバックメソッド) URLは絶対URL(https://xxx.com)のみ レスポンスはコールバックメソッドで受け取り…
-
スパイダーの作成 [crayon-678742edcad11857382331/] プロジェクト内のspidersフォルダに移動して上記コマンドを実行します。 -t テンプレート デフォルトは「basicテンプレート」になっています。 テン…
-
06.04
スクレイピングにおけるXPathの基本
XPathとは? XMLやHTMLなどから欲しい部分を指定して取得することができる簡易言語です。XSLTなどでXML操作に利用されるのはもちろん、現在はスクレイピング用途でも幅広く利用されています。 XPathのメリット CSSセレク…
-
基本情報の確認 [crayon-678742edcbfd6099900938/] バージョン、アクティブなプロジェクト、利用できるコマンドの情報を表示できます。 scrapyコマンド一覧 コマンド 内容 be…