プログラミングマガジン

プログラミングを中心にIT技術をできるだけわかりやすくまとめます。

  • ホーム
  • Python
  • 【Python】スクレイピング結果をCSVに保存する。
 
 
     
  • サーバー言語  
    • Python
    • Ruby
    • PHP
    • SQL
  •  
  • インフラ  
       
    • AWS
    •  
    • 基本
    • Git
  • Web
       
    • Web開発
    • JavaScript
    • Vue.js
    • React
  •  
  • 設計  
       
    • 実装設計
    • DB設計
  • 問い合わせ
  

【Python】スクレイピング結果をCSVに保存する。

05.30

  • miyabisan2
  • コメントを書く

この記事は2分で読めます

前提

以下のように辞書の配列形式でスクレピング結果を作っておく必要があります。

1
2
# スクレイピング結果
dictinary_list = [{'yatin': 80000, 'title': '新宿'}, {'yatin': 40000, 'title': '町田'}]

具体的なスクレイピング結果の作り方については以下の記事で解説しています。

【Python】「BeautifulSoup」について

実装

リスト形式を表の形に変換する

pandasのDataFrameというメソッドを使います。

1
2
3
4
5
6
import pandas as pd
 
# スクレイピング結果
dictinary_list = [{'yatin': 80000, 'title': '新宿'}, {'yatin': 40000, 'title': '町田'}]
 
df = pd.DataFrame(dictinary_list)

表形式のデータを確認

表の形に変換したデータは以下の文法で確認できます。

1
2
3
4
5
print(df.head())
 
   yatin title
0  80000    新宿
1  40000    町田

表の大きさを確認

1
2
3
print(df.shape)
 
(2, 2)

上記例で言えば、表が2列、2行になっていると言えます。

データ件数を取得する。

1
2
3
print(len(df.title))
 
2

DataFrameにはtitileという属性が必須になるのでtitleの個数を表示すればいけます。

CSVに変換する。

1
df.to_csv('ファイル名.csv', index=None, encoding='utf-8-sig')

index=None

インデックス番号を出力しないという意味になります。(デフォルトだと0から採番される値が勝手に付与されてしまいます。)

encoding='utf-8-sig

出力ファイルの文字コードをUTF8にします。これを指定しないとExcelで開いた時に文字化けしてしまいます。

pandasとcsvモジュールの違い

結論としてはほぼ明確な違いはないですが世の中的にはPandasを使ってCSV出力を使った方が良いといわれることが多いです。

CSVモジュール

Python標準のCSV出力のモジュールです。Python標準でインストールされており別途インストールが不要なので軽くなるというメリットはあります。

Pandas

CSVだけでなく、ExcelやJSON、HTMLなど様々な形式のデータを扱うことができます。また、AIのためのデータ前処理など様々な用途に活用されていたりします。CSVモジュールだと二手間かかることが、Pandasだとto_csvのひと手間で実装可能です。(ただ、厳密にいえばDataFrameへの変換があるのでそこまで労力は変わらないかもです。)

スポンサーリンク
  • 2023 05.30
  • miyabisan2
  • コメントを書く
  • Python
  • Tweets Twitter
  • このエントリーをはてなブックマークに追加
  • LINEで送る

関連記事

  1. 2023 06.04

    スクレイピングにおけるXPathの基本

  2. 2023 06.04

    【Python】ログ出力ライブラリlogging

  3. 2023 06.24

    【Python】pep8、linter(flake8)、フォーマッター(black、isort)、VSCode拡張機能(autopep8)

  4. 2018 06.18

    【Python】「リスト(list)」と「タプル(tuple)」、「集合型(set)」、「辞書型(dict)」について

  5. 2023 06.06

    【Python】スクレイピングプログラムの実装時の細かい配慮

  6. 2018 06.18

    【Python】対話実行モード(REPL)。開発環境(PyCharm、IDLEなど)

  • コメント ( 0 )
  • トラックバック ( 0 )
  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

返信をキャンセルする。

【Python】「BeautifulSoup」について

【Python】Anacondaの使い方メモ

RETURN TOP

著者プロフィール

エンジニア歴10年で過去に業務系、Webデザイン、インフラ系なども経験あります。現在はWeb系でフロントエンド開発中心です。

詳細なプロフィールはこちら

スポンサーリンク

カテゴリー

  • Android
  • AngularJS
  • API
  • AWS
  • C++
  • CSS
  • cursor
  • C言語
  • DDD
  • DevOps
  • Django
  • Docker
  • Figma
  • Git
  • GitLab
  • GraphQL
  • gRPC
  • Hasura
  • Java
  • JavaScript
  • Kubernetes
  • Laravel
  • linux
  • MySQL
  • Next.js
  • nginx
  • Node.js
  • NoSQL
  • Nuxt.js
  • Oracle
  • PHP
  • Python
  • React
  • Redux
  • Rspec
  • Ruby
  • Ruby on Rails
  • Sass
  • Spring Framework
  • SQL
  • TypeScript
  • Unity
  • Vue.js
  • Webサービス開発
  • Webデザイン
  • Web技術
  • インフラ
  • オブジェクト指向
  • システム開発
  • セキュリティ
  • その他
  • データベース
  • デザインパターン
  • テスト
  • ネットワーク
  • プログラミング全般
  • マイクロサービス
  • マイクロソフト系技術
  • マルチメディア
  • リファクタリング
  • 副業
  • 未分類
  • 業務知識
  • 生成AI
  • 設計
  • 関数型言語
RETURN TOP

Copyright ©  プログラミングマガジン | プライバシーポリシー