【Python】スクレイピング結果をCSVに保存する。

前提

以下のように辞書の配列形式でスクレピング結果を作っておく必要があります。

# スクレイピング結果
dictinary_list = [{'yatin': 80000, 'title': '新宿'}, {'yatin': 40000, 'title': '町田'}]

1 2	# スクレイピング結果 dictinary_list = [{'yatin': 80000, 'title': '新宿'}, {'yatin': 40000, 'title': '町田'}]

具体的なスクレイピング結果の作り方については以下の記事で解説しています。

【Python】「BeautifulSoup」について

実装

リスト形式を表の形に変換する

pandasのDataFrameというメソッドを使います。

import pandas as pd

# スクレイピング結果
dictinary_list = [{'yatin': 80000, 'title': '新宿'}, {'yatin': 40000, 'title': '町田'}]

df = pd.DataFrame(dictinary_list)

import pandas as pd

# スクレイピング結果

dictinary_list = [{'yatin': 80000, 'title': '新宿'}, {'yatin': 40000, 'title': '町田'}]

df = pd.DataFrame(dictinary_list)

表形式のデータを確認

表の形に変換したデータは以下の文法で確認できます。

print(df.head())

   yatin title
0  80000    新宿
1  40000    町田

print(df.head())

yatin title

0 80000 新宿

1 40000 町田

表の大きさを確認

print(df.shape)

(2, 2)

print(df.shape)

(2, 2)

上記例で言えば、表が2列、2行になっていると言えます。

データ件数を取得する。

print(len(df.title))

2

print(len(df.title))

DataFrameにはtitileという属性が必須になるのでtitleの個数を表示すればいけます。

CSVに変換する。

df.to_csv('ファイル名.csv', index=None, encoding='utf-8-sig')

1	df.to_csv('ファイル名.csv', index=None, encoding='utf-8-sig')

index=None

インデックス番号を出力しないという意味になります。（デフォルトだと0から採番される値が勝手に付与されてしまいます。）

encoding='utf-8-sig

出力ファイルの文字コードをUTF8にします。これを指定しないとExcelで開いた時に文字化けしてしまいます。

pandasとcsvモジュールの違い

結論としてはほぼ明確な違いはないですが世の中的にはPandasを使ってCSV出力を使った方が良いといわれることが多いです。

CSVモジュール

Python標準のCSV出力のモジュールです。Python標準でインストールされており別途インストールが不要なので軽くなるというメリットはあります。

Pandas

CSVだけでなく、ExcelやJSON、HTMLなど様々な形式のデータを扱うことができます。また、AIのためのデータ前処理など様々な用途に活用されていたりします。CSVモジュールだと二手間かかることが、Pandasだとto_csvのひと手間で実装可能です。（ただ、厳密にいえばDataFrameへの変換があるのでそこまで労力は変わらないかもです。）

【Python】スクレイピング結果をCSVに保存する。

前提

実装

リスト形式を表の形に変換する

表形式のデータを確認

表の大きさを確認

データ件数を取得する。

CSVに変換する。

index=None

encoding='utf-8-sig

pandasとcsvモジュールの違い

CSVモジュール

Pandas

スポンサーリンク

関連記事

【Python】スクレイピングプログラムの実装時の細かい配慮

【Python】Scrapyの構成、処理の流れ

【Python】Anacondaの使い方メモ

【Python】PySimpleGUIについて

【Python】scrapyのcrawlテンプレートで実装

【Python】主流のスクレピングライブラリ

著者プロフィール

スポンサーリンク

カテゴリー