jupyter notebook上で、データの読み込みを行っていくその前に、本記事ではcsv形式のサンプルデータの準備について紹介します。

データ分析に適したサンプルデータをダウンロードするには、kaggleからダウンロードするのがおすすめです。
Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォームです。

データセット一覧はこちらから見ることができます。
中には、米マクドナルドのメニューデータなど、ユニークなものもあります。

データはまさにマクドナルド。

そして、分析を学ぶにあたって適したデータの一つに「Adult income dataset」が用意されています。
これは、個人の年齢、性別、職業など、国勢調査データによって得られた情報が、年収にどう影響するのかを分析できるデータです。

データのダウンロードについては、まずデータセットのページに行き、

ページ下部でデータを確認し、ダウンロードリンクからダウンロードします。
※注意:データダウンロードにはKaggleへの登録が必要です。ページ最上部右の「Sign In」ボタンから登録ができます。

zip形式でダウンロードできるので、それを解凍したら、「adult.csv」というcsvが出現するはずです。
ただし、Mac OSの場合、ダブルクリックでzipを解凍すると、「.cpgz」という新しいファイルができてしまうことがあります。
この場合、「The Unarchiver」というソフトをダウンロードし、このソフトを使って解凍すれば、うまくいきます。

ネット上でこういったデータを探そうとすると、なかなか、骨が折れます。
Kaggleには分析に適した形式で分析に適したデータが用意されているので、非常に便利です。