csvデータをpandasライブラリを用いて読み込んで行きます。
本記事の場合、pandasは環境構築の際にインストール済みです。

早速ライブラリと、データの読み込みを行います。


なお、adult.csvをnotebookを立ち上げているディレクトリに移動させてます。

csvデータを読み込む

# pandasライブラリを読み込んで、pdという名前にする
import pandas as pd

# data1というオブジェクトにadult.csvを読み込んだ結果を格納する。その際に、pandasのread_csvというメソッドを使用
data1 = pd.read_csv("adult.csv")

実行してみて、エラーが表示されなければ成功です。

読み込んだデータを確認する

# データの上から5行目を表示させる
data1.head() 

すると以下のように、データの一部が表示されます。

   age  workclass  fnlwgt     education  educational-num      marital-status  \
0   25    Private  226802          11th                7       Never-married
1   38    Private   89814       HS-grad                9  Married-civ-spouse
2   28  Local-gov  336951    Assoc-acdm               12  Married-civ-spouse
3   44    Private  160323  Some-college               10  Married-civ-spouse
4   18          ?  103497  Some-college               10       Never-married

          occupation relationship   race  gender  capital-gain  capital-loss  \
0  Machine-op-inspct    Own-child  Black    Male             0             0
1    Farming-fishing      Husband  White    Male             0             0
2    Protective-serv      Husband  White    Male             0             0
3  Machine-op-inspct      Husband  Black    Male          7688             0
4                  ?    Own-child  White  Female             0             0

   hours-per-week native-country income
0              40  United-States  <=50K
1              50  United-States  <=50K
2              40  United-States   >50K
3              40  United-States   >50K
4              30  United-States  <=50K

一番左の列が年齢で、一番右の列が個人の年収が50Kドル以上かどうかのデータです。
以降で、データの概要を把握していきます。

サマリデータを観察(数値列のデータ)

# 数値型の列について、データのサマリ(平均値や最小・最大値など)を確認する 
data1.describe()  

これを見ると、年齢の平均値は約39歳であることが把握できます。

                age        fnlwgt  educational-num  capital-gain  \
count  48842.000000  4.884200e+04     48842.000000  48842.000000
mean      38.643585  1.896641e+05        10.078089   1079.067626
std       13.710510  1.056040e+05         2.570973   7452.019058
min       17.000000  1.228500e+04         1.000000      0.000000
25%       28.000000  1.175505e+05         9.000000      0.000000
50%       37.000000  1.781445e+05        10.000000      0.000000
75%       48.000000  2.376420e+05        12.000000      0.000000
max       90.000000  1.490400e+06        16.000000  99999.000000

       capital-loss  hours-per-week
count  48842.000000    48842.000000
mean      87.502314       40.422382
std      403.004552       12.391444
min        0.000000        1.000000
25%        0.000000       40.000000
50%        0.000000       40.000000
75%        0.000000       45.000000
max     4356.000000       99.000000

項目は上から

  • データの個数
  • 平均
  • 標準偏差
  • 最小値
  • 第一四分位点
  • 中央値
  • 第三四分位点
  • 最大値

となっています。

サマリデータを観察(文字列のデータ)

例えば、「native-country」列にどんな国名が入っているのか、調べてみます。
中で列選択を行ってますが、詳細はまた別記事にて。

# 数値型以外の列について、要素の一覧を確認する例(jypyterで見やすいようにデータフレーム化している)
pd.DataFrame(data1["native-country"].unique())

様々な国籍の方のデータが入っているようです。

                             0
0                United-States
1                            ?
2                         Peru
3                    Guatemala
4                       Mexico
5           Dominican-Republic
6                      Ireland
7                      Germany
8                  Philippines
9                     Thailand
10                       Haiti
11                 El-Salvador
12                 Puerto-Rico
13                     Vietnam
14                       South
15                    Columbia
16                       Japan
17                       India
18                    Cambodia
19                      Poland
20                        Laos
21                     England
22                        Cuba
23                      Taiwan
24                       Italy
25                      Canada
26                    Portugal
27                       China
28                   Nicaragua
29                    Honduras
30                        Iran
31                    Scotland
32                     Jamaica
33                     Ecuador
34                  Yugoslavia
35                     Hungary
36                        Hong
37                      Greece
38             Trinadad&Tobago
39  Outlying-US(Guam-USVI-etc)
40                      France
41          Holand-Netherlands

基礎的なcsvデータの読み込みと、データの確認を行ってみました。
本記事で取り扱っているcsvデータは整っているデータですが、現実には整っていないデータもたくさんあります。
そのうちケース別のデータ読み込み方法をご紹介できればと。