【初心者必見】Pythonデータ分析で覚えておきたいライブラリ３選

Pythonでデータ分析を始めようとしている方で、Pythonの基礎的な部分の学習を終えた後

データ分析をするにはこれから何を覚えればいいの？
Pythonを勉強し始めると範囲が広すぎて、結局何をすればいいのかわからない！

という方も多いのではないでしょうか。今回はそんな方に向け、データ分析でよく使うライブラリを「まずはこの３つを覚えておきたい！」という視点で紹介していきます。

本ブログを運営しているTech Teacherは、
プログラミング家庭教師サービスを運営しています。
完全マンツーマン・フルオーダーメイドで
あなたが必要な指導を提供します。

データサイエンス講座の
詳細を見る➡

Pythonの基礎

記事の内容に入る前に

今回の記事は、冒頭にも書いた通り「Pythonの基礎を勉強した」方に向けて書いています。Pythonの基礎がまだ自信がないな、という方は以下のサイトでまずはPythonの基礎に触れてみてください！

データ分析で使用するライブラリ

データ分析で使用するライブラリはいくつかありますが、特によく使用するものを解説していきたいと思います。以下に簡単に特徴を示します。詳細は後程解説します。

ライブラリ	特徴
Pandas	データ分析用ライブラリ DataFrameというデータ分析に適した構造でデータを扱えるため、データ分析の際に非常によく使われる。
Numpy	数値計算用ライブラリ行列計算を高速で実施してくれる。
Matplotlib	グラフ表現のためのライブラリデータを可視化してくれる。

ライブラリのインポートは以下の記事でも扱っているので参考にしてください。

Python | クラスの基礎とモジュールのインポートを解説！前のページ 12章ではPythonにおける『クラス』『インスタンス』『モジュール』『パッケージ』について解説します。 ...

Pandas

Pandasはデータ分析用のライブラリです。DataFrameというデータ分析に適したデータ構造を提供してくれるため、データ分析時にはよく使用します。

また、ExcelやCSVのファイルを読み込み、書き込みができるため、非常に便利なライブラリになっています。

以下にデータ分析時に覚えておくべき使用方法を示します。

データサイエンティストに必須な技術を学ぼう！pandasの操作方法とは？この記事ではデータサイエンティストが使用するpandasについて紹介します。pandasはデータ分析で使用するプログラムの一種です。本記事では具体的なプログラムコードも記載しますので、自分の手でpandasを体験してみましょう。 ...

import

import pandas as pd

pandasのインポートは上記のように行います。慣習的に「pd」と省略します。これは別名で省略してもよいのですが、一般的に「pd」とされるため、他人がすぐ理解できたり、何かを参照した際に「pd」となっていることが多く理解しやすいため、ぜひこの名称で省略するようにしましょう。

DataFrame

num = [[1, 2], [3, 4]]
df = pd.DataFrame(num)
df

これを実行すると上記のような表形式のデータが作られます。これをデータフレームといい、データ分析に必要な様々な機能が提供されています。

df.columns = ['col1', 'col2']
df

データフレームの「columns」を指定してやることにより、列方向のデータにタイトルをつけることが可能で、データが理解しやすくなります。

csvファイルの取り扱い

df.to_csv('test.csv')
!dir

データフレームに「.to_csv」とすることで、データフレームをcsv形式で保存することができます。

pd.read_csv('test.csv')

同様にcsvファイルを読み込む際は「pd.read_csv」で読み込みます。先ほど保存したものを読み込むと、上記のようにデータを読み込むことができています。

なお、「Unnamed:0」というカラムは、保存の際にカラムが自動保存されたもので、カラムを自動保存しないようにするには保存する際に以下のように保存します。

df.to_csv('test_2.csv', index=None)

その後、先ほどと同じように読み込むとしたの図のように「Unnamed:0」列が消えています。

各列の集計

df.describe()

Pandasを利用すると、上記のようにデータフレームに「.describe()」とするだけで基本統計量を簡単に取得することが可能です。

df.corr()

また、データ分析の際に非常によく使用する相関係数行列も上記のように簡単に算出できます。

Numpy

Numpyは数値計算用のライブラリです。Ndarrayという構造を提供してくれるため、配列計算を非常に高速で実施してくれます。

以下にデータ分析時に覚えておくべき使用方法を示します。

データサイエンティストになりたい! NumPyを勉強して第一歩を歩みだそう本記事ではデータサイエンスに使用するNumPyの概要と機能について紹介しています。NumPyはPythonのライブラリの１つであるため、詳細な動作を確認できるように、サンプルコードと結果も記載しています。...

import

import numpy as np

Numpyのインポートはこのようになります。Numpyの略称は「np」とされることが多いです。

ndarray

array = np.array([[1,2,3], [4,5,6]])
array

ndarrayは「np.array」で作成することができます。

zeros = np.zeros(9)
zeros

「np.zeros」でゼロだけからなるndarrayを作成可能です。「()」内に指定した数字の分だけゼロの要素を作成できます。

np.zeros((3, 3))

「()」内の数字の指定の仕方を変えることで二次元配列になった数列で作成することが可能です。このようにして、数値の入れ物を先に作成してデータを解析していくことはよく行います。

np.zeros(((3, 3, 3)))

このように３次元にすることも可能です。

reshape

zeros.reshape(3, 3)

一度作成したndarrayの形を変更することも可能です。「reshape()」とすると指定した形のndarrayにすることが可能です。

flatten

array.flatten()

また、「.flatten()」とすることによりデータを一列に並べた形に変更できます。

簡単な演算

3 * array

3 + array

array + 3 * array

ndarrayは単体で数値をかけたり、足したり、ndarrayとndarrayを足したりすることも可能です。

Matplotlib

Matplotlibはデータを見える化する際に使用するライブラリです。データの特徴を認識するとともに、データ自体が信用するに足るのか、データにおかしなところがないかなどデータ全体を俯瞰するのはデータ分析の基本です。

以下にデータ分析時に覚えておくべき使用方法を示します。

import

import matplotlib.pyplot as plt

Matplotlibはpyplotを「plt」の名前で呼び出すことが多いので、この形で覚えておきましょう。

bar：棒グラフ

plt.bar(['a', 'b', 'c', 'd', 'e', 'f'], array.flatten())

「plt.bar()」で棒グラフを書くことができます。引数一つ目にx軸、二つ目にy軸を指定します。

scatter：散布図

plt.scatter(array.flatten(), array.flatten())

同様に「plt.scatter()」で散布図を書くことができます。引数一つ目にx軸、二つ目にy軸を指定するところは基本同じです。

boxplot：箱ひげ図

plt.boxplot(array.flatten())

「plt.boxplot()」で箱ひげ図を描くことができます。引数にデータをわたしてやると自動で計算して描画してくれます。

plt.boxplot([[1, 3], [2, 4]])

データを２次元で渡しても自動で描画してくれます。

グラフの装飾

先ほどの散布図を基に基本的なグラフの装飾をしていきましょう。

#グラフのタイトルを表示
plt.title('Scatter')
#X軸ラベル
plt.xlabel('X Label')
#y軸ラベル
plt.ylabel('Y Label')
#「Label」を指定することで「legend」で表示する項目を指定できます。
plt.scatter(array.flatten(), array.flatten(), label='sample')
#同時に別のデータを指定すると重ねて表示ができます。
plt.scatter(array.flatten(), array.flatten()*2, label='sample2')
#データのラベルを表示します
plt.legend()

これで基本的な装飾ができました。このグラフをもとに、必要に応じて装飾してください。

『Tech Teacher』3つの魅力

魅力1. オーダーメイドのカリキュラム

『Tech Teacher』では、決められたカリキュラムがなくオーダーメイドでカリキュラムを組んでいます。「質問だけしたい」「相談相手が欲しい」等のご要望も実現できます。

魅力2. 担当教師によるマンツーマン指導

Tech Teacherでは、完全マンツーマン指導で目標達成までサポートします。
東京大学を始めとする難関大学の理系学生・院生・博士の教師がが1対1で、丁寧に指導しています。
そのため、理解できない箇所は何度も分かるまで説明を受けることができます。

魅力3. 3,960円/30分で必要な分だけ受講

Tech Teacherでは、授業を受けた分だけ後払いの「従量課金制」を採用しているので、必要な分だけ授業を受講することができます。また、初期費用は入会金22,000円のみです。一般的なプログラミングスクールとは異なり、多額な初期費用がかからないため、気軽に学習を始めることができます。

まとめ

・魅力1. 担当教師によるマンツーマン指導

・魅力2. オーダーメイドのカリキュラム

・魅力3. 3,960円/30分で必要な分だけ受講

データサイエンス講座の
詳細を見る➡

30秒で完了！無料体験授業・資料請求はこちら➡

質問のみのお問い合わせも受け付けております。

まとめ

今回は、データサイエンス初学者がデータサイエンスで最初に覚えておきたいライブラリを３つ紹介しました。この３つを覚えておけば、Pythonデータ分析を始められます。その際に必要となるものが出てきた際にその都度覚えていきましょう。必要な時に見返してみてください。

【初心者必見】Pythonデータ分析で覚えておきたいライブラリ３選

Pythonの基礎

記事の内容に入る前に

データ分析で使用するライブラリ

Pandas

import

DataFrame

csvファイルの取り扱い

各列の集計

Numpy

import

ndarray

reshape

flatten

簡単な演算

Matplotlib

import

bar：棒グラフ

scatter：散布図

boxplot：箱ひげ図

グラフの装飾

『Tech Teacher』3つの魅力

まとめ

【未経験者必見】Pythonのおすすめ入門サイト4選！

VBA独学者必見！スキルレベル別VBA学習サイト3選！ロードマップ紹介

データサイエンティストに必須な技術を学ぼう！pandasの操作方法とは？

Python + OpenCVで画像処理をマスター！使用法・実用例を解説

VBAの整数型Integerがわかる！Long型・Byte型との違いも解説

【初心者向け】Pythonのglobを徹底解説！正規表現の書き方も説明