Python初心者必見！NumPyを使った多次元配列の基本とデータ操作入門

1 NumPy多次元配列とは？
2 1. NumPy多次元配列の作成
- 2.1 2次元配列の作成
3 2. 多次元配列のインデックス操作
4 3. 多次元配列の計算処理
5 4. ndarrayオブジェクトの初期化
6 5. 等間隔の配列作成
7 6. まとめ

NumPy多次元配列とは？

NumPyはPythonの強力な数値計算ライブラリであり、その多次元配列（ndarray）は大量のデータ処理や科学計算に最適なデータ構造です。リストやタプルとは異なり、NumPyの多次元配列は固定されたデータ型を持ち、メモリ効率が高く、大規模なデータの計算に適しています。また、ベクトル化演算が可能なため、ループを使わずに一括計算を実行でき、処理速度の向上が期待できます。一方、pandasのDataFrameは、ラベル付きのデータ操作や異なるデータ型を含むデータセットの管理に適しており、表形式のデータ分析に優れています。本記事では、多次元配列の基本から応用的な操作までを詳しく解説し、適切なデータ構造の選択をサポートします。

1. NumPy多次元配列の作成

NumPyを使用すると、多次元配列を簡単に作成できます。

import numpy as np

# 1次元配列の作成
a = np.arange(8, dtype=float)
print(a)

出力:

array([0., 1., 2., 3., 4., 5., 6., 7.])

2次元配列の作成

b = np.array([a, a*2])
print(b)

出力:

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
       [ 0.,  2.,  4.,  6.,  8., 10., 12., 14.]])

2. 多次元配列のインデックス操作

NumPyでは、多次元配列の要素をインデックス指定で取得できます。例えば、データ解析において特定の行や列を抽出したり、特定の条件を満たすデータのみをフィルタリングすることが可能です。画像処理では、特定のピクセル領域を取り出す際に活用されます。また、機械学習の前処理では、訓練データとテストデータの分割や、欠損値のあるデータを除外するのにも役立ちます。

# 1行目を取得
print(b[0])
# 1行目の3番目の要素を取得
print(b[0, 2])
# 全行の2番目の列を取得
print(b[:,1])

出力:

array([0., 1., 2., 3., 4., 5., 6., 7.])
2.0
array([1., 2.])

3. 多次元配列の計算処理

NumPyの多次元配列では、効率的に計算を実行できます。これは、NumPyがベクトル化演算を採用し、C言語で最適化されているため、Pythonの標準リストよりもはるかに高速に処理を実行できるからです。さらに、NumPyの配列はメモリレイアウト（C連続またはF連続）を利用でき、キャッシュの効率が向上するため、よりスムーズな計算が可能です。また、並列処理にも最適化されており、マルチスレッド環境でのパフォーマンスも大幅に向上します。ループを使用せずに一括で計算できるため、特に大規模データの計算においてパフォーマンスの向上が顕著です。

# 配列全体の総和
print(b.sum())
# 列ごとの総和
print(b.sum(axis=0))
# 行ごとの総和
print(b.sum(axis=1))

出力:

84.0
array([ 0.,  3.,  6.,  9., 12., 15., 18., 21.])
array([28., 56.])

4. ndarrayオブジェクトの初期化

NumPyでは、異なる方法で初期化された多次元配列を作成できます。例えば、np.zeros()はすべての要素を0に初期化するため、デフォルト値が0の配列を扱う場合に適しています。これは、画像処理やデータ前処理での基準値としても活用できます。np.ones()はすべての要素を1にするため、ニューラルネットワークの重み初期化や統計モデルの基準値の設定に便利です。一方、np.empty()はメモリ上の既存データを保持したまま配列を確保するため、計算速度が求められる場面で役立ちます。例えば、一時的なバッファ配列や、既存のデータをすぐに上書きする場合に適しています。また、np.eye()は単位行列を作成し、線形代数計算での基準行列として使用されます。これらの特性を理解し、用途に応じて適切な方法を選択しましょう。

すべての要素を0で初期化

c = np.zeros((2,3), dtype='i', order='C')
print(c)

すべての要素を1で初期化

c = np.ones((2,3,4), dtype='i', order='C')
print(c)

既存の配列と同じ形状で0を代入

d = np.zeros_like(c, dtype='float16', order='C')
print(d)

対角要素が1の行列を作成

np.eye(5)

出力:

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

5. 等間隔の配列作成

np.linspace()を使うと、指定した範囲の数値を等間隔に生成できます。

g = np.linspace(5, 15, 12)
print(g)

出力:

array([ 5.        ,  5.90909091,  6.81818182,  7.72727273,  8.63636364,
        9.54545455, 10.45454545, 11.36363636, 12.27272727, 13.18181818,
       14.09090909, 15.        ])