Numpy

  • Meist hat man nach in einer Auswertung Datenpunkte, die verarbeitet werden müssen
  • Numpy ist eine Python-Bibliothek, die den Umgang mit Datenpunkten enorm vereinfacht
In [1]:
import numpy as np
  • Grunddatentyp von Numpy: das Array
  • Kann man sich als effizientere Liste vorstellen
  • Idee von Numpy: Man kann ein Array ähnlich wie eine Zahl verwenden. Operationen werden dann auf allen Elementen ausgeführt
  • Am besten versteht man das mit einigen Beispielen:
In [2]:
# convert list to array
x = np.array([1, 2, 3, 4, 5])
In [3]:
2 * x
Out[3]:
array([ 2,  4,  6,  8, 10])
In [4]:
x**2
Out[4]:
array([ 1,  4,  9, 16, 25])
In [5]:
x**x
Out[5]:
array([   1,    4,   27,  256, 3125])
In [6]:
np.cos(x)
Out[6]:
array([ 0.54030231, -0.41614684, -0.9899925 , -0.65364362,  0.28366219])

Achtung: Man braucht das cos aus numpy!

In [7]:
import math
math.cos(x)
--------------------------------------------------------------------------
TypeError                                Traceback (most recent call last)
<ipython-input-7-25067472c670> in <module>()
      1 import math
----> 2 math.cos(x)

TypeError: only length-1 arrays can be converted to Python scalars

Selbstgeschriebene Funktionen, die nur für eine Zahl geschrieben wurden, funktionieren oft ohne Änderung mit Arrays!

In [8]:
def poly(y):
    return y + 2 * y**2 - y**3

poly(x)
Out[8]:
array([  2,   2,  -6, -28, -70])
In [9]:
poly(np.pi)
Out[9]:
-8.125475224531307
In [10]:
# this also works:
def poly(x):
    return x + 2 * x**2 - x**3

poly(x)
Out[10]:
array([  2,   2,  -6, -28, -70])

Das erlaubt es einem unter anderem sehr leicht physikalische Formeln auf seine Datenpunkte anzuwenden.

Arrays können beliebige Dimension haben:

In [11]:
# two-dimensional array
y = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

y + y
Out[11]:
array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18]])

Das erlaubt es z.B. eine ganze Tabelle als ein Array abzuspeichern.

Es gibt viele nützliche Funktionen, die bei der Erstellung von Arrays helfen:

In [12]:
np.zeros(10)
Out[12]:
array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])
In [13]:
np.ones((5, 2))
Out[13]:
array([[ 1.,  1.],
       [ 1.,  1.],
       [ 1.,  1.],
       [ 1.,  1.],
       [ 1.,  1.]])
In [14]:
np.linspace(0, 1, 11)
Out[14]:
array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9,  1. ])
In [15]:
# like range() for arrays:
np.arange(0, 10)
Out[15]:
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [16]:
np.logspace(-4, 5, 10)
Out[16]:
array([  1.00000000e-04,   1.00000000e-03,   1.00000000e-02,
         1.00000000e-01,   1.00000000e+00,   1.00000000e+01,
         1.00000000e+02,   1.00000000e+03,   1.00000000e+04,
         1.00000000e+05])

Numpy Indexing

Numpy erlaubt einem sehr bequem bestimmte Elemente aus einem Array auszuwählen

In [17]:
x = np.arange(0, 10)

# like lists:
x[4]
Out[17]:
4
In [18]:
# all elements with indices ≥1 and <4:
x[1:4]
Out[18]:
array([1, 2, 3])
In [19]:
# negative indices count from the end
x[-1], x[-2]
Out[19]:
(9, 8)
In [20]:
# combination:
x[3:-2]
Out[20]:
array([3, 4, 5, 6, 7])
In [21]:
# step size
x[::2]
Out[21]:
array([0, 2, 4, 6, 8])
In [22]:
# trick for reversal: negative step
x[::-1]
Out[22]:
array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

Indexing1D

In [23]:
y = np.array([x, x + 10, x + 20, x + 30])
y
Out[23]:
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39]])
In [24]:
# comma between indices
y[3, 2:-1]
Out[24]:
array([32, 33, 34, 35, 36, 37, 38])
In [25]:
# only one index ⇒ one-dimensional array
y[2]
Out[25]:
array([20, 21, 22, 23, 24, 25, 26, 27, 28, 29])
In [26]:
# other axis: (: alone means the whole axis)
y[:, 3]
Out[26]:
array([ 3, 13, 23, 33])
In [27]:
# inspecting the number of elements per axis:
y.shape
Out[27]:
(4, 10)

Indexing2D

Ausgewählten Elementen kann man auch direkt einen Wert zuweisen

In [28]:
y
Out[28]:
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39]])
In [29]:
y[:, 3] = 0
y
Out[29]:
array([[ 0,  1,  2,  0,  4,  5,  6,  7,  8,  9],
       [10, 11, 12,  0, 14, 15, 16, 17, 18, 19],
       [20, 21, 22,  0, 24, 25, 26, 27, 28, 29],
       [30, 31, 32,  0, 34, 35, 36, 37, 38, 39]])

Man kann Indexing sogar gleichzeitig auf der linken und rechten Seite benutzen

In [30]:
y[:,0] = x[3:7]
y
Out[30]:
array([[ 3,  1,  2,  0,  4,  5,  6,  7,  8,  9],
       [ 4, 11, 12,  0, 14, 15, 16, 17, 18, 19],
       [ 5, 21, 22,  0, 24, 25, 26, 27, 28, 29],
       [ 6, 31, 32,  0, 34, 35, 36, 37, 38, 39]])

Transponieren des Arrays kehrt die Reihenfolge der Indizes um:

In [31]:
y
Out[31]:
array([[ 3,  1,  2,  0,  4,  5,  6,  7,  8,  9],
       [ 4, 11, 12,  0, 14, 15, 16, 17, 18, 19],
       [ 5, 21, 22,  0, 24, 25, 26, 27, 28, 29],
       [ 6, 31, 32,  0, 34, 35, 36, 37, 38, 39]])
In [32]:
y.shape
Out[32]:
(4, 10)
In [33]:
y.T
Out[33]:
array([[ 3,  4,  5,  6],
       [ 1, 11, 21, 31],
       [ 2, 12, 22, 32],
       [ 0,  0,  0,  0],
       [ 4, 14, 24, 34],
       [ 5, 15, 25, 35],
       [ 6, 16, 26, 36],
       [ 7, 17, 27, 37],
       [ 8, 18, 28, 38],
       [ 9, 19, 29, 39]])
In [34]:
y.T.shape
Out[34]:
(10, 4)

Masken

Oft will man Elemente auswählen, die eine bestimmte Bedingung erfüllen.

Hierzu erstellt man zuerst eine Maske (Arrays aus True/False-Werten).

Diese kann man in eckigen Klammern übergeben.

In [35]:
a = np.linspace(0, 2, 11)
b = a**2

print(a >= 1)

print(a[a >= 1])
[False False False False False  True  True  True  True  True  True]
[ 1.   1.2  1.4  1.6  1.8  2. ]

Reduzieren von Arrays

Viele Rechenoperationen reduzieren ein Array auf einen einzelnen Wert

In [36]:
x
Out[36]:
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [37]:
np.sum(x)
Out[37]:
45
In [38]:
np.prod(x)
Out[38]:
0
In [39]:
np.mean(x)
Out[39]:
4.5

Standardabweichung

In [40]:
np.std(x)
Out[40]:
2.8722813232690143

Fehler des Mittelwerts (geht auch einfacher):

In [41]:
np.std(x, ddof=1) / np.sqrt(len(x))
Out[41]:
0.9574271077563381

Schätzer der Standardabweichung

In [42]:
np.std(x, ddof=1)
Out[42]:
3.0276503540974917

Differenzen zwischen benachbarten Elementen

In [43]:
z = x**2
np.diff(z)
Out[43]:
array([ 1,  3,  5,  7,  9, 11, 13, 15, 17])

Input / Output

Einlesen aus Textdateien: genfromtxt

Sie gibt den Inhalt einer Textdatei als Array zurück.

Das Gegenstück ist savetxt.

In [44]:
n = np.arange(11)
x = np.linspace(0, 1, 11)

np.savetxt('test.txt', [n, x])

with open('test.txt', 'r') as f:
    print(f.read())
0.000000000000000000e+00 1.000000000000000000e+00 2.000000000000000000e+00 3.000000000000000000e+00 4.000000000000000000e+00 5.000000000000000000e+00 6.000000000000000000e+00 7.000000000000000000e+00 8.000000000000000000e+00 9.000000000000000000e+00 1.000000000000000000e+01
0.000000000000000000e+00 1.000000000000000056e-01 2.000000000000000111e-01 3.000000000000000444e-01 4.000000000000000222e-01 5.000000000000000000e-01 6.000000000000000888e-01 7.000000000000000666e-01 8.000000000000000444e-01 9.000000000000000222e-01 1.000000000000000000e+00

In [45]:
data = np.array([n, x])

np.savetxt('test.txt', np.column_stack([n, x]))

with open('test.txt', 'r') as f:
    print(f.read())
0.000000000000000000e+00 0.000000000000000000e+00
1.000000000000000000e+00 1.000000000000000056e-01
2.000000000000000000e+00 2.000000000000000111e-01
3.000000000000000000e+00 3.000000000000000444e-01
4.000000000000000000e+00 4.000000000000000222e-01
5.000000000000000000e+00 5.000000000000000000e-01
6.000000000000000000e+00 6.000000000000000888e-01
7.000000000000000000e+00 7.000000000000000666e-01
8.000000000000000000e+00 8.000000000000000444e-01
9.000000000000000000e+00 9.000000000000000222e-01
1.000000000000000000e+01 1.000000000000000000e+00

Man sollte aber immer erklären, was man da abspeichert:

In [46]:
n = np.arange(11)
x = np.linspace(0, 1, 11)

# header schreibt eine Kommentarzeile in die erste Zeile der Datei
np.savetxt('test.txt', np.column_stack([n, x]), header="n x")
with open('test.txt', 'r') as f:
    print(f.read())
# n x
0.000000000000000000e+00 0.000000000000000000e+00
1.000000000000000000e+00 1.000000000000000056e-01
2.000000000000000000e+00 2.000000000000000111e-01
3.000000000000000000e+00 3.000000000000000444e-01
4.000000000000000000e+00 4.000000000000000222e-01
5.000000000000000000e+00 5.000000000000000000e-01
6.000000000000000000e+00 6.000000000000000888e-01
7.000000000000000000e+00 7.000000000000000666e-01
8.000000000000000000e+00 8.000000000000000444e-01
9.000000000000000000e+00 9.000000000000000222e-01
1.000000000000000000e+01 1.000000000000000000e+00

Einlesen der Werte mit genfromtxt :

In [47]:
a, b = np.genfromtxt('test.txt', unpack=True)
a, b
Out[47]:
(array([  0.,   1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.]),
 array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9,  1. ]))