Methode der kleinsten Fehlerquadrate

...erklärt und von a-z exemplarisch durchgerechnet...

erforderliche Vorkenntnisse: Grundlagen der Differentialrechnung (Ableitungen, Extremwertbestimmung)

Die Methode der kleinsten Fehlerquadrate dient in der Mathematik u.A. dazu, aus einer Reihe von Messwerten ein Gesetz zu erschließen oder voraussagen über weitere Messwerte zu treffen.
Mit einem Beispiel lässt sich die Idee am besten veranschaulichen:
Nehmen wir an, die folgenden 4 Messwerte wurden bei einem Experiment aufgenommen:

xy
z.B. Zeit in Sekundenz.B. zurückgelegte Wegstrecke
11.41
21.60
32.05
42.22
oder noch einmal anders formuliert, haben wir 4 Punkte im xy-Koordinatensystem:
$$\begin{eqnarray} P_1 = \left(\begin{array}{c} P_1x \\ P_1y \end{array}\right) = \left(\begin{array}{c} 1 \\ 1.41 \end{array}\right) \\ P_2 = \left(\begin{array}{c} P_2x \\ P_2y \end{array}\right) = \left(\begin{array}{c} 2 \\ 1.60 \end{array}\right) \\ P_3 = \left(\begin{array}{c} P_3x \\ P_3y \end{array}\right) = \left(\begin{array}{c} 3 \\ 2.05 \end{array}\right) \\ P_4 = \left(\begin{array}{c} P_4x \\ P_4y \end{array}\right) = \left(\begin{array}{c} 4 \\ 2.22 \end{array}\right) \end{eqnarray} $$

Diese Messwerte sehen in einem Diagramm etwa so aus:

Messpunkte
Abbildung 1: 4 Messpunkte im xy-Koordinatensystem scheinen ungefähr auf einer Geraden zu liegen.


Man sieht sofort, dass die Messwerte "ungefähr" auf einer Geraden liegen. Man könnte das Diagramm ausdrucken und mit einem Linieal eine Linie entlang der Messpunkte zeichnen, die "ungefähr" dem Verlauf entspricht. Die Linie kann aber nicht genau durch die Punkte gehen, da sie eben nur "ungefähr" auf einer Geraden liegen. Das Verfahren der kleinsten Fehlerquadrate, bietet nun eine Möglichkeit, diese "ungefähre" Linie mathematische zu bestimmen und somit den Verlauf der Messwerte zu beschreiben.
Gesucht ist eine Gerade der Form
$f(x) = mx + b$ (1)
, die "so gut wie möglich" den Verlauf dem Verlauf der Messwerte entspricht.

Die Anforderung an diese Gerade ist, dass die Abstände der Messpunkte zu ihr so klein wie möglich sein sollen.
residuen
Abbildung 2 : Die vertikalen Abstände der Messwerte zu einer idealisierten Geraden. Resudien (grün)

Diese (vertikalen) Fehler zwischen Messpunkt und Funktionswert von f(x) nennt man Residuum (plural Residuen). Um mit diesen Abständen arbeiten zu können, muss man die Geradenfunktion zunächst gar nicht kennen. In unserem Beispiel mit 4 Messpunkten gibt es 4 Resudien, die als Abstände (=Differenzen=Fehler) wie folgt aufgestellt werden:

$r_1 = f(P_{1x}) - P_{1y} = mP_{1x} + b - P_{1y}$ (2.1)
$r_2 = f(P_{2x}) - P_{2y} = mP_{2x} + b - P_{2y}$ (2.2)
$r_3 = f(P_{3x}) - P_{3y} = mP_{3x} + b - P_{3y}$ (2.3)
$r_4 = f(P_{4x}) - P_{4y} = mP_{4x} + b - P_{4y}$ (2.4)


Ein kleiner "mathematischer Trick" wird als Ergänzung angewandt: Die Abstände werden quadriert ("Methode der kleinsten FehlerQUADRATE"). Damit erreicht man zwei Dinge: Erstens sind die Werte von $r_1^2 .. r_4^2$ immer positiv und man muss nicht zusätzlich unterscheiden, ob der Messpunkt ober oder unterhalb der Geraden liegt und zweitens wirkt sich ein "großer" Fehler an einem Messpunkt stärker auf die zu ermittelnde Gerade aus als zwei halb so große an zwei anderen Messpunkten.

Um alle Messpunkte zu berücksichtigen, stellen wir eine weitere Funktion auf, die die Summe aus allen quadrierten Einzelfehlern beschreibt und deren unabhängige Variablen die Parameter der gesuchten Geraden m und b sind:

$$F(m,b) = r_1^2 + r_2^2 + r_3^2 + r_4^2$$ (3)
Setzt man $r_1$ bis $r_4$ in diese Funktion ein, wird sie zunächst etwas unübersichtlich (aber nicht wirklich kompliziert):
$$F(m,b) = \left(mP_{1x} + b - P_{1y}\right)^2 + \left(mP_{2x} + b - P_{2y}\right)^2 + \left(mP_{3x} + b - P_{3y}\right)^2 + \left(mP_{4x} + b - P_{4y}\right)^2$$ (3.1)

Praktischer weise ist es NICHT nötig, die Quadrat auszumultiplizieren...Was uns interessiert, ist ja das MINIMUM dieser Funktion.
Für die lokalen Minima muss gilt als notwendige Bedingung das die Ableitungen nach m und nach b an diesem Punkt jeweils gleich null sein müssen.
$\frac{dF(m_{min},b_{min})}{dm} \stackrel{!}{=} 0 $ (4.1 m)
$\frac{dF(m_{min},b_{min})}{db} \stackrel{!}{=} 0$ (4.1 b)

Die Ableitungen von $F(m,b)$ nach den üblichen Regeln der Diffenzialrechung (v.A. Kettenregel!):

$\frac{dF(m,b)}{dm} = 2\left(mP_{1x} + b - P_{1y}\right)P_{1x} + 2\left(mP_{2x} + b - P_{2y}\right)P_{2x}+2\left(mP_{3x} + b - P_{3y}\right)P_{3x}+ 2\left(mP_{4x} + b - P_{4y}\right)P_{4x} $ (5.1 m)
$\frac{dF(m,b)}{db} = 2\left(mP_{1x} + b - P_{1y}\right)+ 2\left(mP_{2x} + b - P_{2y}\right)+2\left(mP_{3x} + b - P_{3y}\right)+ 2\left(mP_{4x} + b - P_{4y}\right)$ (5.1 b)


Damit haben wir ein einfaches lineares Gleichungssystem aus zwei Gleichungen mit zwei Unbekannten (m und b). Der Rest der Arbeit ist das Lösen des Gleichungssystems. sortiert nach Termen mit m, b und Absolutgliedern:


$\frac{dF(m,b)}{dm} = \left(2P_{1x}^2 + 2P_{2x}^2 + 2P_{3x}^2 + 2P_{4x}^2\right)m + \left(2P_{1x}+ 2P_{2x} + 2P_{3x} + 2P_{4x}\right)b + \left(-2P_{1y}P_{1x} - 2P_{2y}P_{2x} -2P_{3y}P_{3x} -2P_{4y}P_{4x}\right) $ (5.2 m)
$\frac{dF(m,b)}{db} = \left(2P_{1x} + 2P_{2x} + 2P_{3x} + 2P_{4x}\right)m + \left(2+2+2+2\right)b + \left(-2P_{1y}-2P_{2y}-2P_{3y}-2P_{4y}\right) $ (5.2 b)



Man sieht spätestens jetzt leicht, dass die Anzahl der Stützpunkte beliebig erweitert werden kann ohne dass die Berechnung komplizierter wird; sie wird nur länger.

Verwendet man das Summenzeichen, wird die Funktion gleich übersichtlicher:


$\frac{dF(m,b)}{dm} = \left(2\sum_{i=1}^4P_{ix}^2\right)m + \left(2\sum_{i=1}^4P_{ix}\right)b + \left(-2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right) $ (5.3 m)
$\frac{dF(m,b)}{db} = \left(2\sum_{i=1}^4P_{ix}\right)m + \left(4\cdot2\right)b + \left(-2\sum_{i=1}^4P_{iy}\right)$ (5.3 b)


Nur nochmal als Hinweis: die 4 entspricht der Anzahl der Messpunkte und die Formel gilt mit mehr Stützpunkten analog.
Jezt werden die beiden Ableitung gleich 0 gesetzt und nach m und b aufgelöst:

$0 = \left(2\sum_{i=1}^4P_{ix}^2\right)m_{min} + \left(2\sum_{i=1}^4P_{ix}\right)b_{min} + \left(-2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right) $ (5.4 m)
$0 = \left(2\sum_{i=1}^4P_{ix}\right)m_{min} + \left(4\cdot2\right)b_{min} + \left(-2\sum_{i=1}^4P_{iy}\right)$ (5.4 b)


$m_{min} = \frac{-\left(2\sum_{i=1}^4P_{ix}\right)b_{min} - \left(-2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right)}{\left(2\sum_{i=1}^4P_{ix}^2\right)}$ (5.5 m)
$b_{min} = \frac{-\left(2\sum_{i=1}^4P_{ix}\right)m_{min} - \left(-2\sum_{i=1}^4P_{iy}\right)}{ \left(4\cdot2\right)}$ (5.5 b)


$b_{min}$ in $m_{min}$ einsetzen:
$m_{min} = \frac{-\left(2\sum_{i=1}^4P_{ix}\right)\frac{-\left(2\sum_{i=1}^4P_{ix}\right)m_{min} - \left(-2\sum_{i=1}^4P_{iy}\right)}{ \left(4\cdot2\right)} - \left(-2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right)}{\left(2\sum_{i=1}^4P_{ix}^2\right)}$ (5.6 m)


nach $m_{min}$ auflösen:
$\left(2\sum_{i=1}^4P_{ix}^2\right)m_{min} = -\left(2\sum_{i=1}^4P_{ix}\right)\frac{-\left(2\sum_{i=1}^4P_{ix}\right)m_{min} - \left(-2\sum_{i=1}^4P_{iy}\right)}{ \left(4\cdot2\right)} - \left(-2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right)$ (5.7 m)


$\left(2\sum_{i=1}^4P_{ix}^2\right)m_{min} = -\frac{\left(2\sum_{i=1}^4P_{ix}\right)^2m_{min} +\left(2\sum_{i=1}^4P_{ix}\right)\left(-2\sum_{i=1}^4P_{iy}\right)}{ \left(4\cdot2\right)} + \left(2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right)$ (5.8 m)


$\left(2\sum_{i=1}^4P_{ix}^2\right)m_{min} = \frac{\left(2\sum_{i=1}^4P_{ix}\right)^2}{8}m_{min} + \frac{-4\left(\sum_{i=1}^4P_{ix}\right)\left(\sum_{i=1}^4P_{iy}\right)}{8} + \left(2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right)$ (5.9 m)


$\left(2\sum_{i=1}^4P_{ix}^2 - \frac{\left(2\sum_{i=1}^4P_{ix}\right)^2}{8} \right)m_{min} = \frac{-4\left(\sum_{i=1}^4P_{ix}\right)\left(\sum_{i=1}^4P_{iy}\right)}{8} + \left(2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right)$ (5.10 m)


$m_{min} = \frac{ \frac{-4\left(\sum_{i=1}^4P_{ix}\right)\left(\sum_{i=1}^4P_{iy}\right)}{8} + \left(2\sum_{i=0}^4\left(P_{ix}P_{iy}\right)\right)}{\left(2\sum_{i=1}^4P_{ix}^2 - \frac{\left(2\sum_{i=1}^4P_{ix}\right)^2}{8} \right)}$ (5.11 m)


Als kleine Nebenrechnung die Summen mit den o.a. Punktkoordinaten:
$\sum_{i=1}^4P_{ix} = P_{1x}+ P_{2x} + P_{3x} + P_{4x} = 1 + 2 + 3 + 4 = 10$
$\sum_{i=1}^4P_{iy} = P_{1y}+ P_{2y} + P_{3y} + P_{4y} = 1.41 + 1.60 + 2.05 + 2.22 = 7.28$
$\sum_{i=1}^4P_{ix}^2 = P_{1x}^2 + P_{2x}^2 + P_{3x}^2 + P_{4x}^2 = 1^2 + 2^2 +3^2 + 4^2 = 1 + 4+ 9 +16 =30$
$\sum_{i=1}^4\left(P_{ix}P_{iy}\right) = P_{1y}P_{1x} + P_{2y}P_{2x} + P_{3y}P_{3x} + P_{4y}P_{4x} = 1\cdot1.41 + 2\cdot1.60 + 3\cdot2.05 +4\cdot2.22 = 1.41 + 3.20 + 6.15 + 8.88 = 19.64$

Diese Zahlenwerte können jezt in $m_{min}$ eingesetzt werden:
$m_{min} = \frac{ \frac{-4\left(10\right)\left(7.28\right)}{8} + \left(2\cdot19.64\right)}{\left(2\cdot30 - \frac{\left(2\cdot10\right)^2}{8} \right)} = \frac{-5\cdot7.28 + 39.28}{60-50} = \frac{2.88}{10} = 0.288$ (5.12 m)


Dieser Wert wird in b eingesetzt:
$b_{min} = \frac{-\left(2\cdot10\right)\cdot0.288 - \left(-2\cdot7,28\right)}{ \left(4\cdot2\right)} = \frac{8.8}{8} = 1.1$ (5.6 b)


Wir haben somit die Gerade mit den minimalen Fehlerquadraten berechnet:

$f(x) = mx+b = 0.288\cdot x + 1.1$ (6)
die 'perfekte' Näherungsgerade an die 4 Punkte
Abbildung 3 : Die ideal angenäherte Gerade und die Messpunkte







home   Impressum