Home About us Products Services Contact us Bookmark
:: wikimiki.org ::
Ausgleichsrechnung

Ausgleichsrechnung

Unter einer Ausgleichungsrechnung (auch Ausgleich(ung), Ausgleichsrechnung, Parameterschätzung oder Fit genannt) versteht man die Schätzung von unbekannten Parametern eines mathematischen Modells. Im einfachsten Fall hat eine Ausgleichsrechnung zum Ziel, eine größere Anzahl empirischer Daten näherungsweise durch eine glatte Kurve zu beschreiben. Ausgleichsrechnungen werden in allen Natur- und Ingenieurwissenschaften durchgeführt.

Einleitung

Im einfachsten Fall handelt es sich um die Ausgleichung der Messabweichungen (Verbesserung, Residuum) nach der Methode der kleinsten Quadrate. Hierbei werden die Unbekannten des Modells so bestimmt, dass die Quadratsumme der Messabweichungen aller Beobachtungen minimal wird. Die Beobachtungen werden in diesem Fall oft als normalverteilt, gleichgenau und unkorreliert angesehen. Man untersucht die stochastischen Eigenschaften der Beobachtungen in der Regressionsanalyse.

Funktionales und stochastisches Modell

Im Allgemeinen wird zwischen funktionalem Modell und stochastischem Modell unterschieden. Ein funktionales Modell beschreibt hierbei die mathematischen Relationen zwischen den bekannten (konstanten), unbekannten und den beobachteten Parametern. Die Beobachtungen stellen dabei stochastische Größen (Zufallsvariable) dar. Das stochastische Modell untersucht die Varianzen und Kovarianzen der beobachteten Parameter. Es beschreibt so die Streuung der Beobachtungen und die Korrelation(en) zwischen den verschiedenen Merkmalen. Das Ziel ist eine optimale Ableitung der unbekannten Werte (Parameter) und der Maße für ihre Genauigkeit- und Zuverlässigkeit im Sinne einer Zielfunktion. Für letztere ist am häufigsten die minimale Summe der Abweichungsquadrate, doch können es für Sonderfälle z.B. auch minimale Absolutwerte oder andere Zielfunktionen sein.

Modelltheorie

Zur Lösung von Ausgleichungsproblemen steht ein umfangreicher Formelapparat zur Verfügung. Je nach mathematischem Modell werden verschiedene Formeln notwendig. Das Hauptunterscheidungsmerkmal ist hierbei,
- ob sich alle Beobachtungen als Funktionen von Unbekannten und Konstanten darstellen lassen,
- ob die Beobachtungen voneinander unabhängig oder korreliert sind, bzw. ob die Korrelationen mathematischer oder physikalischer Natur sind;
- ob die Relationen nur Beobachtungen und Konstanten aufweisen, jedoch keinerlei Unbekannte enthalten,
- ob es unter der Menge der Relationen auch solche gibt, die ausschließlich Beziehungen unter Konstanten und Unbekannten beschreiben und damit Restriktionen zwischen Unbekannten beschreiben.
- Bei gemischtem Auftreten von sehr verschiedenen Messgrößen - etwa bei geometrischen und physikalischen Messungen - wurden die Methoden der Ausgleichsrechnung von einigen Mathematikern und Geodäten um 1960 zur sog. Kollokation erweitert.
- Auch für die Lösung des Systems von Normalgleichungen, das bei der Methode der kleinsten Quadrate entsteht, gibt es zahlreiche Methoden, die je nach Anzahl und Struktur der besetzten und leeren Matrixeinträge verschiedene Vor- und Nachteile besitzen.

Siehe auch


- Approximation
- Bündelblockausgleichung
- Carl Friedrich Gauß
- Fehlerfortpflanzung
- Netzausgleichung
- Anwendung der Ausgleichsrechnung in der Photogrammetrie
- Satz von Gauß-Markow

Weitere Stichworte

Gauß-Helmert, Fehleranalyse

Literatur


- H. Wolf: Ausgleichsrechnung I und II : Formeln zur praktischen Anwendung. Bonn 1994 (2. Auflage) Kategorie:Statistik Kategorie:Numerische Mathematik

Mathematisches Modell

Mathematische Modelle versuchen, die wesentlichen Parameter von natürlichen Phänomenen zu erfassen und diese in einem berechenbaren Gleichungssystem, Differentialgleichungssystem o.ä. zur Vorhersage des beobachteten Systems zu nutzen. Berechenbarkeit meint hier sowohl die analytische Untersuchung als auch die Approximation mittels numerischer Verfahren. In der Regel sind auch die sogenannten physikalischen Modelle mathematische Modelle, allerdings solche, die sich auf physikalische Gesetzmäßigkeiten stützen. Gleichermaßen finden sich auch in den Wirtschaftswissenschaften mathematische Modelle (z.B. für die Berechnung von Konjunkturzyklen), die aber nicht von der Natur, sondern von ökonomischen / sozialen Systemen abstrahieren.

Aufkommen und Verbreitung des Begriffs Modell

Die Vorstellung, dass Wissenschaft mit Modellen arbeitet, ist inzwischen Gemeingut. Dass Modellvorstellungen eine zunehmend wichtige Rolle in der wissenschaftlichen Theoriebildung spielen, wurde bei der Diskussion von Atommodellen Anfang des 20ten Jahrhunderts klar erkannt. Aufgrund der wissenschaftstheoretischen Vorbildfunktion der Physik hat sich der Begriff Modell, wie andere ursprünglich physikalische Begriffe auch, in andere Disziplinen ausgebreitet. Modellgestützte Methoden sind nicht auf die Naturwissenschaften beschränkt. Zum Beispiel beruhen die bekannten zweidimensionalen Auftragungen funktionaler Zusammenhänge in den Wirtschaftswissenschaften auf radikal vereinfachender Modellbildung.

Modellierung eines Systems

Eine wissenschaftliche Untersuchung, die zum Ziel hat, ein System mit Hilfe eines Modells zu beschreiben, besteht aus den drei Arbeitsschritten Formulierung, Untersuchung und Validierung des Modells. Von einer Simulation spricht man tendenziell dann, wenn das Interesse nicht der Modellbildung gilt, sondern ein als valide angenommenes Modell als Hilfsmittel eingesetzt wird, um das modellierte System näher zu untersuchen. Grundidee bei der Formulierung eines wissenschaftlichen Modells (Modellbildung, Modellierung) ist die Reduktion von Komplexität: man versucht, Wirklichkeit beschreibbar und verstehbar zu machen, indem man sie vereinfacht. Kann das Modell quantitativ formuliert und durch einen geschlossenen Satz von Gleichungen beschrieben werden, spricht man von einem mathematischen Modell. Ist dieses Modell so komplex, dass es nur mit numerischen Methoden ausgewertet werden kann, spricht man von einem Computermodell. Bei der Untersuchung des Modells sieht man von dem, was das Modell darstellen soll, ab; allein das Modell ist Gegenstand der Untersuchung; es ist eine dem Modell angemessene Methodik zu wählen. Die Validierung des Modells besteht darin, Ergebnisse der Untersuchung des Modells mit bekannten Eigenschaften des durch das Modell repräsentierten Systems zu vergleichen. Ohne Validierung bleibt die Untersuchung von Modellen l'art pour l'art.

Erläuterung anhand eines Beispiels aus der Physik

Als Beispiel für die Untersuchung eines komplexen Phänomens mit Hilfe eines einfachen Modells mag das Heisenberg-Modell eines Ferromagneten dienen.

Formulierung des Modells

Magnetismus kann verschiedene Ursachen haben; in einem einzelnen Magneten können verschiedene Mechanismen wirken, die den Magnetismus hervorbringen, verstärken oder abschwächen; der Magnet kann aus kompliziert aufgebauten, verunreinigten Materialien bestehen; und so weiter. In dieses Durcheinander versucht man Licht zu bringen, indem man Modellsysteme untersucht. Ein physikalisches Modell für einen Ferromagneten kann etwa so lauten: eine unendlich ausgedehnte (man sieht also von Oberflächeneffekten ab), periodische (man sieht also von Gitterfehlern und Verunreinigungen ab) Anordnung atomarer Dipole (man konzentriert sich auf den Magnetismus gebundener Elektronen und beschreibt diesen in der einfachsten mathematischen Näherung).

Untersuchung des Modells

Um das soeben eingeführte physikalische Modell eines Ferromagneten zu untersuchen, sind verschiedene Methoden denkbar:
- Man könnte ein dreidimensionales, physisches Modell bauen, etwa ein Holzgitter (das das atomare Gitter repräsentiert), in dem frei bewegliche Stabmagneten (die die atomaren Dipole repräsentieren) aufgehängt sind. Dann könnte man experimentell untersuchen, wie sich die Stabmagneten in ihrer Ausrichtung gegenseitig beeinflussen.
- Da die Naturgesetze, denen die atomaren Dipole unterworfen sind, wohlbekannt sind, kann man aber auch den Modellmagneten durch ein System geschlossener Gleichungen zu beschreiben: auf diese Weise hat man aus dem physikalischen Modell ein mathematisches Modell erhalten.
  - Dieses mathematische Modell kann man in günstigen Fällen mit analytischen Methoden exakt oder asymptotisch lösen.
  - In vielen Fällen setzt man einen Computer ein, um ein mathematische Modell numerisch auszuwerten.
- Ein so genanntes Computermodell ist nichts anderes als ein mathematisches Modell, das man mit dem Computer auswertet (ein Computer kann nichts anderes - in dem Augenblick, in dem ein Modell computertauglich formuliert ist, ist es ein mathematisches Modell). Eine Computersimulation ist nichts anderes als die Auswertung eines mathematischen Modells.
- Die Untersuchung von Modellen kann sich, wie jede wissenschaftliche Tätigkeit, verselbständigen:
  - im genannten physikalischen Beispiel kann man die Anordnung der Dipole oder deren Wechselwirkung beliebig variieren. Damit verliert das Modell den Anspruch, eine Wirklichkeit zu beschreiben; man interessiert sich nun dafür, welche mathematischen Konsequenzen eine Änderung der physikalischen Annahmen hat.

Validierung des Modells

Man wählt Parameter aus, die man einerseits aus experimentellen Untersuchungen an realen Ferromagneten kennt und die man andererseits auch für das Modell bestimmen kann; im konkreten Beispiel zum Beispiel die magnetische Suszeptibilität als Funktion der Temperatur. Wenn Vorbild und Modell in diesem Parameter übereinstimmen, dann kann man zurückschließen, dass das Modell relevante Aspekte der Wirklichkeit korrekt wiedergibt. Kategorie:Mathematik

Ingenieurwissenschaft

Als Ingenieurwissenschaften werden diejenigen Wissenschaften bezeichnet, die sich mit der technischen Entwicklung und Konstruktion von (meist industriell einsetz- oder fertigbaren) Produkten beschäftigen und dabei naturwissenschaftliche Erkenntnisse praktisch anwenden. Die klassischen Ingenieurwissenschaften sind das Bauingenieurwesen (einschl. Vermessungswesen), der Maschinenbau und die Elektrotechnik. Hinzugezählt werden auch die jüngeren Studiengänge Sicherheitstechnik, Haus- und Gebäudetechnik, das Chemieingenieurwesen sowie die Feinwerktechnik. Es existieren in unterschiedlichen Bereichen Überschneidungen zwischen diesen Disziplinen, so dass die Übergänge fließend sind. Strittig ist, inwieweit das Wirtschaftsingenieurwesen als Kombinations- und Randfach zur Betriebswirtschaftslehre in technischen Umfeldern und die Informatik Ingenieurwissenschaften seien.

Selbstverständnis

Die Ingenieurwissenschaften verstehen sich als angewandte Wissenschaften. Es wird auch Grundlagenforschung betrieben, aber das Hauptaugenmerk liegt auf der praktischen Umsetzung naturwissenschaftlicher Erkenntnisse bei der Realisierung technischer Produkte. Die Ingenieurwissenschaften erheben nicht den Anspruch, eine exakte Wissenschaft im eigentlichen Sinne zu sein: Zu viele der Grundlagen, die bei der praktischen Anwendung von Naturwissenschaften auftreten, sind in ihrer Kombination zu komplex, um exakt berechnet werden zu können. Daher versuchen die Ingenieurwissenschaften, praktikable Verfahren zu finden, um die technischen Vorgänge sicher zu beherrschen. In der Regel geschieht dies dadurch, dass mathematische, zu komplexe Aufgaben durch Annahmen vereinfacht werden, wobei sichergestellt wird, dass man bei den Annahmen "auf der sicheren Seite" bleibt. Zudem bemüht man sich, durch zusätzliche Sicherheitsfaktoren bei den Berechnungen Unwägbarkeiten vorzubeugen. Grundlegend gewandelt hat sich die Ingenieurwissenschaft durch die Einführung der Computer. Während vorher mit Versuchen die konstruktiven Annahmen überprüft werden mussten bzw. Daten für die Konstruktion lieferten (etwa die Festigkeit eines Stahlträgers), so können heute immer mehr Versuche durch numerische Simulationen am Computer ersetzt werden.

Ausbildung und Fächerkanon

Ingenieurwissenschaften werden in Deutschland an Universitäten, Technischen Hochschulen und Fachhochschulen (früher: Ingenieurschulen) sowie Berufsakademien gelehrt. Die Studiengänge schließen mit einem Bachelor, Diplom (FH), Master, Diplom, Diplom (BA) in Österreich z.T. auch mit einem Magister, ab. An den bis in die frühen 1970er Jahren üblichen Ingenieurschulen (heute in Deutschland durch Fachhochschulen, in Österreich durch Höhere Technische Lehranstalten (sog. HTLs) ersetzt) gab es den Ing. Grad., den graduierten Ingenieur als Abschluss. Die Studienabschlüsse der Universitäten und Fachhochschulen sind akademische Grade, die der Berufsakademien nicht. Im Jahre 2005 wurde die Studie "Indikatoren zur Ausbildung im Hochschulbereich veröffentlicht". Derzufolge gefährdet der Mangel an jungen Ingenieuren sogar den Technologiestandort Deutschland. Im Vergleich der OECD-Länder weise Deutschland in den letzten Jahren zwar einen starken Zuwachs in der Anfängerquote bei den Ingenieurwissenschaften auf, sie bleibe jedoch immer noch weit hinter dem Niveau anderer Länder zurück. Die Fächergruppe Mathematik/Naturwissenschaften verzeichnete einen Zuwachs von mehr als 1000 Absolventen, ebenso stieg die Anzahl der Informatiker. Physiker und Chemiker liegen jedoch auf stark niedrigem Niveau, was die Anzahl der Absolventen betrifft. Als besonders problematisch wird die Situation in den Ingenieurwissenschaften beschrieben. Nur noch 18,1 Prozent der Hochschulabsolventen verfügen über einen ingenieurwissenschaftlichen Studienabschluß. Die Zahl der Absolventen betrug im Jahre 2003 rund 33.000. Die Berufschancen für Ingenieurwissenschaftler werden als "sehr günstig" eingestuft. Ein Jahr nach dem Studienabschluß stehen der Expertise "Bericht zur technologischen Leistungsfähigkeit Deutschlands 2005" zufolge mehr als 90 Prozent der Ingenieure und Informatiker in einem regulären Erwerbsverhältnis. Es wird demnach ausdrücklich empfohlen, bei jungen Menschen das Interesse für die Aufnahme eines Studiums in den für die technologische Leistungsfähigkeit Deutschlands wichtigen Bereichen zu wecken und insbesondere Frauen für die technischen Berufe zu mobilisieren. Die naturwissenschaftlichen Grundlagenfächer, auf denen die Ingenieurwissenschaften aufbauen, sind insbesondere die Mathematik und die Physik, aber auch die Chemie (z.B. im Werkstoff- und Baustoffbereich) oder die Geologie (im Bereich des Bauingenieurwesens). Auf diesen naturwissenschaftlichen Grundlagen bauen die ingenieurwissenschaftlichen Grundlagenfächer auf. Hier wären insbesondere die Mechanik (mit den Teilbereichen der Statik und Dynamik) zu nennen, die angewandte Thermodynamik und die Elektrotechnik. Zu diesen Grundlagenfächern gesellen sich methodenorientierte Grundlagenfächer wie beispielsweise die Konstruktionslehre, sowie ergänzende Grundlagen aus der Betriebswirtschaft und Informatik. Auf diesen Grundlagen setzen die eigentlichen Ingenieurwissenschaften auf, die im folgenden dargestellt werden. In den Grenzbereichen zwischen den Arbeitsgebieten etablieren sich häufig eigenständige Fächer (zum Beispiel die Mechatronik). #Bauingenieurwesen ##Grundlagenfächer Mechanik, Hydromechanik, Festigkeitslehre, Baustoffkunde ##Fachrichtungen: Hochbau, Tiefbau, Wasserbau, Wasserwirtschaft, Verkehrswesen #Maschinenbau ##Grundlagenfächer: Mathematik, Physik, Technische Mechanik und Festigkeitslehre, Werkstoffkunde, Thermodynamik, Strömungslehre, Konstruktionslehre, Regelungstechnik (einschl. Steuerungstechnik), Messtechnik, elektronische Datenverarbeitung ##Kernfächer: Maschinenelemente, Maschinendynamik, Fluidenergiemaschinen, Wärmekraftmaschinen (speziell Strömungsmaschinen und Kolbenmaschinen), Verfahrenstechnik und Apparatebau, Fluidantriebe ##Fachrichtungen / spezielle Kernfächer der Fachrichtungen: ###Anlagenbau, Umwelttechnik ###Energietechnik, Klimatechnik ###Fertigungstechnik ###Fördertechnik ###Kraftfahrzeugtechnik ###Luft- und Raumfahrttechnik ###Schweißtechnik #Elektrotechnik ##Grundlagenfächer: Mathematik, Physik, Chemie, Bauelemente, Schaltungstheorie, Theorie der Felder und Wellen, Konstruktionslehre, Informatik ##Fachrichtungen: ###Elektronik ####Analogtechnik ####Digitaltechnik ####Elektronische Bauelemente ####Leistungselektronik ###Energietechnik ####Hochspannungstechnik ####Leistungselektronik ####Energieerzeugung ####Antriebstechnik ###Nachrichtentechnik ####Technische Informatik ####Computertechnik ####Signaltheorie und -verarbeitung ####Informationstheorie ####Kryptologie ###Hochfrequenztechnik ####Funktechnik ####Radio- und Fernsehtechnik ####Telematik ###Automatisierungstechnik ####Steuerungs- und Regelungstechnik ####Kybernetik ####Sensorik ####Umwelt- und Messtechnik ####Netzleittechnik ####Robotik #Chemieingenieurwesen / Bioingenieurwesen / Verfahrenstechnik ##Grundlagenfächer: Mathematik, Chemie, Physik, Physikalische Chemie, Technische Mechanik und Festigkeitslehre, Werkstoffkunde, Thermodynamik, Strömungslehre, Konstruktionslehre, Regelungstechnik, Meßtechnik gelegentlich auch Biochemie, Mikrobiologie und Genetik / Gentechnik ##Kernfächer: ###Apparatetechnik / Anlagentechnik / Anlagenbau ###Bioverfahrenstechnik ###Mechanische Verfahrenstechnik ###Reaktionstechnik ###Strömungsmechanik ###(Technische) Thermodynamik ###Trennverfahren ###Umwelttechnik ##Spezialisierungsrichtungen: ###Anlagensteuerungstechnik ###Bioingenieurwesen ###Chemieapparatebau ###Hochdruckverfahrenstechnik ###Kältetechnik ###Katalysatorenentwicklung ###Lebensmitteltechnik / Lebensmittelverfahrenstechnik ###Partikeltechnik ###Fördertechnik ###Sicherheitstechnik ###Technische Chemie ###Verbrennungstechnik ###Wassertechnologie #Sonder- und Grenzbereiche: ##Feinwerktechnik interdisziplinäres Fachgebiet (Maschinenbau, Elektronik, Technische Optik u.a.) ## physikalische Technik interdisziplinäres Fachgebiet (Maschinenbau, Elektrotechnik, Vakuumtechnik,Optik, Akustik, u.a.) ##Geodäsie, Vermessungswesen (Überschneidung mit Geowissenschaften) ##Bergbau und Metallurgie ##Zur Informatik: Ingenieursbezogene Informatik (CAD, Wirtschaftsinformatik, Medieninformatik, etc.) ##Zur Medizin: Medizintechnik ##Mechatronik ##Systemtechnik ##Zur Architektur: Stadtplanung, Raumplanung, Verkehr, Straßenbau ##Agrar- und Gartenbauwissenschaften ##Militärtechnik

Literatur


- W. Beitz, K.-H. Küttner (Hrsg.): Dubbel. Taschenbuch für den Maschinenbau. 21. Auflage. Springer, Berlin u.A. 2005, ISBN 3-540-22142-5
- Horst Czichos, Manfred Hennecke (Hrsg.): Hütte. Das Ingenieurwissen. 32. Auflage. Springer, Berlin u.A. 2004, ISBN 3-540-20325-7

Weblinks


- [http://www.vdi.de Verein Deutscher Ingenieure (VDI)]
- [http://www.think-ing.de www.THINK-ING.de: Die Informationsplattform für Ingenieurberufe] ! Kategorie:Techniktheorie ja:工学 ko:공학 ms:Kejuruteraan simple:Engineering th:วิศวกรรมศาสตร์

Ausgleichung

Ausgleich, Ausgleichen oder Ausgleichung bezeichnet die Milderung von Gegensätzen oder Benachteiligungen, das Herstellen eines Gleichgewichts oder die Abschaffung einer Ungerechtigkeit. In technischen Disziplinen bedeutet es auch die Glättung von Oberflächen und die Angleichung divergierender Messwerte oder Modelle.
- Recht:
  - Im österreichischen Recht bezeichnet ein Ausgleich das Pendant zum deutschen Vergleich.
  - Im Baurecht und im Naturschutz versteht man unter Ausgleich die Kompensation eines Eingriffs in den Naturhaushalt meist durch die Eingriffsregelung.
  - Im modernen Strafvollzug gibt es den Täter-Opfer-Ausgleich.
- Politik:
  - In der Politik geht es oft um den Ausgleich von Interessen, beispielsweise den (Länder)-Finanzausgleich und den sozialen Ausgleich.
  - Zwischenstaatlich gelang z.B. der Österreichisch-Ungarische Ausgleich (1866) und der Ungarisch-Kroatische Ausgleich.
- Wirtschaft: Das Ausgleichen eines Kontos ist ein Euphemismus für den Übergang von einem negativen zu einem positiven Kontostand. In der Produktion kennt man den Ausgleich von Fertigungstoleranzen, eines Lieferengpasses oder einer Marktlücke.
- Psychologie und Soziologie: Ausgleich(en) bedeutet meist eine Kompensation oder die Milderung eines sozialen Defizits, oder neuerdings der sog. Lohnausgleich.
- Sport: Als Ausgleich in einem sportlichen Bewerb wird der Übergang zu Punktegleichheit oder gleichem Torstand während eines Spiels bezeichnet (auch Remis, engl. Equalizer).
- Die Pädagogik und die Medizin streben den Ausgleich von Defiziten an, z.B. bei Behinderungen, bei Mangelernährung oder Fehlsichtigkeit.
- In der Mathematik und Geodäsie wurde die Ausgleichungsrechnung zur Glättung kleiner Widersprüche entwickelt, die von Technikern oft zum Wort Ausgleich verkürzt wird.
- Die Physik spricht vom Ausgleich optischer Fehler oder fotografischer Kontraste, und vom Ausgleich der Kräfte bei Gleichgewicht (z.B. Druckausgleich).
- Die Geologie und Geophysik kennt zusätzlich einen isostatischen Ausgleich (Schwimmgleichgewicht) von Erdkruste und Erdmantel.
- In Chemie und Biologie spricht man vom Ausgleich verschiedener stofflicher Konzentrationen in einem Medium - siehe Osmose und Diffusion. Siehe auch: Balance, Harmonie, Interesse, Revision, Zufriedenheit.

Methode der kleinsten Quadrate

Die Methode der kleinsten Quadrate (auch: der kleinsten Fehlerquadrate; englisch: Least Squares Method) ist das mathematische Standardverfahren zur Ausgleichungsrechnung: Es ist eine Wolke aus Datenpunkten gegeben, die physikalische Messwerte, wirtschaftliche Größen usw. repräsentieren können. In diese Punktwolke soll eine möglichst genau passende parameterabhängige Modellkurve gelegt werden. Dazu bestimmt man die Parameter dieser Kurve numerisch, indem die Summe der quadratischen Abweichungen der Kurve von den beobachteten Punkten minimiert wird. Messwert In der Grafik sind die (t; y)-Paare als Datenpunkte zu erkennen. Es wurde hier eine logistische Funktion in die Punktwolke gelegt. Die Parameter dieser Funktion werden so bestimmt, dass die Quadratsumme der senkrechten Abweichungen e der Beobachtungen y von der Kurve minimiert wird. Werden bei der Methode der kleinsten Quadrate stochastische Verfahren angewendet, spricht man von Regression und Regressionsanalyse. Diese Begriffe werden, ebenso wie Ausgleichsrechnung, häufig von den Anwendern synonym gebraucht. In der Mathematischen Statistik nennt man das Verfahren auch Kleinste-Quadrate-Schätzung, während in der Physik der Begriff Fitting verwendet wird. Die Fülle an Begriffen demonstriert die Bedeutung und Verbreitung der Methode. Angewandt als Systemidentifikation ist die Methode der kleinsten Quadrate in Verbindung mit Modellversuchen für Ingenieure ein Ausweg aus der paradoxen Situation, Modellparameter für unbekannte Gesetzmäßigkeiten zu bestimmen.

Zum Einstieg

Modellversuch] Am Neujahrstag des Jahres 1801 entdeckte der italienische Astronom Giuseppe Piazzi den Asteroiden Ceres. 40 Tage konnte er die Bahn verfolgen, dann verschwand Ceres hinter der Sonne. Im Laufe des Jahres versuchten viele Wissenschaftler anhand von Piazzis Beobachtungen die Bahn zu schätzen (die Lösung der nichtlinearen Kepler-Gleichungen ist sehr schwierig). Die meisten Rechnungen waren unbrauchbar; als einzige war diejenige des 24jährigen Carl Friedrich Gauß genau genug, um dem deutschen Astronomen von Zach zu ermöglichen, im darauffolgenden Dezember den Asteroiden wiederzufinden. Gauß erlangte dadurch Weltruhm. Sein Verfahren, die Methode der kleinsten Quadrate, publizierte er erst 1809 im zweiten Band seines himmelsmechanischen Werkes Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Unabhängig davon entwickelte der Franzose Adrien-Marie Legendre 1806 dieselbe Methode. 1829 konnte Gauß eine Begründung liefern, wieso sein Verfahren im Vergleich zu den anderen so erfolgreich war: Die Methode der kleinsten Quadrate ist in einer breiten Hinsicht optimal, also besser als andere Methoden. Die genaue Aussage ist als der Satz von Gauß-Markov bekannt.

Das Verfahren

Häufig ist für ein gegebenes Problem keine formelhafte Beschreibung zur Hand: Man interessiert sich für eine abhängige Variable y, deren Zustandekommen von einer vorgegebenen Variablen t oder auch von mehreren Variablen t_1 bis t_q abhängen kann. So hängt die Dehnung einer Feder nur von der aufgebrachten Kraft ab, der Gewinn eines Unternehmens jedoch von mehreren Faktoren wie Umsatz, Return on Investment oder Eigenkapital. Um Informationen über die Art des Zusammenhangs zu erhalten, wird man eine Messreihe y durchführen: Es werden zu verschiedenen Werten der unabhängigen Variablen tj entsprechende y-Werte erhoben. Nun wird versucht, die y-Werte mittels einer Modellfunktion :y_m = f(t_1,\dots, t_q;x_1,\dots,x_p), die von den q Variablen sowie p zusätzlichen Parametern abhängen soll, gut zu approximieren. Für die Wahl dieser Modellfunktion geht man im Allgemeinen von einem vermuteten Funktionstyp aus (beispielsweise einer Parabel oder einer Exponentialfunktion), was im Fall einer unabhängigen Variablen t meistens unproblematisch ist. Die Parameter x dienen zur Anpassung des gewählten Funktionstyps an den beobachteten Wert y. So müsste bei der gemessenen Dehnung einer Feder die gegebene Variable Kraft durch den Parameter Federkonstante relativiert werden. Ziel ist es nun, die Parameter so zu wählen, dass die Modellfunktion die Daten bestmöglich approximiert. Zu betonen ist hierbei, daß es im Allgemeinen wesentlich mehr Datenpunkte gibt als Parameter. Zunächst ist es nicht klar, wie man die Güte verschiedener Approximationen beurteilen soll. Gauß und Legendre hatten die Idee, Annahmen über die Messfehler zu machen. Diese sollten im Durchschnitt Null sein; jeder Messfehler sollte die gleiche Varianz haben und von jedem anderen Messfehler stochastisch unabhängig sein. Man verlangt damit, dass in den Messfehlern keinerlei systematische Information mehr steckt, sie sollen also rein zufällig um Null schwanken. Außerdem sollten die Messfehler normalverteilt sein, was zum einen wahrscheinlichkeitstheoretische Vorteile hat und zum anderen garantiert, dass Ausreißer in y so gut wie ausgeschlossen sind. Das Kriterium zur Bestimmung der Approximation sollte dieses also berücksichtigen und so gewählt werden, dass große Abweichungen der Modellfunktion von den Daten viel stärker bestraft werden als kleine. Mit Hilfe der Maximum-Likelihood-Methode kann letztendlich folgende Vorschrift begründet werden: Es sollen diejenigen Parameter ausgewählt werden, bei denen die Summe der Quadrate der Abweichungen zwischen entsprechender Modellkurve und Daten (die Quadratsumme der Residuen) minimal wird im Vergleich zu anderen Wahlen der Parameter, in Formelschreibweise : \min_ . Äquivalent geht es darum, die euklidische Norm des Differenzvektors zu minimieren: : \min_ \| \vec_ ( \vec ) - \vec \|_ \ . Wie genau dieses Minimierungsproblem gelöst wird, hängt von der Art der Modellfunktion ab. Häufig kann man mit Hilfe eines Streudiagramms zwischen tj und y schon Rückschlüsse auf den Funktionstyp ziehen.

Lineare Modellfunktion

Ein Spezialfall der Modellfunktion ist die lineare Form. Der einfachste lineare Ansatz ist y_m = x_0 + x_1 t. Man erhält in Matrixschreibweise : \min_\left\|\begin1 & t_1 \\ \vdots & \vdots \\ 1 & t_n \end \begin x_0\\ x_1\end - \begin y_1 \\ \vdots \\ y_\end\right\|_ = \min_x\|Ax-b\|_2. Für die resultierende Ausgleichsgerade dieses einfachen (aber durchaus relevanten) Beispiels lassen sich die Lösungen für die Parameter direkt angeben als :x_1 = \frac und x_0 = \bar y - x_1 \bar t mit \bar t = \frac \sum\limits_^n t_i als arithmetischem Mittel der t-Werte, \bar y entsprechend. Die Lösung für x1 kann mit Hilfe des Verschiebungssatzes auch als :x_1 = \frac angegeben werden.

Beispiel für ein einfaches lineares Modell y = x0 + x1t

Es wurden zufällig 10 Kriegsschiffe ausgewählt und bezüglich mehrerer Merkmale darunter Länge (m) und Breite (m) analysiert. Es soll nun untersucht werden, ob die Breite eines Kriegsschiffs möglicherweise durch die Länge erklärt werden kann. Das Streudiagramm zeigt, dass zwischen Länge und Breite eines Schiffs offensichtlich ein ausgeprägter linearer Zusammenhang besteht. Es soll nun nach der Methode der kleinsten Quadrate eine Ausgleichsgerade errechnet werden. In der folgenden Tabelle sind die Daten zusammen mit den Zwischenergebnissen aufgeführt.
Verschiebungssatz Man erhält nun analog zum oben angegebenen Fall zunächst \bar t = \frac = \frac = 1678 und entsprechend \bar y = 1841. Damit bestimmt man x1 als :x_1 = \frac : = \frac = 01612 \;, so dass man sagen könnte, mit jedem Meter Länge wächst ein Kriegsschiff im Durchschnitt etwa 16 Zentimeter in die Breite. Das Absolutglied x0 erhalten wir aus :x_0 = \bar y - x_1 \bar t = 1841 - 01612 \cdot 1678 = -86451 \;, wobei eine inhaltliche Interpretation aus stochastischen Gründen unterbleiben sollte. Die Anpassung der Punkte ist recht gut, es werden etwa 92 Prozent der Information in Breite mit Hilfe des Merkmals Länge erklärt.

Der allgemeine lineare Fall

Hat man mehrere unabhängige Modellvariablen t_1, ..., t_q, erhält man eine lineare Funktion der Art :y_m(t_1,\dots,t_q;x_0, x_1, \dots, x_q )= x_0 + x_1 t_1 + \cdots + x_q t_q , was das lineare Gleichungssystem : \begin x_0 + x_1 t_ + \cdots + x_j t_+ \cdots +x_q t_ = y_1\\ x_0 + x_1 t_ + \cdots + x_j t_+ \cdots +x_q t_ = y_2\\ \vdots \\ x_0 + x_1 t_ + \cdots + x_j t_+ \cdots +x_q t_= y_i\\ \vdots\\ x_0 + x_1 t_ + \cdots + x_j t_+ \cdots +x_q t_= y_n \end ergibt. Fasst man die tij zur Datenmatrix A, die Parameter xj zum Parametervektor x und die Beobachtungen yi zum Vektor b zusammen, kann man das lineare Gleichungssystem auch in der bekannten Weise darstellen als : \begin 1 & t_ & \cdots & t_ \cdots & t_\\ 1 & t_ & \cdots & t_ \cdots & t_\\ \vdots \\ 1 & t_ & \cdots & t_ \cdots & t_\\ \vdots\\ 1 & t_ & \cdots & t_ \cdots & t_ \end \cdot \begin x_0\\ x_1\\ x_2\\ \vdots \\ x_j\\ \vdots\\ x_q \end = \begin y_1\\ y_2\\ \vdots \\ y_i\\ \vdots\\ y_n \end bzw. Ax = b. Der kleinste-Quadrate-Ansatz führt dann wieder wie oben auf ein lineares Ausgleichsproblem der Form :\min_x\|Ax-b\|_2.

Lösung des Minimierungsproblems

Dieses Minimierungsproblem hat immer eine Lösung. Hat die Matrix A vollen Rang, so ist sie sogar eindeutig. Die partiellen Ableitungen bezüglich der x_j und Nullsetzen derselben zum Bestimmen des Minimums ergeben ein lineares System von Normalgleichungen :A^TAx=A^Tb \;, das bei Regularität der ((q+1)×(q+1))-Matrix auf der linken Seite eindeutig lösbar ist. Ferner hat die Systemmatrix A^TA die Eigenschaft, positiv definit zu sein, ihre Eigenwerte sind also alle positiv. Zusammen mit der Symmetrie von A^TA kann dies beim Einsatz von numerischen Verfahren zur Lösung ausgenutzt werden: beispielsweise mittels Cholesky-Zerlegung oder dem CG-Verfahren. Da beide Methoden von der Kondition der Matrix stark beeinflusst werden, ist dies manchmal keine empfehlenswerte Herangehensweise: Ist schon A schlecht konditioniert, so ist A^TA quadratisch schlecht konditioniert. Eine stabilere Alternative bietet die QR-Zerlegung mittels des Householder-Verfahrens, ausgehend vom ursprünglichen Minimierungsproblem und nicht den Normalgleichungen. Ferner lässt sich das Minimierungsproblem mittels einer Singulärwertzerlegung gut analysieren. Diese motivierte auch den Ausdruck der Pseudoinversen, einer Verallgemeinerung der normalen Inversen einer Matrix. In der statistischen Regressionsanalyse spricht man bei mehreren gegebenen Variablen t_j von multipler Regression. Der Ansatz ist auch als OLS (ordinary least squares) bekannt, im Gegensatz zu GLS (generalised least squares), dem verallgemeinerten Regressionsmodell bei Residuen, die von der Verteilungsannahme wie Unkorreliertheit und Homoskedastie abweichen. Dagegen liegen bei multivariater Regression für jede Beobachtung i (i=1, ...,n) r viele y-Werte vor, so dass statt eines Vektors eine (n×r)-Matrix Y vorliegt. Die linearen Regressionsmodelle sind in der Statistik wahrscheinlichkeitstheoretisch intensiv erforscht worden. Besonders in der Ökonometrie werden beispielsweise komplexe rekursiv definierte lineare Strukturgleichungen analysiert, um volkswirtschaftliche Systeme zu modellieren.

Anforderungen an die Daten

Strenggenommen ist die Normalverteilungsannahme für die abhängige Variable y nicht zwingend notwendig. Es sollen lediglich keine Ausreißer vorliegen. Diese verursachen numerische Probleme, ebenso wie Multikollinearität.

Multikollinearität

Multikollinearität entsteht, wenn die Messreihen zweier gegebener Variablen ti und tj sehr hoch korreliert sind, also fast linear abhängig sind. In diesem Fall wird die Determinante von A^TA sehr klein und die Lösungswerte werden unplausibel groß. Die Norm der Inversen wird umgekehrt ebenfalls sehr groß, die Kondition von A^TA ist stark beeinträchtigt. Die Normalgleichungen sind dann numerisch schwer zu lösen. Häufig tritt Multikollinearität auf, wenn das Regressionsmodell durch zu viele Regressoren überbestimmt ist. Neben numerischen Alternativen können auch mit Hilfe statistischer Tests die Variablen auf ihre Erklärungswerte für das Modell hin überprüft werden und gegebenenfalls entfernt werden. Man kann bei sehr vielen in Frage kommenden Regressoren auch schrittweise eine Variablen-Selektion durchführen:
- Bei der vorwärts gerichteten Regression (Forward Regression) wird zuerst der Regressor in das Modell aufgenommen, der den größten Beitrag zur Erklärung von y liefert, also etwa die Quadratsumme der Residuen minimiert. Dann wird unter den verbliebenen potentiellen Regressoren der Regressor ausgewählt, dessen Beitrag zum bestehenden Modell maximal ist, usw. Das Verfahren wird beendet, wenn der zusätzliche maximale Beitrag eines Regressors statistisch insignifikant wird. Wird statt eines Tests eine kritische Genauigkeit verwendet, könnte man auch sagen, bis sich die Genauigkeit der Anpassung nicht mehr steigern lässt. Wenn das statistische Material nicht umfangreich genug ist kann es vorkommen, dass die Abhängigkeit der Genauigkeit von der Anzahl der Ansatzfunktionen nicht glatt, sondern rauh gegen einen Grenzwert konvergiert - daraus ergeben sich weitere Verbesserungsmöglichkeiten des Verfahrens.
- Bei der rückwärts gerichteten Regression (Backward Regression) werden zunächst alle Regressoren in das Regressionsmodell aufgenommen. Es wird dann der Regressor aus dem Modell entfernt, dessen Weglassen die Quadratsumme der Residuen am wenigsten reduziert. Dann wird der nächste Regressor entfernt usw. Das Verfahren stoppt, wenn der Beitrag des nächsten potentiellen Eliminationskandidaten zur Erklärung von y signifikant hoch wird, bzw. bis die Genauigkeit einen festgelegten Schwellenwert unterschreitet. :Im allgemeinen ist die Vorwärts-Elimination der Rückwärts-Elimination vorzuziehen, weil die Kreuzproduktmatrix A^TA bei sehr vielen Regressoren häufig schon pathologisch ist und für die Eliminationsrechnung keine sinnvollen Ergebnisse liefert. Auch mit Ridge-Regression kann Multikollinearität abgeholfen werden. Typischerweise sind bei multikollinearen Kreuzproduktmatrizen A^TA die Hauptdiagonalelemente zu klein. Man addiert hier iterativ kleine Beträge auf die Hauptdiagonale, bis sich die Matrix stabilisiert hat. Mit Hilfe eines Konditionierungskriteriums, etwa der Eigenwerte, kann dieser Prozess kontrolliert werden. Ob dieses Verfahren sinnvolle Ergebnisse liefert, muss wohl fallweise untersucht werden.

Ausreißer

Als Ausreißer sind Datenwerte definiert, die "untypisch weit von der Masse der Daten entfernt sind". Diese Werte beeinflussen die Berechnungen derart stark, dass sich sogar die Vorzeichen von errechneten Parametern umdrehen. Es gibt hier alternative Ausreißer-resistente Berechnungsverfahren wie gewichtete Regression oder das Drei-Gruppen-Verfahren. Bei der gewichteten Regression werden etwa die Ausreißer der abhängigen Variablen y mit 0 und die unproblematischen Werte mit 1 gewichtet, was die Unterdrückung des Ausreißers bedingt. Dieser Algorithmus nach Mosteller und Tukey (1977) wird als "biweighting" bezeichnet. Denkbar wäre auch, die Gewichtung je nach Stärke des Ausreißers abzustufen. Im übrigen können auch Ausreißer in den Regressoren die Ergebnisse der Ausgleichsrechnung stark beeinträchtigen. Man spricht hier von Werten mit großer Hebelkraft (High Leverage Value).

Nichtlineare Modellfunktionen

Tukey Mit dem Aufkommen leistungsfähiger Rechner gewinnt insbesondere die nichtlineare Regression an Bedeutung. Sie ermöglicht im Prinzip die Anpassung von Daten an jede Gleichung der Form y = f(x). Da diese Gleichungen Kurven definieren, werden die Begriffe nichtlineare Regression und "curve fitting" zumeist synonym gebraucht. Manche nichtlineare Probleme lassen sich durch geeignete Substitution in lineare überführen und lassen sich dann wie oben lösen. Etwa nur multiplikativ wäre ein Modell der Art : y = x_0 \cdot t^ \cdot e \;, bei dem auch die Residuen e mit t variieren. Hier könnte man mit Logarithmieren das System in eine additive Struktur überführen und dann die Parameter errechnen. Dieser Ansatz wird beispielsweise in der Wachstumstheorie angewendet. Häufig werden für die Approximation einer Funktion y auch Ausgleichspolynome der Art : y \approx x_0 + x_1 t + x_2 t^2+ ...+ x_q t^q eingesetzt. Werden für die Potenzen die Zahlenwerte verwendet, ergibt sich wieder ein lineares Gleichungssystem, das wie oben gelöst werden kann. Im Allgemeinen ergibt sich bei nichtlinearen Modellfunktionen durch die partielle Differentiation ein System von Normalgleichungen, das nicht mehr analytisch gelöst werden kann. Eine numerische Lösung kann hier iterativ mittels des Gauß-Newton-Verfahrens erfolgen. Jenes hat das Problem, dass die Konvergenz des Verfahrens nicht gesichert ist. Aktuelle Programme arbeiten häufig mit einer Variante: Dem Algorithmus nach Levenberg und Marquardt (Levenberg K (1944): A method for the solution of certain non-linear problems in least squares. Quarterly of Applied Mathematics 2 (1944) 164-168; Marquardt DW (1963): An algorithm for least squares estimation of nonlinear parameters. SIAM J. Appl. Math. 11 (1963) 431-441). Bei diesem Verfahren ist zwar die Konvergenz ebenfalls nicht gesichert, jedoch wird durch eine Regularisierungstechnik die Monotonie der Näherungsfolge garantiert und es ist bei größerer Abweichung der Schätzwerte toleranter als die Ursprungsmethode. Beide Verfahren sind mit dem Newton-Verfahren verwandt und konvergieren meist quadratisch, in jedem Schritt verdoppelt sich also die Zahl der korrekten Nachkommastellen.

Beispiel einer polynomialen Ausgleichskurve

quadratisch Als Ergebnisse der Mikrozensus-Befragung im Mai 2003 durch das statistische Bundesamt sind die durchschnittlichen Gewichte von Männern nach Altersklassen gegeben (Quelle:© Statistisches Bundesamt, Wiesbaden 2004). Für die Analyse wurden die Altersklassen durch die Klassenmitten ersetzt (Die Zahlen sind im Artikel Streudiagramm aufgeführt). Es soll die Abhängigkeit der Variablen Gewicht (y) von der Variablen Alter (t) analysiert werden. Das Streudiagramm lässt auf eine annähernd parabolische Beziehung zwischen t und y schließen, welche sich häufig gut durch ein Polynom annähern lässt. Es wird ein polynomialer Ansatz der Form : y \approx x_0 + x_1 t + x_2 t^2 + x_3 t^3 + x_4 t^4 Streudiagramm versucht. Eine Anpassungsrechnung mit Hilfe des Statistik-Programms Minitab ergab die (ins Deutsch übersetzte) Tabelle T1. Es sind alle Parameter xj statistisch signifikant, d.h. die Daten aller t j können einen deutlichen Beitrag zur Erklärung von y leisten. Das Bestimmtheitsmaß (R^2) beträgt 99,8%, man könnte also sagen, dass 99,8% der Information von y durch die Daten erklärt werden. Die Daten von t j sind allerdings hochkorreliert. Es wurde daher t 3 und damit der Modellparameter x 3 aus dem Modell entfernt. Die Ergebnisse einer Regression ohne t3 sind in der (ins Deutsch übersetzten) Tabelle T2 aufgeführt. Das Bestimmtheitsmaß ist lediglich auf 98,6% gesunken, also hat t3 nur einen zusätzlichen Beitrag zur Erklärung von y von 1,3%. Das Streudiagramm mit den beobachteten und geschätzten y-Werten zeigt, dass die Anpassung gelungen ist.

Beispiel einer Ausgleichskurve als Quotient

Hier soll das Problem anhand eines einfachen Beispiels (multiplikative Verknüpfung: Geschwindigkeitsgleichung v=s/t) erläutert werden. Ein Objekt bewegt sich auf einer ebenen geraden Strecke mit konstanter Geschwindigkeit. Gesucht ist die wahrscheinliche Geschwindigkeit v=s/t oder die wahrscheinliche Zeit pro Wegeinheit t=s/v=T\cdot s (mit T=t/s). Auch hier wird das nichtlineare System in ein lineares überführt. Es werden die folgenden Werte gemessen: Die Summe der Fehlerquadrate S_ ist dann: :S_\mathrm = \sum_^ (t_-t_)^ = \sum_^ (t_-T \cdot s_)^=\sum_^(t_^-2\cdot t_ \cdot T \cdot s_+(T
- s_)^) . Die erste Ableitung der obigen Gleichung nach T, die gleich Null gesetzt wird, um das Minimum zu suchen, lautet: :dS_\mathrm/dT = \sum_^(-2 \cdot t_ \cdot s_+2 \cdot s_^ \cdot T)=0. Diese Gleichung wird nach T aufgelöst: :T = \sum_^(2 \cdot t_ \cdot s_)/\sum_^(2 \cdot s_^). Man muss also die Summe der Produkte tm und sm durch die Summe der Quadrate der gemessenen Entfernungen teilen. Das Ergebnis hat die Einheit Zeit/Weg (hier 2,5286 Sekunden/Kilometer) bzw. der Kehrwert davon ist die gesuchte Geschwindigkeit v mit der Einheit Weg/Zeit (hier 0,3955 Kilometer/Sekunde).

Beispiel der Fourieranalyse

Auch die Fourieranalyse ist eine Form der Linearisierung einer nichtlinearen Modellfunktion. Die Ansatzfunktionen sind der Kosinus und Sinus der Grundfrequenz und ihrer Vielfachen. Man setzt an : y(t) \approx A_0 + A_1 \cos(\omega\,t) + B_1 \sin(\omega\,t) + A_2\cos(2\omega\,t) + B_2 \sin(2\omega\,t) + \ldots Der mittlere quadratische Fehler wird nach jedem einzelnen Fourierkoeffizienten differenziert, und dieser Ausdruck ist jeweils null: : \frac \left( A_0 + A_1 \cos(\omega\,t) + B_1 \sin(\omega\,t) + A_2\cos(2\omega\,t) + B_2 \sin(2\omega\,t) + \ldots \quad - \quad y(t) \right)^2 = 0 : \frac \left( A_0 + A_1 \cos(\omega\,t) + B_1 \sin(\omega\,t) + A_2\cos(2\omega\,t) + B_2 \sin(2\omega\,t) + \ldots \quad - \quad y(t) \right)^2 = 0 Daraus ergeben sich die bekannten Definitionsgleichungen der Fourierkoeffizienten.

Beispiel aus der Enzymkinetik einer nicht linearisierbaren Modellfunktion

Ein Beispiel für Regressionsmodelle, die in keiner Weise linearisierbar sind, ist die Enzymkinetik. Hier ist allerdings zu fordern, dass nur y (Reaktionsgeschwindigkeit) und nicht x (Substratkonzentration) einem Fehler unterliegt. Die vertraute Lineweaver-Burk-Beziehung ist zwar eine algebraisch korrekte Umformung der Michaelis-Menten-Gleichung v = Vmax x [S] / (Km + [S]), ihre Anwendung liefert aber nur korrekte Ergebnisse, wenn die Messwerte fehlerfrei sind. Dies ergibt sich aus der Tatsache, dass sich die Realität nur mit einer erweiterten Michaelis-Menten-Beziehung :\nu_i = \frac(1+e_i)\ \boldsymbol_i mit ei als Fehlerparameter, beschreiben lässt. Diese Gleichung lässt sich nicht mehr linearisieren, also muss hier die Lösung iterativ ermittelt werden. Bei nichtlinearen Gesetzmäßigkeiten ergibt sich eine Komplikation dadurch, dass die zu optimierenden Parameter nicht direkt ermittelt werden können: alle Kalkulationen gehen zwangsläufig von Schätzwerten aus, so dass jede nichtlineare Regressionsanalyse ein iteratives Verfahren darstellt. Ob diese Schätzwerte vernünftig waren, zeigt sich im nachhinein dadurch, dass verschiedene Anfangsschätzungen zum gleichen Endergebnis führen.

Siehe auch


- Konfidenzintervall, Korrelationskoeffizient

Literatur


- Åke Björk, Numerical Methods for Least Squares Problems, SIAM, Philadelphia, 1996 ISBN 0898713609
- Draper, Norman R. und Smith Harry: Applied Regression Analysis, Wiley-Interscience, 1998 ISBN 0471170828
- Gerhard Opfer, Numerische Mathematik für Anfänger. Eine Einführung für Mathematiker, Ingenieure und Informatiker. 4. Aufl. Vieweg Verlag, Braunschweig 2002 ISBN 3528372656
- Volker Oppitz/Volker Nollau: Taschenbuch Wirtschaftlichkeitsrechnung, Carl Hanser Verlag 2003, 400 S., ISBN 3446224637
- Volker Oppitz: Gabler Lexikon Wirtschaftlichkeitsberechnung, Gabler-Verlag 1995, 629 S., ISBN 3409199519
- Schönfeld, Peter: Methoden der Ökonometrie, Berlin, Frankfurt, 1969
- Zeidler E. (Hrsg.): Taschenbuch der Mathematik (bekannt als Bronstein und Semendjajew), Stuttgart, Leipzig, Wiesbaden 2003 ISBN 3817120052

Weblinks

Frei verfügbare (Public domain) Implementierungen des Levenberg-Marquardt-Algorithmus finden sich unter
- [http://www.netlib.org/minpack/ minpack::lmdif] in Fortran
- [https://sourceforge.net/projects/lmfit/ sourceforge::lmfit] in C
- Gnuplot Kategorie:Numerische Mathematik Kategorie:Statistik ja:最小二乗法

Quadrat

Der Begriff Quadrat bedeutet: In Geometrie und Mathematik:
- Eine geometrische Figur mit vier gleich langen Seiten und rechten Winkeln; siehe Quadrat (Geometrie).
- In Wahrnehmungspsychologie und Gestaltungslehre ein wahrgenommenes Quadrat, siehe Optisches Quadrat
- Das Ergebnis der Multiplikation einer Zahl mit sich selber, siehe Quadrat (Arithmetik)
- Eine quadratische Matrix, in der alle Spalten, Zeilen und Diagonalen eine besondere Eigenschaft haben, siehe Magisches Quadrat. In anderen Bereichen:
- In der Astrologie der 90°-Winkelabstand zwischen den Planeten, siehe Quadrat (Astrologie).
- In der Reproduktionstechnik (Hochdruck) ein längeres rechteckiges nicht druckendes Stück Blei, das zum Auffüllen von Zeilen im Schriftsatz verwendet wird, siehe Quadrat (Druck). Lokale Bedeutungen:
- In Mannheim: Die in rechtwinkligen Häuserblöcken angelegte Innenstadt, siehe Mannheimer Quadrate.
- In Bottrop: Ein Museum für Kunst und Geschichte, siehe Quadrat Bottrop.

Normalverteilung

Die Gauß- oder Normalverteilung (nach Carl Friedrich Gauß) ist ein wichtiger Typ kontinuierlicher Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gauß-Kurve, Gauß-Glocke oder Glockenkurve genannt. Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten Zufallsvariablen in der Grenze n\rightarrow\infty normalverteilt ist. Viele natur-, wirtschafts- und ingenieurswissenschaftliche Vorgänge lassen sich durch die Normalverteilung entweder exakt oder wenigstens in sehr guter Näherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhängig voneinander in verschiedene Richtungen wirken). Die Normalverteilung ist gegeben durch die Wahrscheinlichkeitsdichte :f(x)= \frac\, e^, wobei \sigma die Standardabweichung und \mu der Erwartungswert ist.

Definition

Eine stetige Zufallsvariable X mit der Wahrscheinlichkeitsdichte :f:\R\to\R,\ x\mapsto \frac\, e^ heißt \mu-\sigma-normalverteilt. Hierbei ist
- \mu=E(X) der Erwartungswert,
- \sigma=\sigma(X) die Standardabweichung und
- \sigma^2=V(X) die Varianz von X. In der Literatur wird auch die Bezeichnung (\mu,\sigma^2)-normalverteilt (das Quadrat ² wird dabei immer explizit geschrieben) oder ähnliches verwendet. Zur Beschreibung der Eigenschaft der Zufallsvariable X, \mu-\sigma-normalverteilt zu sein, verwendet man die Notation X \sim \mathcal(\mu, \sigma^2).

Eigenschaften

Die Verteilungsfunktion der Normalverteilung ist gegeben durch : F(x) = \frac \cdot \int_^ e^ \mathrmt. Der Graph der Wahrscheinlichkeitsdichte f:\R\to\R ist eine Gauß'sche Glockenkurve, welche symmetrisch zum Wert von \mu ist und deren Höhe und Breite von \sigma abhängt. An der Stelle \mu liegt dabei der Hochpunkt und an \mu-\sigma und \mu+\sigma befinden sich die Wendepunkte der Kurve (siehe hierzu auch Kurvendiskussion). Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1 ist, also der Wahrscheinlichkeit eines sicheren Ereignisses entspricht. Somit folgt, dass wenn zwei Gauß'sche Glockenkurven dasselbe \mu , aber unterschiedliche \sigma Werte haben, jene Kurve mit dem größeren \sigma breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert von 1 haben und nur die Standardabweichung (oder " Streuung") höher ist). Zwei Glockenkurven mit dem gleichen \sigma , aber unterschiedlichen \mu haben gleich aussehende Graphen, die jedoch auf der x-Achse um die Differenz der \mu -Werte zueinander verschoben sind. Da sich das Integral der Verteilungsfunktion nicht auf eine elementare Stammfunktion zurückführen lässt, wurde für die Berechnung früher meist auf Tabellen zurückgegriffen (siehe dazu die Tabelle der Verteilungsfunktion der Standardnormalverteilung); heutzutage sind entsprechende Zellenfunktionen in üblichen Tabellenkalkulationsprogrammen stets verfügbar. Tabellen wie Zellenfunktionen gelten aber in der Regel nicht für beliebige \mu und \sigma Werte, sondern nur für die Standardnormalverteilung, bei der \mu=0 und \sigma=1 ist (man spricht auch von einer 0-1-Normalverteilung oder normierten Normalverteilung). Die Tabellen sind also für die Wahrscheinlichkeitsfunktion \Phi mit : \Phi(z)=\frac \cdot \int_^ e^ \mathrmt ausgelegt. Analog dazu wird die zugehörige normierte Wahrscheinlichkeitsdichtefunktion f mit \phi bezeichnet. Ist nun eine beliebige \mu - \sigma -Verteilung gegeben, so muss diese nur in eine Standardnormalverteilung transformiert werden.

Transformation zur Standardnormalverteilung (Z-Transformation)

Ist eine Normalverteilung mit beliebigen \mu und \sigma gegeben, so kann diese durch eine Transformation auf eine 0-1-Normalverteilung zurückgeführt werden. Dazu wird die Verteilungsfunktion F(x) der allgemeinen Normalverteilung mit u=\frac substituiert und die Integralgrenzen werden angepasst: : F(x) = \frac \cdot \int_^ e^ \mathrmt = :: = \frac \cdot \int_^ e^ \mathrmu \cdot \sigma= :: = \frac \cdot \int_^ e^ \mathrmu= :: =\Phi \left(\frac\right) Wird nun z:= \frac definiert und u durch t ersetzt, so erhält man die Verteilungsfunktion der Standardnormalverteilung: : \Phi(z)=\frac \cdot \int_^ e^ \mathrmt Anmerkung: Geometrisch betrachtet entspricht die durchgeführte Substition einer flächentreuen Transformation der Glockenkurve von N(\mu;\sigma) zur Glockenkurve von N(0;1) .

Graph der Wahrscheinlichkeitsdichte

Dichtefunktion der Standardnormalverteilung
::So sieht die Dichtefunktion einer Standardnormalverteilung aus. Angegeben sind die Intervalle im Abstand 1, 2 und 3 Standardabweichungen vom Erwartungswert 0, die rund 68%, 95,5% und 99,7% der Fläche unter der Glockenkurve umfassen. Die gleichen Prozentsätze gelten für alle Normalverteilungen in Bezug auf die entsprechenden Erwartungswerte und Standardabweichungen. Die Normalverteilung ist eine Grenzverteilung, die nicht direkt beobachtet werden kann. Die Annäherung verläuft aber mit wachsendem n sehr schnell, so dass schon die Verteilung einer Summe von 30 oder 40 unabhängigen, identisch verteilten Zufallsgrößen einer Normalverteilung recht ähnlich ist. Die Glockenkurve schmückte neben dem Portrait von Carl Friedrich Gauß von 1989 bis 2001 die 10-DM-Banknote der Bundesrepublik Deutschland.

Rechnen mit der Standardnormalverteilung

Bei Aufgabestellungen, bei denen die Wahrscheinlichkeit für normalverteilte Zufallsvariablen durch die Standardnormalverteilung ermittelt werden soll, ist es nicht nötig, die oben angegebene Transformation jedesmal durchzurechnen. Stattdessen wird einfach das Ergebnis der Transformation verwendet, um die Grenzen x_1 , x_2 und die Zufallsvariable X auf die Grenzen z_1 , z_2 und die Zufallsvariable Z anzugleichen. Somit kann eine N(\mu;\sigma^2) Verteilung durch : z=\frac    beziehungsweise    Z=\frac zu N(0;1) transformiert werden. Die Wahrscheinlichkeit für ein Ereignis, welches z.B. innerhalb der Werte x_1 und x_2 (für den Erwartungswert \mu und die Standardabweichung \sigma ) liegt, ist durch folgende Umrechnung gleich der Wahrscheinlichkeit der Standardnormalverteilung mit den neuen Grenzen z_1 und z_2 : : P( x_1 \leq X \leq x_2 ) = P\left( \frac \leq Z= \frac \leq \frac \right)= P(z_1 \leq Z \leq z_2) (P steht für die französische Bezeichnung "probabilité" der Wahrscheinlichkeit)

Grundlegende Fragestellungen

Allgemein gibt die Verteilungsfunktion die Fläche unter der Glockenkurve bis zum Wert x an, d.h. es wird das bestimmte Integral von -\infty bis x berechnet. Dies entspricht in Aufgabenstellungen einer gesuchten Wahrscheinlichkeit, bei der die Zufallsvariable X kleiner oder kleiner gleich einer bestimmten Zahl x ist. Durch die Verwendung der reellen Zahlen und der Stetigkeit der Normalverteilung macht es keinen Unterschied ob nun < oder \leq verlangt ist, :weil P(X = 3) = \int_3^3 f(x)dx = 0 und somit P(X<3) = P(X \leq 3) . Dasselbe gilt für größer und größer gleich. Dadurch, dass X nur kleiner oder größer einer Grenze (oder innerhalb oder außerhalb zweier Grenzen) liegen kann, ergeben sich für Aufgaben bei normalverteilten Wahrscheinlichkeitsberechnungen folgende zwei grundlegende Fragestellungen:
- Wie hoch ist die Wahrscheinlichkeit, dass bei einem Zufallsversuch die normal verteilte Zufallsvariable Z höchstens den Wert z annimmt?
- : P(Z \leq z)=\Phi(z) : In der Schulmathematik wird für diese Aussage auch die Bezeichnung Linker Spitz verwendet, da die Fläche unter der Gaußkurve von links bis zur Grenze verläuft. Für z sind auch negative Werte erlaubt, trotzdem haben viele Tabellen der Standardnormalverteilung nur positive Einträge. Durch die Symmetrie der Kurve und der Negativitätsregel des linken Spitz stellt dies aber keine Einschränkung dar: :: \Phi(-z)=1-\Phi(z)
- Wie hoch ist die Wahrscheinlichkeit, dass bei einem Zufallsversuch die normalverteilte Zufallsvariable Z mindestens den Wert z annimmt? :: P(Z \geq z) = 1 - \Phi(z) :Analog wird hier oft die Bezeichnung Rechter Spitz verwendet. Ebenso gibt es eine Negativitätsregel: :: P(Z \geq -z)= 1- \Phi(-z)= 1-(1-\Phi(z)) = \Phi(z) (Da jede Zufallsvariable X der allgemeinen Normalverteilung sich in die Zufallsgröße Z der Standardnormalverteilung umwandeln lässt, gelten die Fragestellungen für beide Größen gleichbedeutend)

Streubereich und Antistreubereich

Der Streubereich gibt die Wahrscheinlichkeit wieder, dass die normalverteilte Zufallsvariable Z Werte zwischen z_1 und z_2 annimmt: : P(z_1 \leq Z \leq z_2) = \Phi(z_2) - \Phi(z_1) Beim Sonderfall des symmetrischen Streubereiches ( z_1=-z_2 , mit z_2>0 ) gilt: : P(-z \leq Z \leq z ) = P (|Z| \leq z) = :: = \Phi(z)-\Phi(-z) =\Phi(z)-(1-\Phi(z))= :: =2 \cdot \Phi(z)-1 Hingegen gibt der Antistreubereich die Höhe der Wahrscheinlichkeit an, dass die normalverteilte Zufallsvariable Z Werte außerhalb des Bereichs zwischen z_1 und z_2 annimmt: : P(Z \leq z_1) \mbox P(Z \geq z_2) = \Phi(z_1) + (1-\Phi(z_2)) Somit folgt bei einem symmetrischen Antistreubereich: : P(Z \leq -z) \mbox P(Z \geq z) = P(|Z| \geq z)= :: =\Phi(-z)+1-\Phi(z)= 1-\Phi(z)+1-\Phi(z)= :: =2-2\cdot \Phi(z)

Streubereiche am Beispiel der Qualitätssicherung

Besondere Bedeutung haben beide Streubereiche z.B. bei der Qualitätssicherung von technischen oder wirtschaftlichen Produktionsprozessen. Hier gibt es einzuhaltende Toleranzgrenzen x_1 und x_2 , wobei es meist einen größten noch akzeptablen Abstand \epsilon vom Erwartungswert \mu (= dem optimalen Sollwert) gibt. \sigma kann hingegen empirisch aus dem Produktionsprozess gewonnen werden. Wurde [x_1;x_2]=[\mu-\epsilon;\mu+\epsilon] als einzuhaltendes Toleranzintervall angegeben, so liegt (je nach Fragestellung) ein symmetrischer Streu- oder Antistreubereich vor. Im Falle des Streubereiches gilt: : P(x_1 \leq X \leq x_2) = P(|X-\mu|\leq\epsilon)= ::=P(\mu-\epsilon \leq X \leq \mu+\epsilon) = P\left(\frac \leq Z \leq \frac\right)= ::=\Phi\left(\frac\right)-\Phi\left(\frac\right)= ::= 2 \cdot \Phi\left(\frac\right)-1 =\gamma Der Antistreubereich ergibt sich dann aus : P(|X-\mu|\geq \epsilon )= 1-\gamma oder wenn kein Streubereich berechnet wurde durch : P(|X-\mu|\geq \epsilon )=2\cdot\left(1-\Phi\left(\frac \right)\right)=\alpha . Das Ergebnis \gamma ist also die Wahrscheinlichkeit für verkaufbare Produkte, während \alpha die Wahrscheinlichkeit für Ausschuss bedeutet, wobei beides von den Vorgaben von \mu , \sigma und \epsilon abhängig ist. Ist bekannt, dass die maximale Abweichung \epsilon symmetrisch um den Erwartungswert liegt, so sind auch Fragestellungen möglich, bei denen die Wahrscheinlichkeit vorgegeben und eine der anderen Größen zu berechnen ist.

Approximation der Binomialverteilung durch die Normalverteilung

Allgemeines

Um 1900 postulierte Max Planck das Energiequantum h\nu um die Energieverteilung der schwarzen Strahlung erklären zu können und es wurde daraufhin in vielen anderen Erscheinungen der Natur wiederentdeckt. Der bis dahin geltende Satz 'natura non facit saltus' - die Natur macht keine Sprünge - wurde wirksam widerlegt und zeigt auch, dass viele Phänomene, die oberflächlich für stetig gehalten werden, bei sehr genauer Betrachtung doch nichtstetig bzw. sprunghaft sind. Die Normalverteilung liefert für diese Vorgänge eine sehr gute Approximation, denn viele endliche Zufallsvariablen sind näherungsweise normalverteilt. Eine in der Natur oft anzutreffende Wahrscheinlichkeitsverteilung ist die Binomialverteilung. Auch sie lässt sich in sehr guter Näherung mit der Normalverteilung beschreiben. Mathematisch wird dies durch den Grenzwertsatz belegt: Er besagt (in diesem Fall), dass sich die nichtstetige Wahrscheinlichkeitsverteilung, die sich aus n voneinander unabhängig Zufallsgrößen ergibt, mit steigenden n immer besser an die Normalverteilung angleicht. n ist dabei die Anzahl der voneinander unabhängigen Zufallsversuche, von denen jeder einzelne eine Zufallsgröße ergibt. Ein Beispiel für diese Angleichung der Häufigkeitsverteilung an die Normalverteilung ist folgender Würfelversuch: Gegeben seien zwei normale Würfel, wobei jeder eine Augenzahl von eins bis sechs aufweist. Sie sollen nun n mal geworfen werden, d.h. es werden n voneinander unabhängige Zufallsversuche durchgeführt. Bei jedem Versuch berechnet sich das Ergebnis aus der Gesamtanzahl der geworfenen Augen. Insgesamt werden einige hundert Würfe gemacht, wobei die Anzahl der gleichen Ergebnisse gezählt wird. Diese Häufigkeit kann anschließend in ein Diagramm eingetragen werden. Die resultierende Verteilung ist bei sehr wenigen Würfen rein zufällig, bei sehr hohen n wird sie hingegen der Gauß'schen Glockenkurve (mit dem Erwartungswert von 7) immer ähnlicher, trotzdem ist sie immer noch diskret verteilt (d.h. der Graph besteht aus kleinen Stufen).

Approximation

Ist eine Binomialverteilung (siehe auch Bernoulli-Versuch) mit n voneinander unabhängigen Stufen (bzw. Zufallsversuchen) mit einer Erfolgswahrscheinlichkeit p gegeben, so lässt sich die Wahrscheinlichkeit für k Erfolge allgemein durch P(X=k)= \cdot p^k\cdot q^ für k=0,1,\dots,n berechnen (wobei q=1-p ist). Für sehr große Werte von n kann diese Binomialverteilung durch eine Normalverteilung approximiert werden. Dabei ist
- der Erwartungswert \mu=n\cdot p
- und die Standardabweichung \sigma=\sqrt Ist nun \sigma > 3, dann ist folgende Näherung brauchbar: : P(x_1 \leq X \leq x_2) = \underbrace_ \approx \underbrace_ Bei der Normalverteilung wird die untere Grenze um 0,5 verkleinert und die obere Grenze um 0,5 vergrößert, um eine bessere Approximation bei einer geringen Standardabweichung \sigma gewährleisten zu können. Dies nennt man auch Stetigkeitskorrektur. Nur wenn \sigma einen sehr hohen Wert besitzt, kann auf sie verzichtet werden. Da die Binomialverteilung diskret ist, muss auf einige Punkte geachtet werden:
- < oder \leq (und auch größer und größer gleich) müssen beachtet werden (was ja bei der Normalverteilung nicht der Fall ist). Deshalb muss bei P(X_ die nächstkleinere natürliche Zahl gewählt werden, d.h. :: P(X_ bzw. P(X_>x)=P(X_\geq x+1) :damit mit der Normalverteilung weitergerechnet werden kann. :z.B. P(X_<70)=P(X_\leq 69)
- Außerdem ist :: P(X_ \leq x) = P(0 \leq X_ \leq x) :: P(X_ \geq x) = P(x \leq X_ \leq n) :: P(X_ = x) = P(x \leq X_ \leq x) (unbedingt mit Stetigkeitskorrektur) :und lässt sich somit durch die oben angegebene Formel berechnen. Der große Vorteil der Approximation liegt darin, dass sehr viele Stufen einer Binomialverteilung sehr schnell und einfach bestimmt werden können.

Simulation normalverteilter Zufallsvariablen

Box-Muller-Methode

Nach der Box-Muller-Methode lässt sich eine standardnormalverteilte Zufallsvariable X aus zwei gleichverteilten Zufallsvariablen u_1,u_2 \sim U(0,1), sogenannten Standardzufallszahlen, simulieren: :X=\sqrt\;\cos(2\pi u_2)

Polar-Methode

Die Polar-Methode von Marsaglia ist auf einem Computer noch schneller, da sie nur einen Logarithmus benutzt: #Generiere zwei gleichverteilte Zufallsvariablen u_1,u_2=U(0,1) #Berechne v=(2u_1-1)^2+(2u_2-1)^2. Falls v \ge 1 wiederhole 1. #x=(2u_1-1)(-2\log v /v)^ Durch lineare Transformation lassen sich hieraus auch beliebige normalverteilte Zufallszahlen generieren: Ist die Zufallsvariable X \sim \mathcal(0,1)-verteilt, so ist aX+b schließlich \mathcal(b,a^2)-verteilt.

Zwölferregel

Aus dem zentralen Grenzwertsatz folgt, dass sich die Summe unabhängiger gleichverteilter Zufallszahlen einer Normalverteilung nähert. Ein Spezialfall ist die Zwölferregel, die sich auf die Summe von 12 Zufallszahlen aus dem Intervall [0,1] beschränkt und bereits zu passablen Verteilungen führt.

Verwerfungsmethode

Normalverteilungen lassen sich mit der Verwerfungsmethode (s. dort) simulieren.

Besondere Eigenschaften

Die Normalverteilung ist invariant gegenüber Faltung, d.h. die Faltung einer Gaußkurve der Halbwertsbreite \Gamma_ mit einer Gaußkurve der Halbwertsbreite \Gamma_ ergibt wieder eine Gaußkurve mit der Halbwertsbreite \Gamma_ = \sqrt Die Normalverteilung ist ein Fixpunkt der Fourier-Transformation, d.h. die Fourier-Transformierte einer Gaußkurve ist wieder eine Gaußkurve. Das Produkt der Standardabweichungen dieser korrespondierenden Gaußkurven ist konstant, es gilt die Heisenbergsche Unschärferelation. Die Normalverteilung hat unter den Verteilungen mit gleicher Varianz die größte Entropie.

Mehrdimensionale Normalverteilung

Entropie Das Wahrscheinlichkeitsmaß \mathcal^n(0,1) auf \mathbb^n, das durch die Dichtefunktion :f: \mathbb^n \to \mathbb,\ (x_1,\ldots,x_n) \mapsto \exp\bigg(- \sum_^n x_i^2 \bigg) definiert wird, heißt Standardnormalverteilung der Dimension n . Ein Zufallsvektor X = (X_1,\ldots,X_n) ist standardnormalverteilt auf \mathbb^n genau dann, wenn X_1,\ldots,X_n standardnormalverteilt und stochastisch unabhängig sind. Ein Wahrscheinlichkeitsmaß P auf \mathbb^n heißt n -dimensionale Normalverteilung, wenn eine Matrix A \in \mathbb^ und ein Vektor b \in \mathbb^n existieren, so dass mit der affinen Abbildung u: \mathbb^n \to \mathbb^n,\ x \mapsto Ax+b gilt: u^(P) = \mathcal^n(0,1). Die multivariate Normalverteilung ist die einzige rotationssymmetrische multivariate Verteilung, deren Komponenten stochastisch unabhängig sind. Die Dichtefunktion der zweidimensionalen Normalverteilung mit einem Korrelationskoeffizienten \rho ist :f(x_1,x_2)=\frac \, \cdot \, \exp \left[ \left(-\frac\right) \left( \left(\frac\right)^2 -2\rho\,\frac\,\frac+ \left(\frac\right)^2\right)\right] und schließlich im n-dimensionalen Fall : f_X(x_1, \cdots, x_N) = \frac \exp \left( -\frac ( x - \mu)^\top \Sigma^ (x - \mu) \right) mit der Kovarianzmatrix \Sigma.

Siehe auch

Multivariate Verteilung, Wahrscheinlichkeitspapier, Statistik, Inversionsmethode

Weblinks


- http://www.wiso.uni-koeln.de/ASPSamp/eswf/html/glossar/node132.html
- http://barolo.ipc.uni-tuebingen.de/pharma/2/2.2/standard_verteil.html
- http://www.madeasy.de/2/gauss.htm
  - Möglichst verständlich mit Programmcode in Visual Basic Kategorie:Statistik Kategorie:Stochastik Kategorie:Wahrscheinlichkeitsverteilung ja:正規分布 ko:정규 분포

Korrelation

Die Korrelation ist eine Beziehung zwischen zwei oder mehr quantitativen statistischen Variablen. Wenn sie besteht, ist noch nicht gesagt, ob eine Größe die andere kausal beeinflusst, oder ob beide von einer dritten Größe kausal abhängen, oder ob sich überhaupt ein Kausalzusammenhang erfolgern lässt.

Nähere Beschreibung

Es gibt positive und negative Korrelationen. Ein Beispiel für eine positive Korrelation (je mehr, desto mehr) ist: Je mehr Futter, desto dickere Kühe. Ein Beispiel für eine negative Korrelation (je mehr, desto weniger) ist: Je mehr Verkauf von Regenschirmen, desto weniger Verkauf von Sonnencreme. Häufig benutzt man zu Recht die Korrelation, um einen Hinweis darauf zu bekommen, ob zwei statistische Größen ursächlich miteinander zusammen hängen. Das funktioniert immer dann besonders gut, wenn beide Größen durch eine "Je...desto" Beziehung miteinander zusammenhängen und eine der Größen nur von der anderen Größe abhängt. Beispielsweise kann man unter bestimmten Bedingungen nachweisen, dass Getreide umso besser gedeiht, je mehr man es bewässert. Hängt die Menge oder Qualität des Getreides jedoch zusätzlich zum Wasser noch von anderen Variablen ab (beispielsweise von der Temperatur, dem Nährstoffgehalt des Bodens, dem einfallenden Licht usw.), "verwäscht" der kausale Zusammenhang in der Statistik immer mehr, falls nicht gleichzeitig diese Variablen auch untersucht werden. Die Korrelation beschreibt aber nicht unbedingt eine Ursache-Wirkungs-Beziehung in die eine oder andere Richtung. So darf man über die Tatsache, dass man Feuerwehren oft bei Bränden findet, nicht folgern, dass sie sie legen. Die direkte Kausalität kann auch gänzlich fehlen. So kann es durchaus eine Korrelation zwischen dem Rückgang der Störche im Burgenland und einem Rückgang der Anzahl Neugeborener geben, diese Ereignisse haben aber nichts miteinander zu tun - weder bringen Störche Kinder noch umgekehrt. Das heißt, sie haben kausal allenfalls über eine dritte Größe etwas miteinander zu tun, etwa über die Verstädterung, die Nistplätze vernichtet. Im Gegensatz zur Proportionalität ist die Korrelation nur ein stochastischer Zusammenhang. Es kann nur eine ungefähre Zu- oder Abnahme prognostiziert werden. Eine 200-prozentige Steigerung der Futtermenge kann eine Gewichtszunahme der Kühe von 10% oder auch von 20% bewirken. Eine Verdoppelung der Masse eines Hammers dagegen bewirkt bei gleicher Beschleunigung eine Verdoppelung der Kraft, da hier ein proportionaler Zusammenhang besteht.

Quantitative Beschreibung

Der Ausdruck Korrelation wird oft auf spezielle Weise auf den statistischen Zusammenhang zweier Ereignisse bezogen. Zur Quantifizierung der statistischen Korrelation dienen unter anderem der Korrelationskoeffizient oder – aus der Informationstheorie stammend – die Transinformation und die Kullback-Leibler-Distanz. Korrelationskoeffizienten wurden mehrfach - so schon von Tönnies - entwickelt, heute wird allgemein der von Pearson verwendet. Das Folgende bezieht sich jedoch im Wesentlichen auf die Korrelation von zeitdiskreten Datenreihen, und es sollen die Zusammenhänge hier aus Sicht der Signalverarbeitung mit kontinuierlichen Signalen beschrieben werden.

Korrelationsfaktor als Maß für die Ähnlichkeit zweier Signale

Die Ähnlichkeit zweier Signale wird zunächst anhand zweier reellwertiger Energiesignale beschrieben, anschließend anhand zweier reellwertiger Leistungssignale. Die komplexwertigen Signale werden hier nicht weiter behandelt. Die Signalenergie E_s eines reellwertigen Signals s berechnet sich bekanntermaßen zu: E_s=\int \limits_^ Betrachtet man zusammengesetzte Signale s(t)=x(t)+y(t), so führt das auf die Gleichung E_s = \int \limits_^ = \int \limits_^ = \begin \underbrace \\ E_x \end + \begin \underbrace \\ E_y \end + \begin \underbrace \\ \end. E_x ist die Energie von x, und E_y ist die Energie von y. Die Größe E_ heißt Kreuzenergie. Sie kann positiv, negativ oder null sein. Es ist zweckmäßig, die Kreuzenergie mit den Signalenergien über die folgende Gleichung in Beziehung zu setzen: E_ = \rho \sqrt Der Faktor \rho ist der sogenannte Korrelationsfaktor, auch Korrelationskoeffizient genannt. Für ihn gilt stets: \rho^2 \le 1 , was mit Hilfe der Cauchy-Schwarzschen Ungleichung aus der Analysis bewiesen werden kann. Die Energie des Gesamtsignals hängt nach den eben gemachten Ausführungen von der Signalenergie von x, der Signalenergie von y und dem Korrelationsfaktor \rho ab. Der Korrelationsfaktor hat den Wert \rho =1 , wenn man das Signal x(t) mit dem Signal y(t)=|k| x(t) korreliert. Man nennt das Signal in diesem Fall gleichläufig. Die Signalenergie des Gesamtsignals ist maximal. Der Korrelationsfaktor hat den Wert \rho =-1 , wenn man das Signal x(t) mit dem Signal y(t)=-|k| x(t) korreliert. Man nennt das Signal in diesem Fall gegenläufig. Die Signalenergie des Gesamtsignals ist minimal. Eine Besonderheit liegt vor, wenn der Korrelationsfaktor den Wert \rho = 0 annimmt. Man nennt beide Signale dann orthogonal (bei Energiesignalen darf man auch sagen: unkorreliert). Der Korrelationsfaktor ist, wie an den Beispielen klar wird, ein Maß dafür, wie ähnlich sich zwei Signale sind. Bei Leistungssignalen finden sich ähnliche Zusammenhänge. Für die Signalleistung P_s eines Signals s(t)=x(t)+y(t) ergibt sich: P_s = \lim \limits_ = \lim \limits_ = \begin \underbrace \\ P_x \end + \begin \underbrace \\ P_y \end + \begin \underbrace \\ 2P_ \end. Hier bestimmt der Kreuzleistungsfaktor \overline=\frac den Grad der Übereinstimmung beider Signale. Für \overline=0 nennt man beide Signale orthogonal. Je größer \overline^2 ist, umso größer ist die Wahrscheinlichkeit, dass beide Signale etwas miteinander zu tun haben.

Kreuzkorrelationsfunktion

Der Begriff der Kreuzenergie bzw. Kreuzleistung wird in der Signalverarbeitung zum Begriff der sogenannten Kreuzkorrelationsfunktion KKF erweitert. Man schaut sich dann nicht allein die Kreuzenergie zwischen x und y an, sondern man betrachtet die Kreuzenergie von x mit dem beliebig zeitverschobenen Signal y(t+ \tau). Damit wird ein Zusammenhang beider Funktionen auch dann erkannt, wenn die Funktionen gegeneinander zeitverschoben sind und die Wirkung nach der Ursache einsetzt. Aus Sicht der Signaltheorie unterscheidet man wieder zwischen sogenannten Leistungssignalen, z. B. periodische Signale mit endlichen Signalwerten, und den Energiesignalen, wie z. B. Signale endlicher Länge. Die Kreuzkorrelationsfunktion (KKF) eines reellwertigen Leistungssignals berechnet sich zu \Psi_(\tau) = \lim \limits_ . Bei Energiesignalen ergibt sich \Psi_^ (\tau) = . Bei der Erweiterung zu komplexen Signalen wird das Konjugiert-Komplexe y^ von y verwendet \underline_ (\tau) = \lim \limits_ . bzw. _^ = . Die häufigste Anwendung der KKF dürfte die Suche nach Signalverschiebungen sein. Liegen das Signal x und das zeitverschobene Signal x(t-t_0) vor, so kennzeichnet das Maximum der Kreuzkorrelationsfunktion genau die Zeitverschiebung t_0. Sendet man beispielsweise ein akustisches Signal aus und wartet auf sein Echo, so zeigt die KKF von Signal und Echo an, mit welcher Zeitverzögerung das Echo zurückgekommen ist. Dieses Verfahren funktioniert praktisch auch dann noch relativ gut, wenn beide Signale verrauscht sind. Das hat etwas damit zu tun, dass das Maximum der KKF angibt, mit welcher Zeitverschiebung t_0 sich Signal und Echo am ähnlichsten sind (Prinzip der minimalen Fehlerquadrate).

Autokorrelationsfunktion

In der Signalverarbeitung nutzt man für verschiedene Anwendungen die Kreuzkorrelationsfunktion eines Signals mit sich selbst, die sogenannte Autokorrelationsfunktion. Die Autokorrelationsfunktionen beschreiben die Ähnlichkeit eines Signals bzw. einer Zeitfunktion mit sich selbst.

Definition

Die Autokorrelationsfunktion (AKF) eines reellwertigen Leistungssignals berechnet sich zu \Psi_(\tau) = \lim \limits_ . Bei Energiesignalen ergibt sich in ähnlicher Weise \Psi_^ (\tau) = . Bei komplexwertigen Signalen ergibt sich: \underline_ (\tau) = \lim \limits_ . bzw. _^ = . wobei der Stern die konjugiert komplexe Zahl bedeutet.

Finden von Signalperioden

Eine häufige Anwendung der AKF besteht darin, in stark verrauschten Signalen Periodizitäten zu finden, die nicht ohne weiteres ersichtlich sind. Das hängt damit zusammen, dass die AKF zum einen die Signalperiode erhält und zum anderen das Rauschen im wesentlichen in eine Signalspitze an der Stelle \tau =0 umwandelt. Allgemein ist es so, dass die AKF eines periodischen Signals selbst wieder ein periodisches Signal mit derselben Frequenz ist. Insbesondere ist die AKF des Cosinussignals x(t)=\hat x \cos(\omega t + \varphi) die Cosinusfunktion \Psi_=\frac \cos(\omega \tau) mit derselben Kreisfrequenz \omega (Erhaltung der Signalperdiode). Zu beachten ist, dass hierbei die Phaseninformation verlorengegangen ist. Die AKF von weißem Rauschen ist ein Dirac-Impuls an der Stelle \tau =0 . Liegt ein weißes Rauschen der Leistungsdichte S_0 für die Frequenzen \omega = -\infty ... +\infty vor, so ergibt sich die AKF zu \Psi_(\tau) = S_0 \delta(\tau) Natürlich liegt in einem technischen System niemals exakt weißes Rauschen vor, die Signalspitze der AKF bei \tau=0 lässt sich praktisch aber auch bei gefärbtem Rauschen zeigen.

Signal-Rausch-Verhältnis

Da der Wert der AKF bei \tau =0 dem quadratischen Mittelwert (bei Leistungssignalen) bzw. der Signalenergie (bei Energiesignalen) entspricht, kann man durch Bilden der AKF relativ einfach das Signal-Rausch-Verhältnis SNR abschätzen. Dazu teilt man die Höhe des Wertes \lim \limits_ \Psi_(\tau) , d. h. der Wert, den die AKF ohne Rauschen an der Stelle 0 hätte, durch die Höhe der "Rauschspitze". Beim Umrechnen der SNR in Dezibel muss man darauf achten, dass man 10 \cdot \log \frac und nicht 20 \cdot \log \frac verwendet. Das liegt daran, dass die AKF an der Stelle 0 Leistungs- bzw. Energiewerte und nicht Amplitudenwerte darstellt.

Normierung

Erwähnenswert ist, dass man die AKF häufig auch normiert angibt. Da die AKF ihren Maximalwert an der Stelle \tau =0 hat, verwendet man diesen Wert zur Normierung und schreibt: \rho(\tau) = \frac Der Betrag dieser normierten AKF kann höchstens 1 werden.

Das Korrelationsintegral und Verwandtschaft zu anderen Signaltransformationen

Die Korrelation ist mathematisch durch das Korrelationsintegral für Zeitfunktionen beschrieben: :\rho(\tau)= K\int_^\infty x(t) m(t + \tau) dt Für komplexe Zeitfunktionen gilt: :\rho(\tau)= K\int_^\infty x(t) m^
- (t + \tau) dt Der Wert K und die Integralgrenzen müssen den entsprechenden Funktionen angepasst werden: :K = \begin1 & \mbox \\ \frac & \mbox -T \mbox T \\ \lim_ \frac & \mbox \end x(t) ist die zu analysierende Funktion, m(t) ist die Musterfunktion.

Musterfunktion m(t)

m(t) kann jede beliebige Musterfunktion sein. Sie sollte jedoch sinnvoll angepasst werden. Das Korrelationsintegral geht je nach Musterfunktion m(t) über in:
- Fourier-Transformation: m(t) = e^
- Hilbert-Transformation: m(t) = \frac
- Autokorrelation: m(t) = x(t)
- Kreuzkorrelation: m(t) = y(t)
- Flächenberechnung: m(t) = 1
- Walsh-Hadamard-Transformation
- Wavelet-Transformation

Anwendungen

Die Korrelation wird in verschiedenen technischen und wissenschaftlichen Bereichen praktisch eingesetzt.

Anwendung bei Kapitalanlagen

Der Korrelationsbegriff ist von erheblicher Bedeutung bei Kapitalanlagen. Es gilt: Das Gesamtrisiko des gesamten Portfolios ist umso geringer je geringer die einzelnen Anlagen (Assets) miteinander korrelieren. Beispiel für positive Korrelation: Besteht ein Portfolio nur aus vielen einzelnen Aktien, so führt der Kursrückgang von Aktie 1 auch zum Wertverlust von Aktie 2 und auch Aktie 3 in einem bestimmten Verhältnis. Besteht das Portfolio jeweils zur Hälfte aus Aktien und Renten, so ist der Verlust geringer, da nur eine geringfügige Korrelation Aktien-Renten besteht. Allerdings gibt es auch (negative) Korrelationen, wenn auch geringere, bezüglich Aktie-Rente. Ist der Aktienmarkt schwach, so wird tendenziell in Renten investiert (Kapitalflucht in den sicheren Hafen). Die Rentenkurse steigen. Dies fängt jedoch nicht den Komplettverlust im Aktienbereich auf. Daher ist es sinnvoll noch in weitere Anlagen zu diversifizieren als nur in Renten und Aktien (siehe auch Diversifikation). Die Risikominderung durch Diversifikation oder Investition in negativ korrelierte Assets bezeichnet man als Hedging. Dem ist allerdings eine natürliche Grenze dadurch gegeben, dass, wenn zwei Assets negativ korreliert sind, ein dritter nicht mit beiden negativ korreliert sein kann, sondern nur mit dem einen negativ in dem Maße, in dem er mit dem anderen positiv korreliert ist. Die ideale Diversifikation ist so umfassend, dass keine Korrelationen zwischen den einzelnen Assets existieren. Erwirtschaften zudem die einzelnen, nicht korrelierenden Assets noch eine maximale Rendite, so ergibt sich das ideale, jedoch in Realität nie existierende Portfolio. Reduktion der Korrelation des Gesamtportfolios im Verhältnis zu seinen Einzelanlagen, verbessert nach dem Markowitz-Modell das Rendite-Risiko-Verhältnis. Auf langfristiger Basis wird damit prinzipiell eine höhere Rendite bei geringerem Risiko erzielt (siehe auch Portfoliotheorie).

Anwendung in der Softwaretechnik

Ein Korrelationstest bezeichnet in der Softwaretechnik ein Verfahren, in dem nicht nur einzelne Parameter einer Funktion auf Plausibilität (zum Beispiel in Datentyp oder Wertebereich) geprüft werden, sondern auch Kombinationen dieser Parameter berücksichtigt werden. Es ist möglich, dass zwar jeder Parameter für sich einen gültigen Wert besitzt, diese in Kombination jedoch ein fehlerhaftes Verhalten der zu testenden Funktion hervorrufen, nämlich wenn diese Parameter durch die Funktion korreliert werden. Beispiel: Ein rechteckiges Objekt soll auf dem Bildschirm dargestellt werden. Hierzu existiert eine Funktion, die in den Parametern X,Y,SX,SY die Dimension des Rechtecks entgegennimmt.
- Parameter X gibt die X-Position der linken oberen Ecke an. Es muss geprüft werden, ob X im gültigen Anzeigebereich liegt.
- Parameter SX gibt die X-Kantenlänge (Breite des Rechteckes) an. Hier muss zunächst geprüft werden, ob SX die zulässige Anzeigebreite nicht überschreitet.
- Bei einem Korrelationstest wird nun zusätzlich geprüft ob, X + SX im gültigen Wertebereich liegt.

Anwendung in der Bildverarbeitung

In der Bildverarbeitung nutzt man Korrelationsfunktionen unter anderem zur genauen Lokalisierung eines Musters (der Musterfunktion im Sinne der mathematischen Korrelation) in einem Bild. Dieses Verfahren kann z.B. zur Auswertung von Stereobildpaaren verwendet werden. Um die räumliche Koordinate eines Punktes berechnen zu können muss eine eindeutige Zuordung von Objekten im linken Bild zu den Objekten im rechten Bild existieren. Dazu nimmt man einen kleinen Ausschnitt aus dem einen Bild - das Muster - und korreliert ihn zweidimensional mit dem anderen Bild. Die so erhaltenen Koordinaten eines Objektpunktes oder -merkmals im linken und rechten Bild kann man mit Methoden der Photogrammetrie in räumliche Koordinaten umwandeln.

Anwendung in der Tonverarbeitung

Die Korrelation beschreibt bei der Stereofonie die Ähnlichkeit von Signalen. Der normierte Korrelationsfaktor oder Korrelationskoeffizient ist ein Ähnlichkeitsmaß zweier Signale und berechnet sich vereinfacht aus dem möglichst großen Zeitintegral der Amplitudendifferenz dieser beiden Signale. Er wird angenähert von Korrelationsgradmessern angezeigt, wobei diese in der Praxis allerdings nur einen Phasenbezug mit einer sehr kleinen Integrationszeit unter einer Sekunde untersuchen.
Als Messgerät wird in der Tontechnik der Korrelationsgradmesser oder das Goniometer verwendet.

Siehe auch


- Kovarianz
- Fehler- und Entgleisungsmöglichkeiten: Kollinearität
- Vorsicht bei Korrekturformeln: Attenuitäts-Korrektur Kategorie:Statistik Kategorie:Wissenschaftstheorie

Relation (Mathematik)

Eine Relation ist allgemein eine Beziehung, die zwischen Dingen bestehen kann (vgl. Einleitungsartikel Relation). Relationen im Sinne der Mathematik sind ausschließlich diejenigen Beziehungen, bei denen stets klar ist, ob sie bestehen oder nicht. Zwei Gegenstände können entsprechend nicht "zu einem gewissen Grade" in einer Relation zueinander stehen. Damit ist eine einfache mengentheoretische Definition des Begriffs der Relation möglich: eine Relation R ist eine Menge von n-Tupeln. Dinge, die in der Relation R zueinander stehen, bilden ein n-Tupel, das Element von R ist. Wenn nicht ausdrücklich anderes angegeben ist, versteht man unter einer Relation eine "zweistellige" oder "binäre" Relation, also eine Beziehung zwischen je zwei Dingen. Die Elemente eines Paares (a,b) können aus verschiedenen Grundmengen A und B stammen; die Relation heißt dann heterogen oder "Relation zwischen den Mengen A und B". Wenn die Grundmengen übereinstimmen, A = B, heißt die Relation auch homogen oder "Relation in der Menge A". Wichtige Spezialfälle, zum Beispiel Äquivalenzrelationen und Ordnungsrelationen, sind Relationen in einer Menge.

Definition

Die vorstehenden Überlegungen erlauben uns nun folgende formale Definition: eine binäre Relation R ist eine Teilmenge des kartesischen Produkts zweier Mengen A und B: : R \sube A \times B \quad\mbox\quad A \times B:= \ Allgemeiner ist eine n-stellige Relation eine Teilmenge des kartesischen Produkts von n Mengen A1, ..., An.

Erläuterungen

Das kartesische Produkt ist die Menge aller geordneten Paare von a und b, wobei a irgendein Element aus der Menge A und b eines aus B darstellt. Bei dem geordneten Paar ist die Reihenfolge wichtig, d.h. (a,b) ist etwas anderes als (b,a). Im Gegensatz zu der ungeordneten Menge , die identisch ist mit . Für "(a, b) \in R" schreibt man meist "a R b". Sehr oft ist dabei die Menge A = B, also R \sube A \times A , die Relation heißt dann auch homogen. Relationen können als Funktionen gesehen werden, deren Definitionsmenge das kartesische Produkt der Mengen ist und deren Zielmenge lediglich wahr und falsch umfasst. Man könnte also auch R(a,b) für den Ausdruck der Relation schreiben. Umgekehrt kann man aber auch eine Funktion als eine spezielle (nämlich als eine linkstotale und rechtseindeutige) Relation auffassen (siehe unten). Ob man Funktionen als spezielle Relationen oder Relationen als spezielle Funktionen erklärt, bleibt willkürlich.

Beispiel

:bild:Relation.PNG

Eigenschaften

Die in der folgenden Tabelle gegebenen Beispiele beziehen sich bei Verwendung von Gleichheitszeichen "=", Kleinerzeichen "<" und Kleinergleich-Zeichen "≤" auf die gewöhnliche Anordnung reeller Zahlen. Wichtige Eigenschaften von binären Relationen sind: Relationen werden oft auch mit N:1 oder N:N und dergleichen charakterisiert. Dabei steht 1, wenn es rechts steht, für linkstotal und rechtseindeutig (und umgekehrt). N steht meistens für gar