МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
УПЪДБОЙЕ ДПЛХНЕОФПЧ ПОМБКО
дПЛХНЕОФЩ Й ВМБОЛЙ ПОМБКО

пВУМЕДПЧБФШ

Администрация
Механический Электроника
биологии
география
дом в саду
история
литература
маркетинг
математике Физика информатики химия
медицина
музыка
образование
психология
разное
художественная культура
экономика


МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

математике


Отправить его в другом документе Tab для Yahoo книги - конечно, эссе, очерк Hits: 939


дтхзйе дплхнеофщ

Описание геометрии винтовой поверхности и ее вращения
Интегрирование иррациональных функций
Скрытые фигуры статико-динамической геометрии
Плотность распределения вероятностей непрерывной случайной величины
Система n линейных уравнений с n переменными. Метод обратной матрицы и формулы Крамера.
ВЕКТОРНЫЕ (ЛИНЕЙНЫЕ) ПРОСТРАНСТВА
ПАРАМЕТРИЧЕСКИЕ ГИПОТЕЗЫ
Векторное произведение и его свойства
ФОРМУЛА ПОЛНОЙ ВЕРОЯТНОСТИ. ФОРМУЛА БЕЙЕСА.
Применение математического ожидания и дисперсии дискретной случайной величины при анализе финансовых операций.
 

Федеральное агентство по образованию

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ТЕХНОЛОГИЙ И УПРАВЛЕНИЯ

(образован в 1953 году)

Кафедра высшей математики

    

МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ



ВВЕДЕНИЕ

   Для решения задач, связанных с обработкой экспериментальных данных при наличии случайных и непредсказуемых воздействий за последние двести лет был выработан мощный и гибкий арсенал методов, называемых в совокупности математической статистикой (а также прикладной статистикой или анализом данных). Эти методы позволяют выявлять закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, давать оценки вероятностей их выполнения или невыполнения. Статистика – это инструментарий, помогающий эффективно разбираться в сложном экспериментальном материале.

Целью данного пособия является формирование у студентов представления об основных статистических процедурах и способах их применения; умение самостоятельно проводить первоначальную статистическую обработку данных экспериментальных исследований; умение делать правильные выводы на основе результатов статистического анализа.

Данное пособие содержит краткие теоретические сведения о теории корреляции и методе наименьших квадратов, контрольные задания для студентов заочной формы обучения и методические рекомендации по их выполнению, список рекомендованной литературы.

РАБОЧАЯ ПРОГРАММА

Введение. Основные этапы и задачи обработки экспериментальных данных.

Основы измерения и количественного описания данных. Измерения и шкалы. Статистические таблицы. Графические методы представления информации.

Основные законы распределения. Точечные и интервальные оценки параметров распределения. Проверка закона распределения наблюдений. Выявление аномальных наблюдений в одномерных выборках и в совокупности связанных величин.

Методы, свободные от распределения. Робастность и робастные оценки.

Элементы теории корреляции и метод наименьших квадратов. Функциональная, статистическая и корреляционная зависимости. Парная корреляция. Коэффициент корреляции Пирсона. Ранговые коэффициенты корреляции. Криволинейная корреляция. Множественная корреляция.

Метод наименьших квадратов.

Элементы дисперсионного анализа. Однофакторный дисперсионный анализ. Двухфакторный дисперсионный анализ.

Краткие теоретические сведения

Элементы теории корреляции

Функциональная, статистическая и корреляционная зависимости

Во многих задачах требуется установить или оценить зависимость случайной величины Y от одной или нескольких других величин. Рассмотрим сначала зависимость Y от одной случайной (или неслучайной величины) X. Две случайные величины могут быть связаны либо функциональной зависимостью, либо зависимостью другого рода, называемой статистической, либо быть независимыми. При функциональной зависимости каждому значению X соответствует вполне определенное значение Y. На практике такая зависимость встречается редко, так как Y помимо X часто зависит от ряда других факторов, подчас остающихся скрытыми. Кроме того, при определении значений X и Y практически всегда присутствуют ошибки измерения. Поэтому общим видом зависимости является статистическая зависимость, когда изменение значений X ведет к изменению распределения случайной величины Y. В частности, статистическая зависимость может проявиться в том, что при изменении X меняется среднее значение Y. В этом случае статистическую зависимость называют корреляционной. Пусть, например, X – количество вносимых удобрений, а Y – урожай зерна. Тогда с ростом X урожайность в среднем увеличивается, но значение Y не определяется однозначно значением X, так как помимо количества удобрений на урожайность влияет ряд других факторов, часто случайных: погодные условия, количество осадков и т.д.

Пусть – условное математическое ожидание случайной величины Y (среднее значение случайной величины Y при фиксированном значении величины X, равном x). Функция

 

называется регрессией Y на X, а ее график – линией регрессии Y на X.

В простейшем случае эта зависимость линейная:

;

где коэффициент  называется коэффициентом регрессии Y на X. Ее графиком является прямая линия.

Заметим, что если X и Y – независимые случайные величины, то  

   и уравнение регрессии примет вид , где b = M(Y), т.е. это будет линейная регрессия с коэффициентом регрессии, равным нулю, и горизонтальной линией регрессии.

Получение по выборке уравнения регрессии является важным элементом корреляционного анализа. В зависимости от конкретной задачи это уравнение можно искать в классе линейных или в более широком классе уравнений. Оно будет, вообще говоря, зависеть от выборки, и поэтому называется выборочным уравнением регрессии. Но, если класс, в котором ищется уравнение, выбран правильно, то с ростом объема выборки выборочная линия регрессии, в силу закона больших чисел, будет приближаться к истинной линии регрессии.

Парная корреляция. Коэффициент корреляции

Пусть имеется выборка из совместного распределения величин (Y,X), в которой величина Y принимает значения  , а величина X – значения


 причем пара  встречается  раз. Объем выборки

Такую выборку удобно представить в виде корреляционной таблицы, строки которой соответствуют значениям величины Y, а столбцы – значениям X. В клетке, образованной i-ой строкой и j-ым столбцом, записано значение . Подробнее корреляционная таблица рассмотрена в последующем примере. Требуется получить по выборке уравнение прямой линии регрессии Y на X:

.

Оценивая по выборке значения , мы тем самым  оцениваем условное математическое ожидание случайной величины Y для каждого значения x. Эта оценка имеет вид  Как известно, наилучшей оценкой математического ожидания является величина, минимизирующая средний квадрат разности между нею и элементами выборки. Поэтому в качестве оценки величин  берутся такие их значения, которые минимизируют сумму квадратов отклонений наблюдаемых значений  от их прогнозируемых математических ожиданий:

 (ради краткости будем временно вместо писать ).

Условие минимума F является обращение в нуль частных производных:

Это дает систему двух линейных уравнений относительно

Поделив обе части каждого из уравнений на объем выборки n, получаем:

Второе из этих уравнений показывает, что выборочная линия регрессии проходит через точку . Ее уравнение, следовательно, может быть записано в виде:

Вычтя из первого уравнения системы второе, умноженное на  , найдем выборочный коэффициент регрессии Y на X:

Стоящая в знаменателе величина  есть выборочная дисперсия величины X. Обозначим ее через , где  – выборочное среднее квадратическое отклонение. Через обозначим выборочное среднее отклонение величины Y. Тогда

.

Введем величину  

которая называется выборочным коэффициентом корреляции величин X и Y.

Выразив коэффициент регрессии через коэффициент корреляции, получим уравнение регрессии в виде:

На практике уравнение регрессии Y на X можно рассматривать как соотношение, позволяющее прогнозировать значение случайной величины Y по известному значению величины X, используя в качестве прогноза значение

Изучим свойства выборочного коэффициента корреляции подробнее. Коэффициент корреляции симметричен относительно X и Y. Уравнение регрессии X на Y  может быть записано с его помощью как

Рассмотрим величину

Исходное выражение, являясь суммой квадратов, неотрицательно. Поэтому  Отсюда следует, что  или  причем   в том и только в том случае, когда все выборочные пары точек лежат на прямой регрессии. Этот случай соответствует строгой линейной функциональной зависимости величин X и Y, когда значение y однозначно определяется значением x. Как уже отмечалось, на практике он встречается редко.

Если, напротив, случайные величины X и Y независимы, то математическое ожидание выборочного коэффициента корреляции как случайной величины равно нулю, и его вычисленное по выборке значение также будет близким к нулю. Поэтому модуль выборочного коэффициента корреляции можно рассматривать как меру линейной функциональной зависимости величин X и Y. Близость модуля коэффициента корреляции к единице говорит о том, что между X и Y имеется сильная линейная связь и предсказание значения Y по X с помощью уравнения регрессии даст высокую точность.

Здесь следует отметить, что близость коэффициента корреляции к нулю не доказывает отсутствие функциональной связи между X и Y, а говорит лишь об отсутствии линейной функциональной зависимости. В качестве примера рассмотрим случай, когда случайная величина X распределена симметрично относительно нуля, а величина Y связана с X соотношением . В этом случае коэффициент корреляции величин X и Y равен нулю, несмотря на наличие между ними жесткой функциональной связи.

На практике, когда по выборке получено некоторое отличное от нуля значение выборочного коэффициента корреляции, может возникнуть вопрос, значимо ли это различие или, другими словами, имеется ли  между ними  X и Y линейная корреляционная связь. Можно сказать, что если величины X и Y нормальны и независимы, то величина

имеет распределение Стьюдента с  степенями свободы. Для проверки значимости коэффициента корреляции при заданном уровне значимости  по таблице критических точек распределения Стьюдента находят            . Если значение величины T, вычисленное по выборке,  , то коэффициент корреляции значим и величины X и Y зависимы.

Пример. Среди владельцев иномарок было выбрано 100 человек. Из стоимости автомашин в тыс. у.е.(X) и годового дохода владельцев также в тыс. у.е.(Y) составлена корреляционная таблица:

Y

X

5

10

15

20

25

10

10 

5

-

-

-

15

20

5

10

5

-

-

20

30

5

5

10

5

-

25

40

-

5

5

10

-

20

50

-

5

5

5

5

20

20

30

25

20

5

Найти коэффициент корреляции величин X и Y и уравнение прямой линии регрессии Y на X.

Решение. Используя корреляционную таблицу, найдем , ,

Проверяя значимость коэффициента корреляции по указанной выше схеме, получим:

В предположении нормальности и независимости величин X и Y, критическое значение этой величины при уровне значимости   найденное по таблице с равно  т.е. имеет место , что свидетельствует о существовании линейной зависимости между X и Y.

Уравнение прямой линии регрессии Y на X запишется в виде:

или

Линия регрессии представлена на графике. Черными кружками отмечены выборочные значения. Размер кружков соответствует их частотам.

 

Криволинейная корреляция

Если линейная аппроксимация статистической зависимости между двумя величинами не отражает характер зависимости, используют модель криволинейной корреляции. Одной из распространенных является параболическая корреляция второго порядка, при которой уравнение регрессии Y на X имеет вид:

.

На практике выборка совместного распределения случайных величин X и Y возникает как последовательность пар  перечисленных в порядке произведенных наблюдений, среди них могут быть и одинаковые. Для нахождения коэффициентов регрессии не обязательно группировать данные в корреляционную таблицу.

Как и в случае линейной корреляции, коэффициенты регрессии   найдем из условия минимума функционала:

Условием минимума является обращение в нуль частных производных:

Это дает систему трех линейных уравнений относительно трех неизвестных  которая называется системой нормальных уравнений:

Решая ее, получаем уравнение регрессии.

Отметим, что если ввести матрицу А и векторы у и а:

то в матричном виде систему нормальных уравнений можно записать как

А'Аа = А'у,

где А' – матрица, получаемая из матрицы А транспонированием.

Такая запись системы нормальных уравнений облегчает ее запоминание. Она переносится и на рассматриваемую далее множественную корреляцию.

Пример. Желая установить цену на товар, обеспечивающую максимальную прибыль, магазин в течении 5 рабочих дней недели продавал получаемые от поставщика изделия с наценкой 1, 2, 3, 4 и 5 у.е. При этом в каждый из дней было продано соответственно 100, 80, 60, 30 и 10 единиц товара. С помощью модели параболической регрессии второго порядка выбрать надбавку, дающую максимальную прибыль.

Решение. Выпишем таблицу соответствия между наценкой и полученной прибылью, определяемой как произведение наценки на количество проданного товара.

наценка Х

1

2

3

4

5

прибыль Y

100

160

180

120

50

Заметим, что устанавливаемая оценка по смыслу является величиной неслучайной. Прибыль, определяемая количеством проданного товара, напротив, величина случайная, среднее значение которой зависит  от наценки. Уравнение регрессии Y на X ищем в виде:

Из полученной таблицы находим коэффициенты системы нормальных уравнений:

Система нормальных уравнений запишется в виде:

Произведя сокращение на 5, получим систему:

которую будем решать методом Гаусса.

Выборочное уравнение регрессии примет вид:

Даваемая моделью оптимальная наценка равна

а получаемая при такой наценке средняя ежедневная прибыль

Вычисленная по модели максимальная средняя ежедневная прибыль оказалась несколько меньше прибыли, полученной в день, когда наценка была равна 3. Это не должно вызывать недоумения. Согласно модели этот день был скорее случайной удачей, чем правилом.

На графике представлены значения полученных прибылей при различных наценках и полученная по ним параболическая линия регрессии.

Множественная корреляция

Пусть случайная величина Y зависит от величин   Такую корреляцию называют множественной. Уравнение линейной множественной регрессии ищется в виде:

.

Используемая выборка состоит из n наборов соответствующих значений   величины Y, где  Коэффициенты    находятся по выборке методом наименьших квадратов.

Как и в случае линейной парной регрессии средние значения   должны удовлетворять этом уравнению:

.

Это позволяет, исключив коэффициент , записать уравнение регрессии в виде:

Такая запись уравнения весьма удобна и позволяет понизить на единицу порядок системы нормальных уравнений.

Пример. В течение 7 месяцев фирма давала рекламу своего товара по телевидению и в печати. Ежемесячные расходы на рекламу ( , а также доход фирмы от продажи товара (Y) в тыс. у.е. сведены в таблице:

Y

100

100

500

140

100

550

100

140

570

120

120

570

140

100

560

100

140

580

140

140

590

Получить по таблице уравнение регрессии

,

на основании которого предложить эффективную рекламную политику.

 

Решение. Уравнение регрессии будем искать в виде

Из таблицы находим: Переопределенная система линейных уравнений, даваемая выборкой, примет вид:

После сокращения и удаления уравнения, не содержащего неизвестных, получаем:

Соответствующая нормальная система запишется в виде:

Ее решение:  Полученные значения коэффициентов регрессии свидетельствуют о том, что реклама по телевидению убыточна , а реклама в печати, наоборот, приносит некоторый доход . Поэтому относительно среднего уровня  вложения в рекламу по телевидению следует снизить, направив освободившиеся средства на рекламу в печати.

Метод наименьших квадратов

Пусть величина Y является линейной комбинацией величин

неизвестные коэффициенты  которой нужно найти. Для этого величинам придается n наборов значений и измеряются соответствующие значения Y. Это дает для определения  следующую систему линейных уравнений:

где  обозначает значение величины  в

Минимальное число необходимых для этого уравнений n равно l. Если определитель системы отличен от нуля, что обычно и имеет место на практике, то система имеет при единственное решение. Если же число уравнений n больше числа неизвестных l, то так как любые n из уравнений системы являются независимыми, а остальные  – их следствиями, теоретически можно выбрать любую подсистему из l уравнений и решить ее. На практике, однако, каждое измерение величины Y неизбежно связано с погрешностью. Это приводит к тому, что система при  оказывается несовместной. Если же из нее выбрать подсистему из l уравнений, то полученные значения коэффициентов   будут зависеть от этого выбора.

Для разрешения данной ситуации еще в начале XIX века немецким математиком Гауссом и французским математиком Лежандром был предложен прием, получивший название метода наименьших квадратов, который стал одним из основных способов обработки экспериментальных данных. Фактически, этот прием уже использовался нами при определении коэффициентов линейной и параболической парной корреляции. Теперь этот важный метод будет рассмотрен в общем виде.

Уравнения системы пытаются удовлетворить приближенно. В качестве меры близости берется сумма квадратичных уклонений левых частей от свободных членов. Решением по методу наименьших квадратов называется набор , доставляющий минимум функционала

Отметим, что если система допускает точное решение, то минимальное значение F оказывается равным нулю, и решение по методу наименьших квадратов является точным решением. Практически же для более точного нахождения неизвестных коэффициентов систему стараются переопределить как можно сильнее, увеличивая число уравнений n. Если ошибку в измерении величины Y считать, как обычно делается в теории ошибок, нормально распределенной случайной величиной с нулевым математическим ожиданием, то такой метод может быть обоснован теоретически как доставляющий значения , наиболее близкие к их действительным значениям.

Условия минимума F является равенство нулю частных производных:

что дает для определения систему l линейных уравнений с l неизвестными, которая называется системой нормальных уравнений.

Если ввести матрицу A исходной системы уравнений, вектор-столбец свободных членов y и вектор-столбец неизвестных a:

      

то в матричном виде систему нормальных уравнений можно записать как

 

где матрица, получаемая из матрицы A транспонированием.

Матрица  нормальной системы является квадратной симметрической матрицей. Ее  элементы равны скалярному произведению i-го и j-го столбцов матрицы A.

Задания для контрольной работы

Задача 1

Найдите методом наименьших квадратов значения коэффициентов линейной зависимости   по эмпирическим данным:

Вариант 1.

0,5

0,1

2,0

2,5

3,0

0,62

1,64

3,7

5,02

6,04

Вариант 2.

-1

0

1

2

3

4

0

2

3

3,5

3

4,5

Вариант 3.

0

2

3

8

9

12

-1

1

5

7

10

13

Вариант 4.

0,4

0,6

0,8

1

1,2

1,4

2

3

4

5

6

7

Вариант 5.

-3

-1

0

4

5

8

10

11

-8

-5

-3

0

1

4

5

8

Вариант 6.

-3

5

2

6

8

10

-1

1

2

4

9

11

Вариант 7.

-2,5

1,5

3

7

8

12

-1,5

1,5

5

7

9,5

13

Вариант 8.

0

3

3

8,5

9

11,5

-1

1

6

7

11,5

13

Вариант 9.

0,5

2,5

3,1

8

9

12

-1

1

5,2

7

10,5

13

Вариант 10.

0

2,3

3

8

9,1

12

-1,5

1

5,4

7

10

11

Задача 2

По данным, представленным в таблице, построить прогнозирующую функцию , используя метод наименьших квадратов.

Вариант 1.

1

2

3

4

5

6

7

y

3,45

3,48

3,06

3,66

3,79

3,85

3,44

x

8

9

10

11

12

13

14

y

4,08

4,5

4,31

3,57

3,55

4,61

3,99

Вариант 2.

1

2

3

4

5

6

7

y

2,27

1,94

2,32

2,49

2,57

2,01

1,87

x

8

9

10

11

12

13

14

y

2,39

2,18

2,17

1,8

2,36

2,5

2,27

Вариант 3.

1

2

3

4

5

6

7

y

48

42,1

42,3

43,7

42,8

41,8

30

x

8

9

10

11

12

13

14

y

44,4

51,2

54,6

57,4

53,2

57,6

58,3

Вариант 4.

1

2

3

4

5

6

7

y

15,16

16,7

15,44

15,65

13,13

14,22

16,73

x

8

9

10

11

12

13

14

y

17,8

16,88

15,67

15,99

14,33

15,77

15,28

Вариант 5.

1

2

3

4

5

6

7

y

2,12

2,2

2,11

2,03

2,21

1,88

1,91

x

8

9

10

11

12

13

14

y

2

1,9

1,99

1,54

1,74

2,23

2,14

Вариант 6.

1

2

3

4

5

6

7

y

32,1

31

32,4

33,2

31,2

34,8

35,4

x

8

9

10

11

12

13

14

y

33

34,8

33,3

36,1

38,3

30,6

32,1

Вариант 7.

1

2

3

4

5

6

7

y

8,5

12,2

3,06

13,66

13,79

8,85

9,44

x

8

9

10

11

12

13

14

y

14,08

14,5

14,31

13,57

23,55

24,61

23,99

Вариант 8.

1

2

3

4

5

6

7

y

48

42,1

42,3

43,7

42,8

41,8

30

x

8

9

10

11

12

13

14

y

44,4

51,2

54,6

57,4

53,2

57,6

58,3

Вариант 9.

1

2

3

4

5

6

7

y

12,5

16,4

11,6

8,9

16,5

4,5

2,7

x

8

9

10

11

12

13

14

y

1,2

4,7

9,4

10,1

10,6

12,5

12,5

Вариант 10.

1

2

3

4

5

6

7

y

33,45

23,48

23,06

23,66

23,79

23,85

23,44

x

8

9

10

11

12

13

14

y

24,08

24,5

24,31

23,57

23,55

24,61

23,99

Вариант выбирается в соответствии с последней цифрой номера зачетной книжки.

Основная литература

1. Косарев Е.Л. Методы обработки экспериментальных данных. – 2-е издание. М.: ФИЗМАТЛИТ, 2008.

2. Гмурман В.Е. Теория вероятностей и математическая статистика: учебное пособие. – 12 изд., перераб. – М.: Высшее образование,  Юрайт- Издат, 2009. – 479 с.

3. Гмурман В.Е. Руководство по решению задач по теории вероятностей и математической статистике: Учебное пособие, 11-е изд., перераб. – М.: Высшее образование,  Юрайт- Издат, 2009. – 404 с.

Дополнительная литература

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных.–М.: Финансы и статистика, 1983. 473 с.

2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимости. .–М.: Финансы и статистика, 1985. 488 с.

3. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере/ Под ред. В.Э. Фигурнова.– М.: ИНФРА-М, Финансы и статистика, 1995. – 384 с.

4. Зуев Ю.А., Орлов Б.Л. Теория вероятностей и математическая статистика. Лекции для студентов экономических и технических специальностей. – М.: МГТА, 1999, 90 с.

5. Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях.–М., 2001, 270 с.

6. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики.–М.,2005, 1022 с.

7. Фадеева Л.Н., Жуков Ю.В., Лебедев А.В. Математика для экономистов: Теория вероятностей и математическая статистика. Задачи и упражнения. – М.: Эксмо, 2007, – 336 с.

Воробьева Алла Викторовна

       Овсянникова Анна Вячеславовна

Методы обработки экспериментальных данных.

Рабочая программа, методические указания и контрольные задания

Тираж 100 экз.

Заказ №