В нашей библиотеке: 321 книг 226 авторов 0 статей За всё время нас посетило 818733 человек которые просмотрели 16221128 страниц.
Читатели оставили 10 отзывов о писателях, 67 отзывов о книгах и 6 о сайте


Название: Курс лекций по теории вероятностей

Жанр: Учебники, лекции и словари

Рейтинг:

Просмотров: 1897

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 |




Раздел 6. основы дисперсионного анализа.

 

Дисперсионный анализ – это статистический метод анализа результатов наблюдений зависящий от различных одновременно действующих факторов и позволяющий выбрать из ряда факторов наиболее важные, оценивать их влияние.

Основными предпосылками дисперсионного анализа является как правило нормальное распределение результатов наблюдений и отсутствие влияния исследуемых факторов на дисперсию результатов наблюдения.

Обязательным здесь является возможность управляемого изменения фактора в рамках его разновидностей называется  уровнями фактора. Эти эксперименты могут быть пассивными, когда существование уровней и их смена является естественными для исследуемого объекта и активными, когда эти изменения искусственно вносятся экспериментатором по заранее составленному плану.

Идея дисперсионного анализа в разложении общей дисперсии случайной величины на независимые случайные слагаемые, каждый из которых характеризует влияние того или иного фактора, или их взаимодействие. Последующие сравнения этих дисперсий позволяют оценить сущность влияния факторов на исследуемую величину.

Пусть Х – это некоторая случайная величина зависящая от 2х действующих на неё факторов

А и В.

X - среднее значение исследуемой величины.

Отклонение: X − X = α + β + γ

где:  α – отклонение вызванное фактором А;

β – отклонение вызванное фактором В;

γ - отклонение вызванное другими факторами.

α, β, γ – случайные величины независимы.

 

Дисперсию случайной величины   Х, α, β, γ обозначим:

σ 2 ,σ 2 ,σ 2 ,σ 2

x          α          β          γ

γ

 
где: величина σ 2

 

- остаточная дисперсия учитывающая влияние случайных и прочих неучтённых

факторов.

Для независимых и случайных величин имеет место равенство:

2          2          2          2

σ x  = σα + σ β + σγ

α

 

β

 

γ

 
Сравнивая σ 2

или σ 2

с величиной σ 2

 

можно установить степень влияния факторов А и В

на величину Х по сравнению с неучтёнными и случайными факторами.

α

 

β

 
Сравнивая между собой σ 2

факторов А и В на величину Х.

и σ 2

мы можем оценить сравнительную степень влияния

Дисперсионный анализ позволяет на основании выборочных данных найти все значения

дисперсии

σ 2 ,σ 2 ,σ 2 ,σ 2 . Далее используя соответствующие критерии можно оценить степень

x          α          β          γ

влияния параметров А и В на исследуемую случайную величину.

Если речь идёт о влиянии одного фактора на исследуемую случайную величину, то речь идёт об однофакторном дисперсионном анализе. Если же речь идёт о многих факторах, то говорят о многофакторном дисперсионном анализе.

 

Однофакторный дисперсионный анализ.

Большое          количество     практических задач   приводится    к          задачам           однофакторного дисперсионного анализа.

Типичным примером является работа технологической линии в составе которой имеется несколько параллельных рабочих агрегатов.

На  выходе  имеют  место  какие-то  детали.  Эти  детали  по  какому-то  параметру  можем контролировать.

Ясно,  что  среднее  значения  контролируемых  параметров  после  каждого  станка  будут несколько отличаться.

Вопрос: Обусловлены ли эти отличия действием случайных факторов или имеет место влияние конкретного станка агрегата.

В данном случае фактор только один – станок.

Совокупность размеров деталей подчиняется нормальному закону распределения, и все эти совокупности имеют равные дисперсии.

Имеется m станков, т.о. имеется m совокупностей. Из этих совокупностей мы проводим

выборки объёмом n. Так, что значение параметров i-той совокупности i:

x  , x

i

 

i

 
1          2

,..., x  .

i

 
n

Все выборки можно записать в виде таблицы, которая называется матрицей наблюдения.

 

 

 

i      j

1

2

.

j

.

n

Ср. выбо-

рочное xi

1

x11

x12

.

x1j

.

x1n

x1

2

x21

x22

.

x2j

.

x2n

x2

.

.

.

.

.

.

.

.

i

xi1

xi2

.

xij

.

xin

xi

.

.

.

.

.

.

.

.

m

xm1

xm2

.

xmj

.

xmn

xm

 

Выдвигаем гипотезу Н0 заключающуюся в равенстве средних выборочных.

H 0 : x1 = x2  = ... = xm

H1 : x1 ≠ x2  ≠ ... ≠ xm − влияние станков значимо

Гипотеза Н0 проверяется сравнением внутригрупповых и межгрупповых дисперсий по F

критерию Фишера.

Если расхождение незначительно, то принимается гипотеза Н0, в противном случае гипотеза Н0 отвергается.

 

 

x1 =

n

∑ x1 j

j =1      ;

n

m         n

 

 

xi  =

n

∑ xi j

j =1      ;

n

i

 
m

x =  1

∑∑ xij

= 1 ∑ x ;

mn i =1

j =1

m i =1

Далее находят сумму квадратов отклонений от общего среднего:

m         n          m         n

2

 

2

 
∑∑(xij  − x )

= ∑∑(xij  − xi + xi − x )  =

i =1

j =1

m         n

i =1

j =1

m         n          m         n

= ∑∑(xij  − xi )

+ ∑∑(xi  − x )

+ 2∑∑(xij  − xi ) (xi  − x )

2          2          2          2

 

i =1

j =1

i =1

j =1

i =1

j =1

1442443

Q

1442443

Q1

14444244443

0

2

 
m

Q1 = n∑(xi  − x )

i =1

Ноль потому, что стоит сумма от (xij  − xi )(xi  − x ) - сумма отклонений переменных одной

14243

0

совокупности от средней арифметической той же совокупности.

(

 

)

 
m         n          m

x  − x 2  = n     (x

m

− x )2  +

(x   − x )2

n

 
∑∑       ij

∑         i           ∑∑       ij

i =1

j =1

i =1

i =1

j =1

1442443

Q

1442443

Q1

1442443

Q2

Слагаемое Q1 является суммой квадратов разностей между средними отдельных совокупностей и общей средней всех совокупностей. Эта сумма называется суммой квадратов отклонений между группами. Она характеризует систематическое отклонение между совокупностями наблюдений.

Величину Q1 – рассеяние по фактору.

Слагаемое Q2 – представляет собой сумма квадратов разностей между отдельными и

средней соответствующей совокупности. Эта сумма называется суммой квадратов отклонений

внутри группы.

Она характеризует остаточное рассеяние случайных погрешностей совокупностей.

Величина Q называется общей или полной суммой квадратов отклонений отдельных отклонений от общей средней.

Получим оценки дисперсий: S 2 , S 2 , S 2 .

1          2

- дисперсия обусловленная влиянием фактора;

2

 
S 2  =

 

факторов.

Q2       =

m(n − 1)

 

S

 
2

ост

 

- остаточная дисперсия – влиянием случайных и других неучтённых

S 2  =

Q

mn − 1

 

- полная дисперсия.

Далее формируем оценку различия между оценками S 2 и S 2 :

1          2

2          Q1

2

 
S1   =  Sф

=          (m − 1)  = F

 

подчиняется распределению f2 Фишера.

S

 

S

 
2          2

2          ост

Q         н

2 [m(n − 1)]

 

Выбираем уровень значимости α, или доверительной вероятности 1– α = Р и по таблице F-

распределения с числом степеней свободы: к1 = m–1; к2 = m(n–1) находим критическое значение

Fкр,α

Фишера.

P{Fн  > Fкр,α }= α

P{Fн  ≤ Fкр,α }= P = 1 − α

Сравнивая между собой Fн и Fкр,α мы делаем вывод насколько сильно влияние интересующего нас фактора на исследуемую случайную величину.

В этом и состоит идея дисперсионного анализа.

 

Однофакторный дисперсионный анализ обычно представляют в виде таблицы.

 

 

Компоненты

дисперсии

Оценки

дисперсии

Число степеней

свободы

Межгрупповая

дисперсия

S 2  =   Q1           =    2

 

m - 1

Внутригрупповая

дисперсия

S 2  =      Q2               =   2

 

 

m(n - 1)

Общая дисперсия

S 2  =         Q

mn − 1

 

mn - 1

 

 
Основной фактор

Случайные, неучтенные факторы

 

1          m − 1

2          m(n − 1)

 

 

Sост

 

 

Основы регрессионного и корреляционного анализа.

 

Связи между различными явлениями в природе сложны и многообразны. В технике чаще всего речь идет о функциональной зависимости. В большинстве случаев интересующие нас явления протекают в условиях воздействия на них множества неконтролируемых факторов. Воздействие каждого из этих факторов в целом невелико, при этом связь теряет строгую функциональность  и  система  переходит  не  в  строго  определенное  состояние,  а  в  одно  из множества возможных. Речь идет о стохастической связи.

Под стохастической мы понимаем такую связь, когда одна случайная переменная реагирует на изменения другой случайной переменной изменением своего закона распределения.

Наиболее широко в технике используется частный случай стохастической связи, называемый статистической связью, при которой условное МО некоторой случайной величины Y является функцией от значения, которое принимает другая случайная величина X:

M ⎜⎛ y x ⎟⎞ =

f (x)

⎝         ⎠

Как правило исследуются такие виды статистической связи, при которых значение некоторой случайной переменной зависит в среднем от значений, принимаемых другой случайной переменной:

M ⎜⎛ y x ⎟⎞ =

f (x) = Y ( x)

⎝         ⎠

 

 

X, см Y, см (Хi, Yi )

x

 

50

40

30

20

10

 

30        50        70

Такое представление зависимости между переменными X и Y называется полем корреляции. Можно также построить таблицу корреляции.

Проделывая операцию усреднения для всех тех значений Х, по которым есть экспериментальный материал, приходим к тому, что облако исчезает и получается   набор   точек,   представляющих   средние

y          значения.  Соединяя  эти  точки,  получаем  ломанную,

называемую эмпирической линией регрессии.

Связь между СВ характеризуется формой и теснотой связи.

 

Определение фориы связи и понятие регрессии.

Определить  форму  связи  между  СВ  –  значит  выявить  механизм  получения  зависимой

(

 
случайной величины. При изучении статистических связей, форму связей характеризует функция регрессии:

M Y

X

= x)=

f (x) - зависимость условного МО

Если св Х и Y зависимы, то МО их произведения:

M (xy ) = M (x)M ⎜⎛ y x ⎟⎞ = M (y )M ⎜⎛ x y ⎟⎞

⎝         ⎠         ⎝         ⎠

Регрессия св Y относительно Х определяется как:

(

 
+∞

M Y X = x)=

∫ yf ⎜⎛ y x ⎟⎞dy ,

 

 
−∞

 

где

f ⎜⎛ y x ⎟⎞dy  - условная плотность вероятности по формуле Байеса:

⎝         ⎠

f ⎛⎜ y

 

x

 
⎞⎟ =

f (x, y )

f (x )  =

f (x , y )

+ ∞

∫ f (x, y )dy

 

⎝            ⎠

 
M ⎜⎛ X Y = y ⎟⎞ =

 

+∞

∫ xf (x, y )dx

− ∞

 

- регрессия Х по Y.

−∞

Функция регрессии имеет важное практическое значение. Она может быть использована для прогноза значений, которые может принимать известная случайная величина при ставших известными значениях другой случайной величины.

)      (

 
Точность прогноза определяется дисперсией условного распределения:

(

 

= x

 

X

 
σ 2  Y

2

 

2

 
X

= x )= M {Y X

= x − M (Y X

)}2   = M (Y 2

− M 2  Y

= x       X

= x )

учитывая:

σ (x) = M (x − mx )

= M (x)2

− M 2

(x)

 

Несмотря на важность функции регрессии, возможности ее практического использования ограничены, т.к. для ее вычисления необходимо знать аналитический вид двумерной функции

{x,y}. Мы же, как правило, имеем выборку ограниченного объема.

Традиционный путь приводи к большим ошибкам, т.к. одну и ту же совокупность точек на плоскости можно описать с помощью различных функций.

Другой характеристикой формы связи, используемой на практике, стала  кривая регрессии –

зависимость условного среднего случайной величины от значения, которое принимает случайная

величина Х: Y (x) =

f (x) .

Определение кривой регрессии инвариантно закона совместного распределения св Х и Y. Важное значение в практике имеет двумерный нормальный закон распределения. Особенностью этого распределения является то, что условные МО совпадают с условными средними. При этом функция регрессии совпадает с кривой регрессии.

Линейная регрессия (ЛР). Метод наименьших квадратов.

Линейная   регрессия   занимает   в   технике   и   теории   корреляции   особое   место.   Она обусловлена двумерным нормальным законом распределения СВ Х и Y:

Y (x) = a0  + a1 x , где

а0 и а1 – коэффициенты регрессии,

х – независимая случайная величина

Параметры     уравнения      регрессии       определяются            методом          наименьших   квадратов,

предложенным Лагранжем и Гауссом, который сводится к следующему.

Строятся квадратичные формы:

n

Q = ∑(xi

i =1

− ε )2   → min

xi – измеренное значение переменной,

ε - истинное или теоретическое значение этой величины.

Требуется,   чтобы   сумма   квадратов   отклонений   измеренных   значений   относительно

истинных была минимальна.

 

В случае линейной регрессии за теоретическое значение принимается значение

Y (x) , т.е.

ищется такая прямая линия с коэффициентами а0 и а1, чтобы сумма квадратов отклонений от этой линии была минимальна.

n

2

 
Q = ∑(yi  − a0  − a1 x) ,

 

 

а1:

i =1

уi – измеренное значение переменной Y.

Минимальные квадратичные формы получают, приравнивая к нулю ее производные по а0 и

 

⎧ ∂Q

⎪∂a0

= −2∑(y − a0  − a1 x) = 0

a 0 , a1  = const

⎪ ∂Q

n          n          n

⎪∂a

= −2∑(y − a0  − a1 x)x = 0

∑a 0  = na0

∑a1 x = a1 ∑ x

⎩         1

 
⎪na0  + a1 ∑ x = ∑ y

i =0

i =0

i =0

1

 

a

 

⎪   0

 
⎪         ∑ x + a ∑ x 2  =∑ yx

 

 

a0  =

∑ y ∑ x 2  − ∑ x∑ yx

 

a1  =

n∑ yx -∑ x∑ y

⎛         ⎞         ⎛         ⎞

n∑ x 2  − ⎜ ∑ x ⎟  2

n∑ x 2  − ⎜ ∑ x ⎟  2

⎜         ⎟         ⎜         ⎟

⎝         ⎠         ⎝         ⎠

Нелинейная регрессия (НР).

Форма   связи   между   условными   средними   определяется   уравнениями   регрессии.   В

зависимости от вида уравнений можно говорить о ЛР или НР.

В общем случае эта зависимость может быть представлена в виде полинома степени k:

Y (x) = a

+ a x + a x 2  + ... + a x k

0          1          1          k




Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 |

Оцените книгу: 1 2 3 4 5

Добавление комментария:






Информацию в электронную библиотеку yourforexschool.com добавляют исключительно для ознакомления. Если вы являетесь автором книги или компанией которая имеет права распространения и вы хотите чтоб на сайте не было вашей книги, то напишите в обратную связь и мы незамедлительно удалим её.

Копирование материалов сайта разрешено только с использованием активной ссылки на yourforexschool.com Copyright © 2010