В нашей библиотеке: 321 книг 226 авторов 0 статей За всё время нас посетило 836873 человек которые просмотрели 16649939 страниц.
Читатели оставили 10 отзывов о писателях, 68 отзывов о книгах и 6 о сайте


Название: Основы статистики с элементами теории вероятностей для экономистов

Автор: Ниворожкина Людмила Ивановна

Жанр: Учебники, лекции и словари

Рейтинг:

Просмотров: 2287

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |




9. статистическое изучение связей между явлениями и их использование для управления социально-экономическими процессами

9.1. Виды и формы связей, различаемые в статистике

 

Современная наука  об  обществе  объясняет суть  явлений  через  изучение  взаимосвязей явлений.

Объем продукции предприятия связан с численностью работников, стоимостью основных фондов и т. д.

 

Различают два типа взаимосвязей между различными явлениями и их признаками: функциональную или жестко детерминированную и статистическую или стохастически детерминированную.

 

Функциональная связь — это вид причинной зависимости, при которой определенному значению  факторного  признака соответствует одно  или  несколько точно  заданных значений

результативного  признака.   Например,   при   у   =   √x—   связь   между   у   и   х   является   строго

функциональной, но значению х = 4 соответствует не одно, а два значения y1 = +2; y2= -2.

 

Стохастическая связь — это вид причинной зависимости, проявляющейся не в каждом отдельном случае, а в общем, в среднем, при большом числе наблюдений. Например, изучается зависимость роста детей от роста родителей. В семьях, где родители более высокого роста, дети в среднем ниже, чем родители. И, наоборот, в семьях, где родители ниже ростом, дети в среднем выше,

чем  родители.  Еще  один  пример:  потребление  продуктов  питания  пенсионеров  зависит  от душевого  дохода:  чем  выше  доход,  тем  больше  потребление.  Однако  такого  рода  зависимости проявляются лишь при большом числе наблюдений.

Корреляционная связь — это зависимость среднего значения результативного признака от изменения факторного признака; в то время как каждому отдельному значению факторного признака Х может соответствовать множество различных значений результативного (Y).

Задачами корреляционного анализа являются:

1) изучение степени тесноты связи 2 и более явлений;

2) отбор факторов, оказывающих наиболее существенное влияние на результативный признак;

3) выявление неизвестных причинных связей. Исследование корреляционных зависимостей включает ряд этапов:

1) предварительный анализ свойств совокупности;

2) установление факта наличия связи, определение ее направления и формы;

3) измерение степени тесноты связи между признаками;

4) построение регрессионной модели, т. е. нахождение аналитического выражения связи;

5) оценку адекватности модели, ее экономическую интерпретацию и практическое использование.

Корреляционная связь между признаками может возникать различными путями. Важнейший путь- причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, Х — балл оценки плодородия почв, Y — урожайность сельскохозяйственной культуры. Здесь ясно, какой признак выступает как независимая переменная (фактор), а какой как зависимая переменная (результат).

Очень важно понимать суть изучаемой связи, поскольку корреляционная связь может возникнуть между двумя следствиями общей причины. Здесь можно привести множество примеров. Так, классическим является пример, приведенный известным статистиком начала XX  в.  А.А.Чупровым. Если в качестве признака Х взять число пожарных команд в городе, а за признак Y — сумму убытков в городе  от  пожаров,  то  между  признаками  Х  и  Y  в  городах  обнаружится  значительная  прямая корреляция. В среднем, чем больше пожарников в городе, тем больше убытков от пожаров. В чем же дело? Данную корреляцию нельзя интерпретировать как связь причины и следствия, оба признака - следствия общей причины - размера города. В крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в мелких.

Современный пример. Сразу после 17 августа 1998 г. резко возросли цена валюты и объем покупки валюты частными лицами. Здесь также нельзя рассматривать эти два явления как причину и следствие. Общая причина - обострение финансового кризиса, приведшее к росту курсовой стоимости валюты и стремлению  населения  сохранить  свои  накопления  в  твердой  валюте.  Такого  рода  корреляцию называют ложной корреляцией.

Корреляция возникает и в случае, когда каждый из признаков и причина, и следствие. Например, при сдельной оплате труда существует корреляция между производительностью труда и заработком. С одной стороны, чем выше производительность труда, тем выше заработок. С другой — высокий заработок сам по себе является стимулирующим фактором, заставляющим работника трудиться более интенсивно.

По   направлению  выделяют   связь   прямую   и   обратную,   по   аналитическому  выражению   —

прямолинейную и нелинейную.

В начальной стадии анализа статистических данных не всегда требуются количественные оценки, достаточно лишь определить направление и характер связи, выявить форму воздействия одних фак- торов на другие. Для этих целей применяются методы приведения параллельных данных, аналити- ческих группировок и графический.

Метод приведения параллельных данных основан на сопоставлении 2 или нескольких рядов ста- тистических величин. Такое сопоставление позволяет установить наличие связи и получить пред- ставление о ее характере. Сравним изменения двух величин (табл. 9.1).

 

Таблица 9.1

 

Х

1

2

3

4

5

6

7

8

9

Y

5

9

6

10

12

17

15

20

23

 

 

С увеличением Х возрастает и Y, поэтому связь между ними можно описать уравнением прямой.

 

Метод аналитических группировок характеризует влияние качественного признака на относительные средние величины, на показатели вариации количественных признаков. В качестве группировочного признака выбирается факторный. В таблице размещают средние значения одного или нескольких результативных признаков. Изменения факторного признака при переходе от одной группы к другой вызывают соответствующие изменения результативного признака (табл. 9.2).

 

Оборачиваемость в днях - факторный признак, обозначаемый обычно X, а прибыль - результативный

- Y. Табл. 9.2 ясно демонстрирует присутствие связи между признаками, это - отрицательная связь.

Судить о том, линейная она или нет, по этим данным сложно.

 

Таблица 9.2

 

Характеристика зависимости прибыли малых предприятий от оборачиваемости оборотных средств на 1998 г.

 

Продолжительность оборота средств, дн.(Х)

Число малых предприятий

Средняя прибыль, млн.

руб. (Y)

40-50

6

14,57

51-70

8

12,95

71-101

6

7,40

Итого

20

11,77

 

 

Графический метод используется для наглядного изображения формы связи между изучаемыми признаками. Для этого в прямоугольных осях координат строят график, по оси ординат которого откладывают индивидуальные значения результативного признака, а по оси абсцисс - индивидуальные значения факторного признака. Совокупность точек результативного и факторного признаков называется полем корреляции (рис. 9.1).

 

Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака от одного (при изучении парных зависимостей) или нескольких (множественных) факторов.

Большинство методов измерения тесноты связи  заключается в  сопоставлении отклонений абсолютных значений величин  от  их  средних. Они  основаны на  предположении, что  при  полной

независимости  переменных  отклонения  значений  факторного  признака  от  средней  (X  –   X )носят случайный     характер          и          должны          случайно        сочетаться      с          различными            отклонениями            значений

результативного признака (Y - ⎯Y). При наличии значительного перевеса совпадений или несовпадений

знаков отклонений делается предположение о наличии связи между Х и Y. Одну из первых попыток

установления  тесноты  связи  между  переменными  сделал  Г.  Фехнер,  предложивший  простейший показатель тесноты связи:

 

Показатель Фехнера изменяется в промежутке [-1; 1]. При значении, равном 1, он указывает на положительную функциональную связь, при значении -1 — на отрицательную функциональную связь, при i = 0 связь отсутствует. Промежуточные значения i характеризуют степень близости связи к функциональной (табл. 9.3).

 

Таблица 9.3

 

Х

1

2

3

4

5

6

7

8

9

Y

5

9

6

10

12

17

15

20

23

Х-⎯Х

-4

-5

-2

-1

0

1

2

3

4

Y-⎯Y

-8

-4

-7

-3

-1

4

2

7

10

 

 

Например, для данных табл. 9.1.

Получим ⎯Х = 5; ⎯Y = 13; σx, = 3,2; σy = 5,85;

i = (9 - 1)/9 = 0,89.

Недостаток показателя Фехнера состоит в том, что разные по абсолютной величине отклонения имеют одинаковый вес. Более совершенный измеритель тесноты связи между признаками — линейный коэффициент корреляции Пирсона (назван по имени английского статистика К. Пирсона) характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними

линейной зависимости.

Смысл линейного коэффициента корреляции Пирсона более понятен, если его расчет производить с использованием коэффициента ковариации. Это — мера совместной вариации признаков. Коэффициент ковариации рассчитывается с помощью формулы

 

 

 

 
С помощью коэффициента ковариации можно определить наличие и направление связи. Однако его нельзя использовать для определения степени тесноты связи, так как он имеет смешанную размерность (Х•Y). Коэффициент ковариации — не нормирован, следовательно, нельзя сравнивать коэффициенты ковариации разных пар переменных. Для преодоления этого недостатка можно выражение (9.2) разделить на средние квадратические отклонения по х и по у. Полученный показатель интенсивности линейной связи называется коэффициентом корреляции:

 

Это — безразмерная величина, которая изменяется в интервале от -1 до +1, -1 ≤ r ≤ 1.

Путем  ряда     преобразований        можно получить        следующие     аналитические           выражения     для

коэффициента корреляции:

 

 

Производя расчет по  итоговым значениям исходных переменных, линейный коэффициент корреляции можно вычислить по формуле

 

Линейный  коэффициент  корреляции  имеет   большое   значение   при   исследовании  социально-

экономических явлений и процессов, распределения которых близки к нормальным.

 

9.2. Оценка достоверности коэффициента корреляции

Коэффициент парной корреляции, исчисленный по выборочным данным, является случайной величиной. С уменьшением числа наблюдений надежность коэффициента корреляции падает. С увеличением числа наблюдений (свыше 500) распределение коэффициента корреляции r (не превышающее 0,9) стремится к нормальному.

Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляции ρ в генеральной совокупности.

Определим доверительный интервал для оценки истинного значения коэффициента корреляции в генеральной совокупности (ρ )

 

 

где σr . — среднеквадратическая ошибка выборочного коэффициента парной корреляции;

t — распределение Стьюдента с числом степеней свободы k = п - 2 и уровнем значимости α.

Если  коэффициент  корреляции  меньше  0,9  или  выборка  мала,  среднеквадратическая  ошибка

 

 
выборочного коэффициента корреляции σr рассчитывается по формуле

 

Значимость коэффициента корреляции можно проверить с помощью статистики t, имеющей распределение Стьюдента с п - 2 степенями свободы.

 

 

 
Наблюдаемое значение t (tнабл) вычисляется как

 

Критическое значение (tкр) определяется по таблице распределения Стьюдента (приложение 5) по

уровню значимости α и числу степеней свободы k = п - 2.

По общему правилу проверки статистических гипотез:

— если tнабл  ≤  tкр, нулевую гипотезу о том, что между Х и Y отсутствует корреляционная связь

(Н0: r = 0), нельзя отклонить на заданном уровне значимости а;

— если  tнабл< tкр  , нулевая гипотеза отклоняется в пользу альтернативной о том, что коэффициент

корреляции  значимо  отличается  от  нуля  (Н1:  r≠0),   т.  е.  о  наличии  линейной  корреляционной

зависимости между Х и Y.

 

 
Критерий tрасч подчиняется закону распределения Стьюдента с п - 2 степенями свободы.

 

При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также при построения доверительного интервала применяется z-преобразование Фишера.

Для этого применяется статистика

 

Распределение z асимптотически приближается к нормальному. Вариация z выражается формулой

 

9.3. Эмпирическое и теоретическое корреляционные отношения

 

При выявлении статистической зависимости по данным аналитической группировки в качестве меры

 

 
степени тесноты связи может быть использовано эмпирическое корреляционное отношение (ηэмп)

 

где

 

 

межгрупповая дисперсия зависимой переменной Y;

 

 

общая дисперсия зависимой переменной Y;

⎯уj — средняя арифметическая j-й группы, где j= 1..., k;

⎯у — общая средняя арифметическая;

тj — объем j-й группы;

п — объем выборки;

у — наблюдаемые значения Y.

 

 
Значения ηэмп распределены на отрезке [0; 1]

Чем ближе ηэмп   к 1, тем теснее связь между переменными Х и  Y,  тем больше колеблемость Y

объясняется колеблемостью X.

Квадрат  эмпирического  корреляционного  отношения  (η2эмп    )   называют  коэффициентом детерминации. Он показывает, какая часть Y колеблемости объясняется колеблемостью X.

 

 

Степень  тесноты  связи  между  переменными  в  случае  не  только  линейной,  но  и  нелинейной регрессионной зависимости можно оценить с помощью теоретического корреляционного отношения

(ηтеор).  Поэтому  ηтеор       часто  называют  «индексом  корреляции».  Теоретическое  корреляционное

отношение рассчитывается по формуле

 

 

где SR— сумма квадратов вследствие регрессии;

 

ST — общая сумма квадратов.

 

Ниже (п. 9.11) приведены формулы расчета SR (9.29) и ST (9.27).

Легко  увидеть,  что  в  случае  линейной  регрессионной  зависимости  r  =  ηтеор   .  Если  связь  —

нелинейная, η  < ηтеор  . Это позволяет использовать ηтеор      в качестве меры линейности связи между

переменными  X  и  Y.  Если  линейный  коэффициент  корреляции  Пирсона  (r)  мало  отличается  от

теоретического корреляционного отношения (ηтеор), т.е. r ≈ ηтеор  , то зависимость между переменными

близка к линейной. В противном случае имеет, место нелинейная зависимость между X и Y.

Проверка значимости и эмпирического (ηэмп), и теоретического (ηтеор) корреляционного отношения

осуществляется с помощью критерия Фишера —  F.  Его наблюдаемое значение рассчитывается по

формуле

 

где n — число наблюдений (объем выборки); т — число групп (если проверяется значимость

эмпирического корреляционного отношения ηэмп  ) или число параметров в уравнении регрессии (если проверяется значимость теоретического корреляционного отношения ηтеор).

Ясно, что в уравнении парной регрессии — 2 параметра: β0 и β1, т. е. т = 2.

Критическое значение F определяется по таблицам распределения Фишера (приложение 6) по уроню

значимости α и числу степеней свободы.

 

 

Наблюдаемое  значение  (Fнабл)  необходимо  сравнить  с  критическим  (Fкр).  По  общему  правилу проверки статистических гипотез:

— если Fнабл ≤ Fкр , нулевую гипотезу (H1:η = 0) о том, что η незначим, нельзя отклонить;

— если Fнабл  > Fкр  нулевая гипотеза отклоняется в пользу альтернативной (H1:η  ≠  0) о том, что

η значимо отличается от нуля.

9.4. Ранговая корреляция

 

Если п объектов какой-либо совокупности N пронумерованы в соответствии с возрастанием или убыванием какого-либо признака X, то говорят, что объекты ранжированы по этому признаку. Ранг xi, указывает место, которое занимает i-й объект среди других n объектов, расположенных в соответствии с признаком Х (i= 1,2,.... п). Например, при исследовании рынка мы можем задать вопрос с целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженого, водки и т. п.) таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если мы имеем 2 набора ранжированных данных, то можно попытаться установить степень линейной зависимости между ними. Предположим, имеется 5 продуктов, расположенных по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками А и В (табл.9.4).

 

Таблица 9.4

 

Характеристики  для ранжирования

Продукт

V

W

X

Y

Z

А

2

5

1

3

4

 

B

 

1

 

3

 

2

 

4

 

5

 

 

Для  определения  наличия  взаимосвязи  между  ранговыми  оценками  используется  коэффициент ранговой корреляции Спирмена. Его расчет основан на различии между рангами:

 

D = Ранг А - Ранг В.

Коэффициент корреляции рангов Спирмена ρ рассчитывается по формуле

где п - число пар ранжированных наблюдений.

 

В нашем примере мы имеем 5 пар рангов, следовательно, п = 5.

 

т. е. между признаками есть достаточно сильная линейная связь. Этот коэффициент изменяется в промежутке от [-1; 1] и интерпретируется так же, как и коэффициент Пирсона. Разница лишь в том, что он применяется для ранжированных данных.

 

 
Значимость коэффициента Спирмена проверяется на основе t критерия Стьюдента по формуле

 

Значение коэффициента считается существенным, если tнабл > tкрит (α ;k = п — 2).

9.5. Корреляция альтернативных признаков

 

Альтернативные признаки — это признаки, принимающие только два возможных значения. Исследование их корреляции основано на показателях, построенных на четырехклеточных таблицах, в которых сводятся значения признаков:

 

а

в

с

d

 

 

Например, требуется измерить связь между прививками от гриппа и пониженной заболеваемостью от гриппа в группе случайно отобранных студентов (табл. 9.5).

 

Таблица 9.5

 

 

Заболели

Не заболели

Итого

Привитые

30

20

50

Непривитые

15

5

20

Всего

45

25

70

 

 

Для измерения тесноты взаимосвязи признаков производится расчет коэффициента контингенции по формуле

Коэффициент контингенции принимает значение в промежутке [-1; 1]. Его интерпретация аналогична интерпретации коэффициента корреляции. Мы получили слабую отрицательную связь -0,14.

 

Другой метод измерения связи основан на расчете коэффициента ассоциации

 

 

Минус перед коэффициентом говорит об обратном направлении связи, т. е. чем больше прививок,

тем меньше заболеваний.

 

 

9.6. Оценка уравнения парной регрессии

 

В начале этой главы было установлено, каким образом можно провести предварительный анализ наличия связи, определить ее направление и форму c помощью метода приведения параллельных данных, аналитических группировок, графического метода.

Изучение степени тесноты взаимосвязи между признаками было проведено с помощью корреляционного анализа (расчета различных мер связи).

Уточнение формы связи, нахождение ее аналитического выражения производится путем построения уравнения связи (уравнения регрессии).

Регрессия — это односторонняя статистическая зависимость.

Уравнение регрессии позволяет определить, каким в среднем будет значение результативного признака (Y) при том или ином значении факторного признака (X), если остальные факторы, влияющие на Y и не связанные с X, рассматривались неизменными (т. е. мы абстрагировались от них).

К задачам регрессионного анализа относятся:

1) установление формы зависимости;

2) определение функции регрессии;

3) оценка неизвестных значений зависимой переменной.

По аналитическому выражению различают прямолинейную и криволинейную связи.

Прямолинейная связь имеет место, когда с возрастанием (или убыванием) значений Х значения Y

увеличиваются (или уменьшаются) более или менее равномерно.

В этом случае уравнение связи записывается так:

⎯yх  = b0 + b1х.

Криволинейная форма связи может выражаться различными кривыми, из  которых простейшими

являются:

 

1) парабола второго порядка

⎯yх = b0 + b1х +b2х2;

 

 

2) гипербола

 

⎯yx =b0+b1 /x;

 

3) показательная

⎯yx = b0b1x;

 

либо в логарифмическом виде

ln⎯yx = lnb0 + xlnb1.

После  определения  формы  связи,  т.  е.  вида  уравнения  регрессии,  по  эмпирическим  данным

определяют параметры искомого уравнения.

При этом отыскиваемые параметры должны быть такими, чтобы рассчитанные по уравнению теоретические  значения  результативного   признака  максимально  приближались  к   эмпирическим данным.

Чаще всего определение параметров уравнения регрессии осуществляется с помощью метода наименьших квадратов, в котором предполагается, что сумма квадратов отклонений теоретических значений от эмпирических должна быть минимальной,

В зависимости от формы связи в каждом конкретном случае определяется своя система уравнений,

удовлетворяющая принципу минимизации.

 

 

9.7. Парная линейная зависимость

 

Предположение о парной линейной зависимости между Х и Y можно описать функцией

Y = β0 + β1Х + и,

где β0, β1 — истинные значения параметров уравнения регрессии в генеральной совокупности; и —

случайная составляющая.

Существует несколько причин возникновения случайной составляющей:

1) невключение объясняющих переменных в уравнение регрессии;

2) агрегирование объясняющих переменных, включенных в уравнение регрессии;

3) неправильное описание структуры модели, т. е. неверный выбор объясняющих переменных;

4) неправильная функциональная спецификация модели. Например, для моделирования использована линейная функция, в то время как зависимость между переменными — нелинейная;

5) ошибки наблюдения (ошибки данных).

По  выборочным  данным  определяются  оценки  истинных  (в  случае  правильной  спецификации модели) параметров уравнения регрессии и случайной составляющей

⎯yx=b0+b1х+e

где b0,b1, е — оценки неизвестных β0 , β1, и. В случае парной линейной зависимости вида

⎯yx=b0+b1х

условие  минимума суммы  квадратов отклонений теоретических значений от  эмпирических (ST)

имеет вид

 

 

Условие 1-го порядка для минимума

 

 

Отсюда получаем систему нормальных уравнений

 

где n — число рассматриваемых пар взаимозависимых величин;

Σx — сумма значений факторного признака;

Σy   —   сумма   значений  результативного  признака.  Вычислив  по   эмпирическим  данным  все

записанные выше суммы и подставив их в систему уравнений, находим оценки параметров искомой

прямой:

 

b0 и b1

В  настоящее  время  необходимость  в  ручных  расчетах  отпала,  так  как  существует  множество

компьютерных  программ,  реализующих  методы  регрессионного  анализа.  Важно  понимать  смысл параметров и уметь их адекватно интерпретировать.

Из системы нормальных уравнений можно вывести формулы для расчета b0 и b1

 

 

b0=⎯y-b1·⎯x. (9.23)

Здесь  b1 — это коэффициент регрессии, характеризующий влияние, которое оказывает изменение X

на Y. Он показывает, на сколько единиц изменится в среднем Y при изменении Х на 1 единицу. Если

b1 > 0, то наблюдаем положительную связь. Если b1 < 0, то связь — отрицательная.

Параметр b1 обладает размерностью отношения у к х.

Параметр  b0   —  постоянная  величина  в  уравнении  регрессии  (свободный  член  уравнения).  Его

интерпретация зависит от того, какой смысл имеют изучаемые признаки.

 

9.8. Коэффициент эластичности

На основе уравнений регрессии часто рассчитывают коэффициенты эластичности результативного признака относительно факторного.

Коэффициент эластичности (Э) показывает, на сколько процентов в среднем изменится результативный  признак  Y  при  изменении  факторного  признака  Х  на  1%.  Он  рассчитывается  по формуле

 

 

или для практических расчетов

 

 

где

 

 

 




Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |

Оцените книгу: 1 2 3 4 5

Добавление комментария:






Информацию в электронную библиотеку yourforexschool.com добавляют исключительно для ознакомления. Если вы являетесь автором книги или компанией которая имеет права распространения и вы хотите чтоб на сайте не было вашей книги, то напишите в обратную связь и мы незамедлительно удалим её.

Копирование материалов сайта разрешено только с использованием активной ссылки на yourforexschool.com Copyright © 2010