Расчет параметров корреляционной зависимости

Две случайные величины могут быть связаны функциональной зависимостью, либо зависимостью другого рода, называемой статистической, либо быть независимыми. Строгая функциональная зависимость для случайных величин реализуется редко, так как обе величины (или одна из них) подвержены различным случайным факторам (даже если среди этих факторов есть общие).

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. Если при изменении одной из величин изменяется среднее значение другой, то в этом случае статистическую зависимость называют корреляционной. Значит, корреляционная зависимость есть частный случай статистической зависимости.

Чтобы установить наличие и характер статистической связи между двумя случайными величинами и, нужно привести к удобному виду исходный цифровой материал. Наглядной (удобной) формой представления данных является корреляционная таблица:

Таблица 14.2.8


Здесь – середины подынтервалов сгруппированных выборок и (см. лабораторную работу №1); частота, с которой встречается пара (). В последнем столбце и в последней строке таблицы помещены суммарные частоты, соответствующие значению и, соответственно, , то есть

тогда должно быть

и

.

общее количество пар значений .

Каждая я строка табл. 14.2.8 представляет собой совместно с первой строкой некоторое распределение случайной величины, соответствующая данному значению случайной величины. Такое распределение называется условным распределением. Последняя строка табл. 14.2.8 совместно с первой строкой образует безусловное распределение случайной величины (ее эмпирический закон распределения):

Таблица 14.2.9

Каждый ый столбец табл. 14.2.8 представляет собой совместно с первым столбцом некоторое распределение случайной величины, соответствующее данному значению случайной величины (то есть условное распределение). Последний столбец табл. 14.2.8 совместно с первым столбцом образует безусловное распределение случайной величины (ее эмпирический закон распределения):

Таблица 14.2.10

По данным табл. 14.2.9 и табл. 14.2.10 вычисляем средние значения:

(14.2.20)

и средние квадратические отклонения:

(14.2.21)

Замечание 14.2.4. Рекомендуется сделать два рисунка – это графические изображения эмпирических законов распределения случайных величин и в виде полигонов распределения частот. На рисунках нанести средние значения и .

Уточним определение корреляционной зависимости. Для этого введем понятие условной средней. Для каждой ой строки табл. 14.2.8 (совместно с первой строкой) можно вычислить среднее значение случайной величины (по формуле 14.2.20), которое называется условным средним

.

Так как каждому значению соответствует одно значение условной средней, то очевидно, условная средняя есть функция от . В этом случае говорят, что случайная величина зависит от корреляционно.

Корреляционной зависимостью от называют функциональную зависимость условной средней от ;

. (14.2.22)

Уравнение (14.2.22) называется уравнением регрессии на ; функция называется регрессией на ; график функции линией регрессии на .

Аналогично, для каждого го столбца табл. 14.2.8 (совместно с первым столбцом) можно вычислить среднее значение случайной величины по формуле (14.2.20), которое называется условным средним

.

Тогда корреляционной зависимостью от называется функциональная зависимость средней от :

, (14.2.23)

уравнение (14.2.23) называется уравнением регрессии на ; функция регрессией на ; график функции линией регрессии на .

Замечание 14.2.5. Рассматриваемые два уравнения регрессии существенно различны и не могут быть получены одно из другого.

Изучение корреляционной связи будем проводить при решении двух основных задач:

  • определение формы корреляционной связи, то есть вида теоретической функции регрессии (она может быть линейной и нелинейной);

  • определение тесноты (силы) корреляционной связи.

Наиболее простой и важный случай корреляционной зависимости – линейная регрессия. В этом случае теоретическое уравнение линейной регрессии на (формула 14.2.22) имеет вид

. (14.2.24)

Коэффициент в уравнении (14.2.24) называют коэффициентом регрессии на и обозначают . Оценки неизвестных параметров и рассчитаем применяя данные табл. 14.2.8:

. (14.2.25)

, (14.2.26)

где и — средние значения случайных величин и , вычисленные по формулам (14.2.20).

Сделаем графическое изображение так называемой эмпирической линии регрессии на и теоретической линии регрессии на . Для этого в декартовой системе координат по оси откладываем значения из табл. 14.2.8, по оси откладываем значения условных средних . Тогда ломаная, соединяющая точки и будет эмпирической линией регрессии на . Здесь же на данном графике строим теоретическую линию регрессии, то есть прямую с вычисленными коэффициентами.

Замечание 14.2.6. Поскольку формулы (14.2.25) и (14.2.26) получены по методу наименьших квадратов, то по сути этого метода, теоретическая линия регрессии должна на графике быть в «середине» ломаной.

Аналогично, можно поставить вопрос о нахождении теоретического уравнения линейной регрессии на (формула 14.2.23), которое имеет вид

. (14.2.27)

Коэффициент в уравнении (14.2.27) называется коэффициентом регрессии на и обозначается . Оценки неизвестных параметров и рассчитываются по данным табл. 14.2.7:

. (14.2.28)

, (14.2.29)

где и средние значения случайных величин и , вычисленные по формулам (14.2.20).

Далее целесообразно сделать графическое изображение эмпирической и теоретической линий регрессии на аналогично вышеизложенному.

В случае линейной регрессии задача определения тесноты связи сводится к вычислению эмпирического (выборочного) коэффициента корреляции, который можно вычислить по одной из формул:

или .

где значения средних квадратических отклонений, вычисленных по формуле (14.2.21).

Приведем свойства выборочного коэффициента корреляции:

  1. или ;

  2. Если , тогда и не связаны линейной корреляционной зависимостью (но могут быть связаны нелинейной корреляционной или даже функциональной зависимостью);

  3. С возрастанием абсолютной величины выборочного коэффициента корреляции линейная корреляционная зависимость становится более тесной и при переходит в функциональную зависимость;

  4. Если , тогда и связаны прямой (обратной) линейной зависимостью.

Замечание 14.2.7. Однако эмпирический коэффициент корреляции является весьма условным показателем даже линейной связи, так как он является средней пропорциональной величиной между коэффициентами регрессии. В теории корреляции существует понятие корреляционного отношения, которое является более естественным и общим показателем степени тесноты связи, так как не связано с формой зависимости. Но в тему данного практикума корреляционные отношения не входят.

ПРИМЕР 14.2.4. Дана таблица распределения заводов по объему основных производственных фондов (млн. руб.) и по суточной выработке продукции (тонны).

6

12

18

24

30

10

4

4

15

2

6

8

20

2

5

2

9

25

40

8

4

52

30

5

7

7

19

35

8

8

6

8

50

17

19

100

Находим эмпирические распределения каждой из компонент, их графические изображения, средние значения и средние квадратические отклонения (14.2.20) – (14.2.21).

10 15 20 25 30 35

6

12

18

24

30

;

.

Перейдем к расчету данных для построения эмпирических линий регрессии на и на , то есть к расчету условных средних .

;

;

;

;

,

и условных средних

;

;

;

;

.

Сделаем графическое изображение эмпирических линий регрессии:

Перейдем к расчету параметров для теоретических линий регрессии и . Прежде чем воспользоваться формулами (14.2.25) и (14.2.28), подготовим их общее значение выражения:

.

Знаменатели формул (14.2.25) и (14.2.28) есть, соответственно и , которые у нас уже рассчитаны, поэтому:

;

.

Тогда и . Для графического изображения полученных прямых линий вновь вернемся к рисункам 2.3 и 2.4, чтобы совместить на одном графике эмпирическую и соответствующую ей теоретическую линии регрессии

Перейдем к вычислению эмпирического (выборочного) коэффициента корреляции по формуле (14.2.30):

.

Итак. 1. Поскольку достаточно близок к единице, то можно утверждать, что между случайными величинами и существует линейная зависимость, причем достаточно тесная.

2. Поскольку , то эта линейная зависимость прямая.

Данные выводы можно сделать и из рис. 2.3а, 2.4а.

Онлайн помощь по математике >
Лекции по высшей математике >
Примеры решения задач >