Оценка на коефициента на надеждност корелация

Преценява валидността на коефициента на корелация

Linear корелационен коефициент, изчислен чрез вземане на проби случайна променлива. Получава се от проба корелационен коефициент R е фактор оценка korrelyatsiir в населението. С намаляването на броя на наблюденията надеждност на водопада на корелационен коефициент. Оценка на значимост (значимост) на коефициента на линейна корелация основава на сравнение на стойностите на R от нейната средна квадратична грешка:

При оценката на значимостта на коефициента на корелация обикновено се счита за следната ситуация.

1. Ако броят на наблюденията е достатъчно голям (обикновено над 30), и стойността на коефициента на корелация е по-малко от 0.9, разпределението на корелационен коефициент R може да се разглежда като приблизително нормално със средна квадратична грешка

Когато достатъчно голям брой наблюдения R трябва да надвишава средната им грешка не е по-малко от три пъти. Ако това неравенство не е изпълнено, тогава съществуването на връзка между знаците не може да се счита за доказано.

Ако приемем, определена вероятност, ние можем да изгради доверителни граници R:

Например, при вероятност от 0.95, за които т = 1,96, доверие ограничава количество

Когато вероятността от 0.997, за които фактор доверие Т = 3, ограничава размера на достоверност

Тъй като стойността на R не може да надвишава една, а след това, ако е> 1, трябва да се посочи само долната граница, т.е. твърди, че реално г е не по-малко от.

2. За малкия размер на пробата, разпределението на далечното г от нормални и други методи се използват за оценка на значимостта на коефициента на корелация. С малък брой наблюдения (п<30), средняя ошибка линейного коэффициента корреляции находится по формуле:

и значението на проверява от теста на Student. В тази хипотеза на корелационен коефициент, равен на нула, т.е. няма връзка между Y и X в общата популация. Той използва статистически данни:

прогнозната стойност на които е в сравнение с масата на разпределителните маси студента. Ако нулевата хипотеза е вярно, т.е. R = 0, тогава разпределение Т - тест разпределение Student подчинява CN-2 степени на свобода и прието ниво на значимост (обикновено 0.05). Във всеки конкретен случай разпределение маса Студентски т -тест е таблица (критичен) стойност т. което е допустимо при нулевата хипотеза, и се сравнява с действителните (прогнозни) стойностите на т. . T ако изчислено> .. ttabl нулевата хипотеза се отхвърля и се счита значително линеен коефициент, и връзката между X и Y - от съществено значение. И обратното.

3. При малък брой наблюдения в пробата, и коефициент на висока корелация (разпределение R е различен от нормата) за проверка на хипотезата за корелация и се използва за изграждане на доверителен интервал Z-трансформация Фишер.

За тази изчислена стойност

Разпределението на Z е близко до нормалното. Разликата се изразява чрез Z

Ние изчисляваме zkritery за пример 1, тъй като в този случай имаме малък брой наблюдения и най-високата корелационен коефициент.

Не за да се изчисли логаритми на стойностите, можете да използвате специална маси Z-трансформация (Ефтимова MR стр. 402, RA Shmoilova str.446, Елисеева II str.473). Ние считаме, че коефициента на корелация = 0.94 sootvetstvuetZ 1.74.

Съотношението на Z да средноквадратичната грешка е 3. По този начин, ние можем да приемем съществуването на реална връзка между стойността на продукцията и консумацията на енергия за цялото население на предприятията.

Изчисляването на коефициентите на корелация произведено в програмата STATISTICA.

Фигура 1 - Съотношение матрица.

Съотношението определя степента, в която стойностите на две променливи "пропорционални" един до друг. Пропорционалност означава линейна зависимост. Съотношението е висока, ако зависимостта на графика "може да представлява" права линия (с положителен или отрицателен ъгъл). По този начин, тази проста регресия модел, описващ зависимостта на една променлива на един фактор.

Имайте предвид основните характеристики на този индекс.

Това може да отнеме на стойности от -1 до 1. Знак "+" означава, че свързващата линия (когато стойността на една променлива се увеличава, стойностите на друга променлива също увеличава), "-" означава, че връзката е обратна.

Колкото по-близо съотношението на 1, корелационен коефициент големината на по-малко от 0.3 се оценява като слаба връзка, от 0.31 до 0.5 - справедлива, от 0.51 до 0.7 - значително, от 0.71 до 0.9 - близо 0.91 или по-висока - в непосредствена близост.

Ако всички променливи Увеличение (намаление) в същия брой или същия брой пъти, стойността на коефициента на корелация не се променя.

Коефициентът на корелация - показател, който оценява близостта на линейна връзка между знаците.

Ако R = ± 1 представлява линейна корелация между функционална зависимост. В този случай, всички наблюдавани стойности са разположени на обща линия. Тя се нарича още на регресия. Когато г = 0 линейната корелация офлайн. В тази група средните променливи съвпадат с общия им среда, и регресия са успоредни на координатните оси.

Уравнение г = 0 означава липса на линейна корелация (несвързани помежду си променливи), но не всички от липсата на корелация, и освен това, статистически зависимости.

На базата на коефициента на корелация, не можем да strogodokazat причинно-следствена връзка между променливите, но mozheteopredelit фалшиви корелации, т. Е. Съотношение, което obuslovlenyvliyaniyami "други" остава извън вашия зрително поле променливи.

Основният проблем на лъжлива корелация е, че ние не знаем,

кой е # 1104; носител. Въпреки това, ако знаем къде да търсите, а след това

могат да се използват частични корелации за контрол (частично изключение # 1104; само за четене) ефект определя # 1104; nnyh променливи.

Фигура 2 - scatterplots.

Свързани статии