Определете коефициента на корелация

Автор: Morris Wright
Дата На Създаване: 28 Април 2021
Дата На Актуализиране: 19 Юни 2024
Anonim
Расчет коэффициента корреляции в Excel
Видео: Расчет коэффициента корреляции в Excel

Съдържание

Коефициентът на корелация, обозначен като r или ρ, е мярката на линейната корелация (връзката както по сила, така и по посока) между две променливи. Тя варира от -1 до +1, като се използват знаците плюс и минус, за да се представи положителната и отрицателната корелация. Ако коефициентът на корелация е точно -1, тогава връзката между двете променливи е напълно отрицателна; ако коефициентът на корелация е точно +1, тогава връзката е напълно положителна. Две променливи могат да имат положителна корелация, отрицателна корелация или изобщо да нямат корелация. Можете да изчислите корелацията на ръка, като използвате някои от безплатните изчисления на корелация, достъпни онлайн, или като използвате статистическите функции на добър графичен калкулатор.

Стъпвам

Метод 1 от 4: Изчислете ръчно коефициента на корелация

  1. Първо съберете данните си. За да започнете да изчислявате ефективна корелация, първо разгледайте двойките данни. Полезно е да ги поставите в таблица, както вертикално, така и хоризонтално. Обозначете всеки ред или колона x и y.
    • Да предположим например, че имате четири двойки данни за х и у. Тогава таблицата може да изглежда така:
      • x || у
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  2. Изчислете средната стойност на х. За да изчислите средната стойност, имате нужда от всички стойности на х добавете и след това разделете на броя на стойностите.
    • Използвайки горния пример, забележете, че имате четири стойности за х. За да изчислите средната стойност, събирате всички стойности х и го разделете на 4. Изчислението изглежда така:
    • μх=(1+2+4+5)/4{ displaystyle mu _ {x} = (1 + 2 + 4 + 5) / 4}Намерете средната стойност на у. Средно на у За да го намерите, следвайте същите стъпки, като добавите всички стойности на y заедно и след това разделите на броя на стойностите.
      • В горния пример също имате четири стойности за у. Добавете всички тези стойности заедно и след това ги разделете на 4. Изчисленията ще изглеждат така:
      • μу=(1+3+5+7)/4{ displaystyle mu _ {y} = (1 + 3 + 5 + 7) / 4}Определете стандартното отклонение на х. След като разполагате със средствата си, можете да изчислите стандартното отклонение. За целта използвайте формулата:
        • σх=1н1Σ(хμх)2{ displaystyle sigma _ {x} = { sqrt {{ frac {1} {n-1}} Sigma (x- mu _ {x}) ^ {2}}}}Изчислете стандартното отклонение на у. Използвайки същите основни стъпки, намерете стандартното отклонение на у. Ще използвате същата формула, като използвате точките за данни за y.
          • С примерните данни вашите изчисления ще изглеждат така:
          • σу=141((14)2+(34)2+(54)2+(74)2){ displaystyle sigma _ {y} = { sqrt {{ frac {1} {4-1}} * ((1-4) ^ {2} + (3-4) ^ {2} + ( 5-4) ^ {2} + (7-4) ^ {2})}}}Прегледайте основната формула за определяне на коефициент на корелация. Формулата за изчисляване на коефициент на корелация използва средни стойности, стандартни отклонения и броя на двойките в набор от данни (представен от н). Самият коефициент на корелация е представен от малката буква r или гръцката буква ρ (rho). За тази статия ще използваме формулата, известна като коефициент на корелация на Пиърсън, както е показано по-долу:
            • ρ=(1н1)Σ(хμхσх)(уμуσу){ displaystyle rho = ляво ({ frac {1} {n-1}} дясно) Sigma ляво ({ frac {x- mu _ {x}} { sigma _ {x}} } дясно) * ляво ({ frac {y- mu _ {y}} { sigma _ {y}}} дясно)}Определете коефициента на корелация. Вече имате средствата и стандартните отклонения за вашите променливи, така че можете да преминете към формулата на коефициента на корелация. Не забравяйте, че н представлява броя на стойностите, които имате. Вече сте разработили другата подходяща информация в стъпките по-горе.
              • Използвайки примерните данни, можете да въведете данните във формулата на коефициента на корелация и да ги изчислите, както следва:
              • ρ=(1н1)Σ(хμхσх)(уμуσу){ displaystyle rho = ляво ({ frac {1} {n-1}} дясно) Sigma ляво ({ frac {x- mu _ {x}} { sigma _ {x}} } дясно) * ляво ({ frac {y- mu _ {y}} { sigma _ {y}}} дясно)}Интерпретирайте резултата. За този набор от данни коефициентът на корелация е 0,988. Това число ви казва две неща за данните. Погледнете знака на числото и размера на числото.
                • Тъй като коефициентът на корелация е положителен, можете да кажете, че има положителна корелация между данните x и данните y. Това означава, че ако стойностите x се увеличат, очаквате да се увеличат и стойностите y.
                • Тъй като коефициентът на корелация е много близо до +1, данните x и y са много тясно свързани. Ако трябва да графирате тези точки, ще видите, че те са много добро приближение към права линия.

Метод 2 от 4: Използване на онлайн калкулатори за корелация

  1. Търсете онлайн калкулатори за корелация. Измерването на корелацията е доста стандартно изчисление за статистиците. Изчислението може да стане много досадно за големи масиви от данни, ако се извърши на ръка. Поради това много източници са направили онлайн изчисления на общите корелации. Използвайте която и да е търсачка и въведете термина за търсене „калкулатор на корелация“.
  2. Въведете данните. Прочетете внимателно инструкциите на уебсайта, за да можете да въведете данните правилно. Важно е двойките данни да се поддържат в ред или ще получите неправилен резултат на корелация. Различните уебсайтове използват различни формати за въвеждане на данни.
    • Например на уебсайта http://ncalculators.com/statistics/correlation-coefficient-calculator.htm ще намерите хоризонтално поле за въвеждане на x стойности и второ хоризонтално поле за въвеждане на y стойности. Въвеждате условията, разделени само със запетаи. По този начин наборът от данни x, изчислен по-рано в тази статия, трябва да бъде въведен като 1,2,4,5. Наборът от данни y се въвежда като 1,3,5,7.
    • На друг сайт, http://www.alcula.com/calculators/statistics/correlation-coefficient/, можете да въвеждате данни хоризонтално или вертикално, стига да поддържате точките с данни в ред.
  3. Изчислете резултатите. Тези сайтове за изчисление са популярни, тъй като след въвеждане на данните обикновено трябва само да щракнете върху бутона "Изчисли" - резултатът ще се покаже автоматично.

Метод 3 от 4: Използване на графичен калкулатор

  1. Въведете вашите данни. На вашия графичен калкулатор активирайте функцията за статистика и след това изберете командата "Редактиране".
    • Всеки калкулатор има малко по-различни команди на клавиша. Тази статия предоставя конкретните инструкции за Texas Instruments TI-86.
    • За достъп до функцията Stat, натиснете [2nd] -Stat (над клавиша "+") и след това натиснете F2-Edit.
  2. Изтрийте всички стари съхранени данни. Повечето калкулатори ще пазят статистическите данни, докато те бъдат изчистени. За да сте сигурни, че не бъркате старите данни с нови, първо трябва да изтриете цялата запазена по-рано информация.
    • Използвайте клавишите със стрелки, за да преместите курсора, за да маркирате категорията "xStat". След това натиснете "Clear" и "Enter. Това трябва да изчисти всички стойности в колоната xStat.
    • Използвайте клавишите със стрелки, за да маркирате категорията "yStat". Натиснете „Clear“ и „Enter“, за да изчистите и данните за тази колона.
  3. Въведете стойностите си за данни. Използвайте клавишите със стрелки, за да преместите курсора в първото пространство под заглавката xStat. Въведете първата си стойност на данните и след това натиснете Enter. Трябва да видите интервала в долната част на екрана "xStat (1) = __", където вашата стойност запълва празното пространство. Когато натиснете Enter, данните ще запълнят таблицата, курсорът ще се премести на следващия ред и редът в долната част на екрана вече трябва да гласи "xStat (2) = __".
    • Продължете да въвеждате всички x стойности.
    • Когато въведете стойностите x, използвайте клавишите със стрелки, за да се придвижите до колоната yStat и да въведете стойностите y.
    • Когато всички данни са въведени, натиснете Exit, за да изчистите екрана и да излезете от менюто Stat.
  4. Изчислете статистика на линейната регресия. Коефициентът на корелация е мярка за това колко точно данните се доближават до права линия. Графичният калкулатор със статистически функции може много бързо да изчисли най-добрата линия и коефициент на корелация.
    • Въведете функцията Stat и след това натиснете бутона Calc. На TI-86 това е [2-ро] [Stat] [F1].
    • Изберете изчисленията за линейна регресия. На TI-86 това е [F3], означен като „LinR.“ Графичният дисплей ще покаже реда „LinR _“ с мигащ курсор.
    • Сега трябва да въведете имената на двете променливи, които искате да изчислите. Това са xStat и yStat.
      • На TI-86 изберете списъка с имена („Имена“), като натиснете [2-ри] [Списък] [F3].
      • Долният ред на екрана ви вече трябва да показва наличните променливи. Изберете [xStat] (това вероятно е бутонът F1 или F2), след това въведете запетая и след това [yStat].
      • Натиснете Enter, за да изчислите данните
  5. Интерпретирайте резултатите. Когато натиснете Enter, калкулаторът незабавно ще изчисли следната информация за въведените от вас данни:
    • у=а+бх{ displaystyle y = a + bx}Разберете концепцията за корелация. Корелацията се отнася до статистическата връзка между две величини. Коефициентът на корелация е едно число, което можете да изчислите за два набора от точки от данни. Числото винаги е нещо между -1 и +1 и показва колко близо са двата набора от данни.
      • Например, ако сте измерили ръста и възрастта на деца до около 12 години, бихте очаквали да откриете силна положителна корелация. С напредването на възрастта децата стават по-високи.
      • Пример за отрицателна корелация е сравняването на времето, което някой прекарва, практикувайки голф, с голф резултата на този човек. С напредването на практиката резултатът трябва да спадне.
      • В крайна сметка бихте очаквали малка корелация, положителна или отрицателна, между размера на обувките на човек, например, и оценките му на изпита.
    • Изчислете средната стойност. Средната аритметична стойност или "средната стойност" на набор от данни се изчислява чрез добавяне на всички стойности на данните и след това разделяне на броя на стойностите в набора. За да определите коефициента на корелация за вашите данни, трябва да изчислите средната стойност за всеки набор от данни.
      • Средната стойност на променлива се обозначава с променливата с хоризонтална линия над нея. Това често се нарича "x-bar" или "y-bar" за наборите данни от x и y. Алтернативно, средната стойност може да бъде обозначена с малка гръцка буква μ (mu). Например, за да посочите средната стойност на точките от данни на x, можете да използвате μх или μ (x).
      • Например, ако имате набор от х (1,2,5,6,9,10), средната стойност на тези данни се изчислява, както следва:
        • μх=(1+2+5+6+9+10)/6{ displaystyle mu _ {x} = (1 + 2 + 5 + 6 + 9 + 10) / 6}Знайте значението на стандартното отклонение. В статистиката стандартното отклонение измерва вариацията, показвайки разсейването на числата от средната стойност. Група числа с ниско стандартно отклонение е доста близо една до друга. Група от числа с високо стандартно отклонение е по-разпръсната.
          • Като символ стандартното отклонение се изразява с помощта на малката буква s или гръцката буква σ (сигма). По този начин стандартното отклонение на данните x се записва като сх или σх.
        • Разпознайте обобщената нотация. Операторът за сумиране е един от най-често срещаните оператори в математиката и посочва сума от стойности. Представен е с гръцката главна буква, сигма или ∑.
          • Например, ако имате колекция от точки с данни x (1,2,5,6,9,10), тогава ∑x означава:
            • 1+2+5+6+9+10 = 33

Съвети

  • Коефициентът на корелация понякога се нарича „коефициент на корелация на продукта-момент на Пиърсън“ в чест на Карл Пиърсън, неговият разработчик.
  • Като цяло, коефициент на корелация по-висок от 0,8 (положителен или отрицателен) представлява силна корелация; коефициент на корелация по-нисък от 0,5 (отново положителен или отрицателен) представлява слаб коефициент на корелация.

Предупреждения

  • Корелацията показва, че два набора от данни са свързани по някакъв начин. Внимавайте обаче да не тълкувате това като причинно-следствена връзка. Например, ако сравните размерите на обувките на хората и тяхната височина, най-вероятно ще откриете силна положителна връзка. По-големите хора обикновено имат по-големи крака. Това обаче не означава, че високите крака ще накарат краката ви да растат или че големите крака ще ви накарат да пораснете. Те просто се случват заедно.