Автор:
Charles Brown
Дата На Създаване:
9 Февруари 2021
Дата На Актуализиране:
1 Юли 2024
![Squared error of regression line | Regression | Probability and Statistics | Khan Academy](https://i.ytimg.com/vi/6OvhLPS7rj4/hqdefault.jpg)
Съдържание
Сумата от квадратите или SSE е предварително статистическо изчисление, което води до различни стойности на данните. Когато имате набор от стойности на данни, е полезно да можете да определите колко тясно свързани са тези стойности. Трябва да организирате данните си в таблица и след това да извършите доста прости изчисления. След като намерите SSE за набор от данни, можете да намерите дисперсията и стандартното отклонение.
Стъпвам
Метод 1 от 3: Изчислете SSE на ръка
Създайте таблица с три колони. Най-ясният начин за изчисляване на SSE е да започнете с таблица с три колони. Обозначете трите колони
Попълнете подробностите. Първата колона съдържа стойностите на вашите измервания. Попълнете колоната
Изчислете средната стойност. Преди да можете да изчислите грешката за всяко измерване, трябва да изчислите средната стойност на целия набор от данни.
- Средната стойност на набор от данни е сумата от стойностите, разделена на броя на стойностите в набора. Това може да бъде представено символично с променливата
Изчислете отделните стойности на грешки. Във втората колона на вашата таблица трябва да въведете стойностите на грешките за всяка стойност на данните. Грешката е разликата между измерването и средната стойност.
- За дадения набор от данни извадете средната стойност 98,87 от всяка измерена стойност и попълнете втората колона с резултатите. Тези десет изчисления протичат както следва:
Изчислете SSE. В третата колона на таблицата намерете квадрата на всяка от получените стойности в средната колона. Те представляват квадратите на отклонението от средната стойност за всяка измерена стойност на данните.
- За всяка стойност в средната колона използвайте калкулатор, за да изчислите квадрата. Запишете резултатите в третата колона, както следва:
Съберете квадратите на грешките. Последната стъпка е да се намери сумата от стойностите в третата колона. Желаният резултат е SSE или сумата от квадратите на грешките.
- За този набор от данни SSE се изчислява чрез добавяне на десетте стойности в третата колона:
Маркирайте колоните на електронната таблица. Създавате таблица с три колони в Excel със същите три заглавия, както по-горе.
- В клетка A1 въведете "Стойност" като заглавие.
- В поле Б1 въведете "Отклонение" като заглавие.
- В полето С1 въведете "Отклонение на квадрат" като заглавие.
Въведете вашите данни. В първата колона трябва да въведете стойностите на вашите измервания. Ако комплектът е малък, можете лесно да го въведете на ръка. Ако имате голям набор от данни, може да се наложи да копирате и поставите данните в колоната.
Определете средната стойност на точките с данни. Excel има функция, която изчислява средната стойност за вас. В празна клетка под таблицата с данни (няма значение коя клетка ще изберете) въведете следното:
- = Средно (A2: ___)
- Не въвеждайте празно място. Попълнете това пространство с името на клетката на последната ви точка от данни. Например, ако имате 100 точки с данни, бихте използвали функцията:
- = Средно (A2: A101)
- Тази функция съдържа данните от клетки A2 до A101, тъй като горният ред съдържа заглавията на колоните.
- Когато натиснете Enter или когато щракнете върху друга клетка в таблицата, новопрограмираната клетка автоматично се запълва със средната стойност на вашите данни.
Въведете функцията за измерване на грешките. В първата празна клетка в колоната "Отклонение" въведете функция за изчисляване на разликата между всяка точка от данните и средната стойност. За да направите това, използвайте името на клетката, където се намира средното. Да приемем, че засега сте използвали клетка A104.
- Функцията за изчисляване на грешки, която въвеждате в клетка B2 е:
- = A2- $ A $ 104. Знаците за долар са необходими, за да сте сигурни, че заключвате кутия A104 за всяко изчисление.
- Функцията за изчисляване на грешки, която въвеждате в клетка B2 е:
Въведете функцията за квадратни грешки. В третата колона можете да инструктирате Excel да изчисли желания квадрат.
- В клетка C2 въведете следната функция:
- = B2 ^ 2
- В клетка C2 въведете следната функция:
Копирайте функциите, за да попълните цялата таблица. След въвеждане на функциите в горната клетка на всяка колона, съответно B2 и C2, трябва да попълните цялата таблица. Можете да пренапишете функцията във всеки ред на таблицата, но това ще отнеме твърде много време. С помощта на мишката маркирайте клетки B2 и C2 заедно и без да пускате бутона на мишката, плъзнете до долната клетка на всяка колона.
- Ако приемем, че имате 100 точки с данни в таблицата си, плъзнете мишката до клетки B101 и C101.
- Когато отпуснете бутона на мишката, формулите се копират във всички клетки на таблицата. Таблицата трябва автоматично да се попълва с изчислените стойности.
Намерете SSE. Колона C на вашата таблица съдържа всички квадратни стойности за грешки. Последната стъпка е да позволите на Excel да изчисли сумата от тези стойности.
- В клетка под таблицата, вероятно C102 в този пример, въведете следната функция:
- = Сума (C2: C101)
- Ако щракнете Enter или щракнете далеч в друга клетка на таблицата, ще получите SSE стойността на вашите данни.
- В клетка под таблицата, вероятно C102 в този пример, въведете следната функция:
- За всяка стойност в средната колона използвайте калкулатор, за да изчислите квадрата. Запишете резултатите в третата колона, както следва:
- За дадения набор от данни извадете средната стойност 98,87 от всяка измерена стойност и попълнете втората колона с резултатите. Тези десет изчисления протичат както следва:
- Средната стойност на набор от данни е сумата от стойностите, разделена на броя на стойностите в набора. Това може да бъде представено символично с променливата
Метод 3 от 3: Свържете SSE с други статистически данни
Изчислете отклонението от SSE. Намирането на SSE за набор от данни обикновено е градивен елемент за намиране на други, по-полезни стойности. Първият от тях е дисперсията. Дисперсията е мярка за това колко измерените данни се отклоняват от средната стойност. Това всъщност е средната стойност на квадратите разлики от средната стойност.
- Тъй като SSE е сумата от грешките на квадрат, можете да намерите средната стойност (това е дисперсията) само като разделите на броя на стойностите. Ако обаче изчислите дисперсията на серия от извадки, а не на цяла популация, вие разделяте дисперсията на (n-1) вместо на n. Така:
- Дисперсия = SSE / n, ако изчислите дисперсията на цяла популация.
- Дисперсия = SSE / (n-1), при изчисляване на дисперсията на извадка от данни.
- За проблема с вземането на проби от температурата на пациентите можем да приемем, че 10 пациенти са само проба. Следователно дисперсията се изчислява, както следва:
Изчислете стандартното отклонение на SSE. Стандартното отклонение е често използвана стойност, която показва доколко стойностите на даден набор от данни се отклоняват от средната стойност. Стандартното отклонение е квадратен корен от дисперсията. Не забравяйте, че дисперсията е средната стойност на измерванията на квадрат на грешка.
- Следователно, след изчисляване на SSE, можете да намерите стандартното отклонение по следния начин:
Използвайте SSE, за да определите ковариацията. Тази статия се фокусира върху набори от данни, които измерват само една стойност в даден момент. В много изследвания обаче можете да сравните две отделни стойности. Например искате да знаете как тези две стойности са свързани помежду си, а не само със средната стойност на набора от данни. Тази стойност е ковариацията.
- Изчисленията за ковариация са твърде подробни, за да бъдат описани тук, освен да се отбележи, че ще използвате SSE за всеки тип данни и след това ще го сравните. За по-подробно описание на ковариацията и включените изчисления можете да намерите статии по тази тема в wikiHow.
- Като пример за използването на ковариация можете да сравните възрастта на пациентите в медицинско проучване с ефективността на лекарството за понижаване на температурата на треска. След това имате един набор от данни за възрасти и втори набор от данни за температури. След това ще намерите SSE за всеки набор от данни и оттам дисперсията, стандартните отклонения и ковариацията.
- Следователно, след изчисляване на SSE, можете да намерите стандартното отклонение по следния начин:
- Тъй като SSE е сумата от грешките на квадрат, можете да намерите средната стойност (това е дисперсията) само като разделите на броя на стойностите. Ако обаче изчислите дисперсията на серия от извадки, а не на цяла популация, вие разделяте дисперсията на (n-1) вместо на n. Така: