Начини за изчисляване на дисперсията

Автор: Robert Simon
Дата На Създаване: 21 Юни 2021
Дата На Актуализиране: 1 Юли 2024
Anonim
Первая корзинка для новичка😍Подробный МК.
Видео: Первая корзинка для новичка😍Подробный МК.

Съдържание

Дисперсията измерва разсейването на набора от данни. Това е много полезно при изграждането на статистически модели: ниската дисперсия може да е индикация, че описвате случайна грешка или шум вместо основната връзка в данните. С тази статия wikiHow ви учи как да изчислявате дисперсията.

Стъпки

Метод 1 от 2: Изчислете дисперсията на пробата

  1. Напишете примерния си набор от данни. В повечето случаи статистиците разполагат с информация само върху извадка или подгрупа от популацията, която изучават. Например, вместо да прави общ анализ на „цената на всички автомобили в Германия“, статистик може да намери цената на произволна извадка от няколко хиляди автомобила. Статистикът може да използва тази извадка, за да получи добра оценка на цената на автомобилите в Германия. По-вероятно е обаче да не съвпада точно с реалните числа.
    • Например: Когато анализирате броя мъфини, продавани на ден в кафене, взехте произволна шестдневна проба и получихте следните резултати: 38, 37, 36, 28, 18, 14, 12, 11, 10.7, 9.9. Това е извадка, а не популация, защото нямате данни за всеки ден, в който магазинът е отворен.
    • Ако всеки Точки за данни в главното, моля, отидете на метода по-долу.

  2. Запишете примерната формула за дисперсия. Дисперсията на набор от данни показва степента на дисперсия на точките от данни. Колкото по-близо е дисперсията до нула, толкова по-близо са групирани точките с данни. Когато работите с примерни набори от данни, използвайте следната формула за изчисляване на дисперсията:
    • = /(n - 1)
    • е дисперсията. Дисперсията винаги се изчислява в квадратни единици.
    • представлява стойност във вашия набор от данни.
    • ∑, което означава „сума“, ви казва да изчислите следните параметри за всяка стойност и след това да ги добавите заедно.
    • x̅ е средната стойност на пробата.
    • n е броят на точките с данни.

  3. Изчислете средната стойност на пробата. Символът x̅ или „x-horizontal“ се използва за обозначаване на средната стойност на пробата. Изчислете, както бихте направили всяка средна стойност: съберете всички точки с данни и ги разделете на броя точки.
    • Например: Първо съберете точките си с данни: 17 + 15 + 23 + 7 + 9 + 13 = 84
      След това разделете резултата на броя точки с данни, в този случай шест: 84 ÷ 6 = 14.
      Средно за пробата = x̅ = 14.
    • Можете да мислите за средното като за „централна точка“ на данните. Ако данните са центрирани около средната стойност, дисперсията е ниска. Ако те са разпръснати далеч от средната стойност, отклонението е голямо.

  4. Извадете средното от всяка точка от данни. Сега е моментът да изчислите - x̅, където е всяка точка от набора ви от данни. Всеки резултат ще показва отклонение от средната стойност на всяка съответна точка или, казано по-просто, разстоянието от нея до средната стойност.
    • Например:
      - x̅ = 17 - 14 = 3
      - x̅ = 15 - 14 = 1
      - x̅ = 23 - 14 = 9
      - x̅ = 7 - 14 = -7
      - x̅ = 9 - 14 = -5
      - x̅ = 13 - 14 = -1
    • Много е лесно да проверите изчисленията си, тъй като резултатите трябва да се сумират до нула. Това е така, защото по средната стойност на отрицателните резултати (разстоянието от средната стойност до малките числа) положителните резултати (разстояние от средно до по-големи числа) са напълно елиминирани.
  5. Квадратирайте всички резултати. Както беше отбелязано по-горе, текущият списък с отклонения (- x̅) има сума от нула, което означава, че „средното отклонение“ също винаги ще бъде нула и нищо не може да се каже за разпръскването на данните. За да разрешим този проблем, квадратираме всяко отклонение. Благодарение на това всички са положителни числа, отрицателни стойности и положителни стойности вече не се анулират и дават сумата нула.
    • Например:
      (- х)
      - х)
      9 = 81
      (-7) = 49
      (-5) = 25
      (-1) = 1
    • Сега имате (- x̅) за всяка точка от данни в извадката.
  6. Намерете сумата на квадратните стойности. Сега е моментът да изчислим целия числител на формулата: ∑. Големият цикъл, ∑, изисква да добавите следната стойност на елемента за всяка стойност. Изчислили сте (- x̅) за всяка стойност в извадката, така че всичко, което трябва да направите, е просто да добавите резултатите заедно.
    • Например: 9 + 1 + 81 + 49 + 25 + 1 = 166.
  7. Разделете на n - 1, където n е броят на точките от данни. Преди много време, когато се изчислява дисперсията на извадката, статистиците се делят само на n. Това деление ще ви даде средната стойност на квадратичното отклонение, което точно съответства на дисперсията на тази извадка. Имайте предвид обаче, че извадката е само приблизителна оценка на по-голяма популация. Ако вземете друга произволна извадка и направите същото изчисление, ще получите различен резултат. Както се оказва, разделянето на n -1 вместо n ви дава по-добра оценка на дисперсията на по-голяма популация - за която наистина се интересувате. Тази корекция е толкова често срещана, че сега е приетата дефиниция на дисперсията на пробата.
    • Например: В извадката има шест точки с данни, така че n = 6.
      Дисперсия на пробата = 33,2
  8. Разберете дисперсията и стандартното отклонение. Имайте предвид, че тъй като във формулата има степени, дисперсията се измерва в квадрата на мерните единици на първоначалните данни. Това визуално обърква. Вместо това често стандартното отклонение е доста полезно. Но няма смисъл да губите никакви усилия, тъй като стандартното отклонение се определя от квадратния корен на дисперсията. Ето защо дисперсията на пробата се записва в термини, а стандартното отклонение на пробата е.
    • Например стандартното отклонение на горната проба = s = √33,2 = 5,76.
    реклама

Метод 2 от 2: Изчислете дисперсията на популация

  1. Започвайки с набора от основни данни. Терминът "популация" се използва за обозначаване на всички съответни наблюдения. Например, ако изследвате възрастта на жителите на Ханой, общото ви население ще включва възрастта на всички индивиди, живеещи в Ханой. Обикновено бихте създали електронна таблица за голям набор от данни като този, но ето по-малък примерен набор от данни:
    • Например: В стаята на аквариум има точно шест аквариума. Тези шест резервоара съдържат следния брой риби:





  2. Запишете формулата за обща дисперсия. Тъй като една популация съдържа всички необходими данни, тази формула ни дава точната дисперсия на популацията. За да го разграничат от пробната дисперсия (която е само приблизителна), статистиците използват други променливи:
    • σ = /н
    • σ = дисперсия на пробата. Това е нормално наденицата на квадрат. Дисперсията се измерва в квадратни единици.
    • представлява елемент във вашия набор от данни.
    • Елементът в ∑ се изчислява за всяка стойност и след това се сумира.
    • μ е общата средна стойност.
    • n е броят на точките от данни в популацията.
  3. Намерете средната стойност на популацията. Когато се анализира популация, символът μ ("mu") представлява средната аритметична стойност. За да намерите средната стойност, съберете всички точки от данни, след което разделете на броя точки.
    • Можете да мислите за означава като "средно", но бъдете внимателни, тъй като думата има много математически определения.
    • Например: средна стойност = μ = = 10,5
  4. Извадете средното от всяка точка от данни. Точките с данни по-близо до средната стойност имат разлика по-близка до нулата. Повторете проблема с изваждането за всички точки от данни и вероятно ще започнете да усещате разсейването на данните.
    • Например:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 - 10., = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5
  5. Квадратирайте всеки знак. В този момент някои резултати, получени от предишната стъпка, ще бъдат отрицателни, а други - положителни.Ако данните трябва да бъдат визуализирани на изометрична линия, тези два елемента представляват числата отляво и отдясно на средната стойност. Това няма да е от полза при изчисляването на дисперсията, тъй като тези две групи ще се анулират взаимно. Вместо това ги каре на квадрат, така че всички да са положителни.
    • Например:
      (- μ) за всяка стойност на i работи от 1 до 6:
      (-5,5) = 30,25
      (-5,5) = 30,25
      (-2,5) = 6,25
      (1,5) = 2,25
      (4,5) = 20,25
      (7,5) = 56,25
  6. Намерете средната стойност на вашите резултати. Сега имате стойност за всяка точка от данни, свързана (не директно) с това колко далеч е тази точка от средната стойност. Усреднете, като ги съберете и разделите на броя на стойностите, които имате.
    • Например:
      Обща дисперсия = 24,25
  7. Рецепта за контакт. Ако не сте сигурни как това се вписва в формулата, посочена в началото на метода, напишете целия проблем на ръка и не съкращавайте:
    • След като намерите разликата от средната стойност и квадратурата, получавате (- μ), (- μ) и така до (- μ), където е последната точка от данни. в набора от данни.
    • За да намерите средната стойност на тези стойности, добавете ги заедно и разделете на n: ((- μ) + (- μ) + ... + (- μ)) / n
    • След пренаписване на числителя със сигмоидна нотация, имате /н, дисперсия на формулата.
    реклама

Съвети

  • Тъй като дисперсията е трудна за интерпретация, тази стойност често се изчислява като отправна точка за намиране на стандартното отклонение.
  • Използването на "n-1" вместо "n" в знаменателя е техника, наречена корекция на Бесел. Извадката е само оценка на пълна популация и средната стойност на извадката има определено пристрастие, за да съответства на тази оценка. Тази корекция елиминира горното пристрастие. То се отнася до факта, че след като са изброени n - 1 точки от данни, последната пета точка н е константа, тъй като само определени стойности са използвани за изчисляване на средната стойност на пробата (x̅) във формулата на дисперсията.