Как да изчислим емисиите
В статистиката на емисиите - това са стойности, които са рязко различни от други стойности в сглобения набор от данни. Емисиите могат да показват аномалии в разпределението на данните или грешките в измерването, така че често емисиите са изключени от набора от данни. Изключете емисиите от набора от данни, можете да стигнете до неочаквани или по-точни заключения. Следователно е необходимо да се изчисли и оценява емисиите, за да се гарантира правилното разбиране на статистическите данни.
Стъпка
един. Научете се да разпознавате потенциалните емисии. Преди да премахнете изходящите стойности от набор от данни, трябва да се определят потенциалните емисии. Емисиите са ценности, които са много различни от повечето стойности в набора от данни - с други думи, емисиите са извън тенденцията на повечето ценности. Лесно е да се открият в таблиците на стойности или (особено) на графиците. Ако стойностите в набора от данни са в графика, тогава емисиите ще лежат далеч от повечето други стойности. Ако например, повечето от стойностите лежат напред, тогава емисиите лежат от двете страни на такова пряко.
- Например, помислете за набор от данни, представляващи температурата от 12 различни обекта в помещението. Ако 11 обекта имат температура от приблизително 70 градуса, но дванадесетият обект (вероятно пещта) има температура от 300 градуса, след това бързото гледане на стойности може да покаже, че пещта е вероятно емисии.

2. Подредете възходящите данни. Първата стъпка, когато определянето на емисиите е изчисляването на набора от данни Median. Тази задача е значително опростена, ако стойностите в набора данни са разположени възходящи (от по-малки до повече).

3. Изчислете средния набор от данни. Median DataSet е стойността в средата на набора от данни. Ако набор от данни съдържат нечетен брой стойности, медианата е стойността, за която и след което са разположени един и същ брой стойности в набора от данни. Но ако набор от данни съдържат четен брой стойности, тогава трябва да намерите средноаритметичната средна стойност на две средни стойности. Имайте предвид, че когато изчисляването на средните емисии обикновено се посочва като Q2, тъй като се крие между Q1 и Q3 - по-ниски и топ квартали, които ще определим по-късно.

4. Изчислете долните квартали. Тази стойност, посочена като Q1, под която се намира 25% от стойностите от набора от данни. С други думи, това е половината от стойностите, разположени преди средата. Ако медианът се състои дори от стойности от набор от данни, трябва да намерите средните аритметични две средни стойности за изчисляване на Q1 (това е подобно на средното изчисление).

пет. Изчислете горния квартил. Тази стойност, посочена като Q3, над която се намира 25% от стойностите от набора от данни. Процесът на изчисляване на Q3 е подобен на процеса на изчисляване на Q1, но тук се счита, че стойностите, разположени след средата.

6. Изчислете обхвата на Esckelter. Изчисляване на Q1 и Q3, трябва да намерите разстоянието между тези стойности. За да направите това, приспадане Q1 от Q3. Стойността на общуването е изключително важна за определяне на границите на ценностите, които не са емисии.

7. Намерете "вътрешни граници" на стойностите в набора от данни. Емисиите се определят чрез анализа на стойностите - независимо дали те попадат или не в границите на така наречените "вътрешни граници" и "външни граници". Стойността, подложена на "вътрешни граници", се класифицира като "незначителна емисия", докато стойността зад "външните граници" се класифицира като "значителна емисия". За да намерите вътрешните граници, трябва да добавите ескаротичния диапазон с 1.5 - резултатът трябва да се добави към Q3 и да се приспадне от Q1. Намерени две числа са вътрешни зададени данни.


Осем. Намерете набор от данни за "външни граници". Това се прави по същия начин, както за вътрешните граници, с изключение на това, че взаимосвързаният обхват се умножава по 3, а не с 1.5. Резултатът трябва да бъде добавен към Q3 и да изважда от Q1. Намерени два номера са външни набори от данни.


девет. Използвайте качествена оценка, за да определите дали да елиминирате емисиите от набора от данни. Описаният по-горе метод ви позволява да определите дали някои емисии (незначителни или значими) са. Въпреки това, не е погрешно - стойността, класифицирана като емисии, е само "кандидат" за изключение, т.е. не сте задължени да го изключите. Причината за появата на емисиите е основният фактор, който засяга решението за изключване на емисиите. Като правило, емисиите, които произтичат поради грешка (при измервания, записи и т.н.), са изключени. От друга страна, емисиите, свързани с грешки, но с нова информация или тенденция, като правило, остават в набора от данни.

10. Изчислете значението (понякога) емисиите, оставени в набора от данни. Някои емисии трябва да бъдат изключени от набора от данни, тъй като техните причини са грешки и технически проблеми - други емисии трябва да бъдат оставени в набора от данни. Ако например емисиите не са резултат от грешка и / или дава ново разбиране на явлението за изпитване, то трябва да остане в набора от данни. Научните експерименти са особено чувствителни към емисиите - премахване на емисиите по погрешка, можете да пропуснете някаква нова тенденция или отваряне.
Съвети
- Когато са намерени емисии, опитайте се да обясните тяхното присъствие, преди да ги изключите от набора от данни. Те могат да посочат грешки или аномалии за измерване в разпределението.
От какво имаш нужда
- Калкулатор