ПредишенСледващото

Да предположим, че имате данни. Е, да речем, както следва:

Това изглежда така:

Емисиите - данни

Изглежда, че има някои емисиите от тях. Това е точката, която има вероятност да бъде случайно изпускане, а не моделите на данните. Грубо казано - ако данните са от линеен регресионен модел, тези точки значително изкривяват резултатите от прогнозата за множество други точки. Нека да проверим на емисиите:

Емисиите - данни

Ами точно - две цяло и освобождаване!

Сега най-важното - това е необходимо, за да се отървете от тях в данните и всичко ще бъде наред.
Лесно е да се каже, разбира се, но ако не знаете как - ще бъде много трудно. Нещо повече - в действителност - теория Извънредните стойности за откриване е много дълбока и обхваща голям брой от случаите, но използването му изисква добро познаване на математически и статистически инструменти.
Ние искаме да "бързаме, нека да премахнете двете точки и всичко останало." Е, както може би си спомняте, ние дойдохме тук от Excel в крайна сметка 🙂

И по този начин "бързат" да ядат. И тя се основава на факта, че boxplot не само прави снимка, но също така поддържа всички негови настройки в обекта. От което можем да ги вземем. Тези емисии се съхраняват тук: boxplot.stats (у) $ навън

Да се ​​индексът на емисионните точки в нашите вектори:
инд
Запазване на координатите на точките на емисиите в отделен dataframe (обикновено не стъпка е необходимо, е възможно да се освободи друга двойка вектори)
outler
А сега нека да се провери - има ли точка се намираме?
парцел (х, у, колона = "син", PCH = 20, ylim = C (0, макс (у)))
точки (outler $ х, outler $ у, колона = "червен", PCH = 19)

Емисиите - данни

Хм, като че ли всичко е наред.

После очисти данните от емисиите, се уверете, че няма статистически отклонения и да разгледаме най-новите ни "чисти" данни.

Емисиите - данни

Сподели този линк:

Добър съвет, да отнеме дълго време по този начин. За себе си, аз пиша функция, която проверява нормалността на пробата в редица тестове, а след това за нормално разпределени данни използва метода "три сигма", за останалите - метода, описан в тази публикация. На езика на R се изпълнява елементарни, за бързо почистване на емисиите е много подходяща. Благодаря за интересната блога!

Свързани статии

Подкрепете проекта - споделете линка, благодаря!