У меня есть серия времени, в которой я идентифицирую outlier временного изменения, но не, как можение добавлять это к моей оценке.
Это квартальные данные и TC встречается в 2002.03, я оставляю серию как он затрагивает
200203 1
200204 0.7
200301 0.49
200302 0.343
200303 0.24
200304 0.168
Первая проблема с "outliers" состоит в том, чтобы обнаруживать их, второй состоит в том, чтобы убирать их от set данных, чтобы точно подходить любой estimaciГіn или я моделирую. Например, со случаем, сходным с тем, которого ты выдвигаешь:
df <- read.table(text="Periodo Valor
200203 1.4
200204 0.7
200301 0.49
200302 0.343
200303 0.24
200304 0.168", header = TRUE)
# Agregamos un número correlativo para cada período
df$n <- 1:nrow(df)
df
Periodo Valor n
1 200203 1.400 1
2 200204 0.700 2
3 200301 0.490 3
4 200302 0.343 4
5 200303 0.240 5
6 200304 0.168 6
Давайте Предполагать, что мы налаживаем линейную модель в эти данные:
plot(df$Valor)
abline(lm(Valor ~ n, data=df), col="blue", lwd=3, lty=2)
мы Можем обнаруживать outliers формы clГЎsica, а именно: Q1 - 1.5 * IQR
и Q3 + 1.5 * IQR
, который является формой, в которой они идентифицируются в одном boxplot
, из-за того, что мы сможем использовать boxplot.stats()
, которые дают некоторые из стоимости нам одного boxplot
, но не изображая этого графически.
# Detectamos los outliers
outliers <- boxplot.stats(df$Valor)$out
В твоем примере ты считаешь стоимость первого perГ-odo как outlier, однако он это не используя формулу clГЎsica, поэтому в этом примере, subГ - эта стоимость в 1.4. В любом случае, которого ты считал outlier, если поиски, которые не затрагивала бы модель или estimaciГіn, deberГЎs удалять это из набора данных:
df_sin_outliers <- df[-(df$Valor == outliers), ]
И сейчас мы повторяем модель, без "outliers":
plot(df.sinoutliers$Valor)
abline(lm(Valor ~ n, data=df.sinoutliers), col="blue", lwd=3, lty=2)