关于孤立点的思考也有一段时间了,但是也没怎想出头绪。 实际的数据中总是有异常点(孤立点)存在,数据的期望,方差 E,V. 而且在作回归分析,主成分分析,聚类分析的时候效果都会 受到孤立点(异常点)的影响。
孤立点的存在是事实,但是我们做统计分析的时候总是想要把他们 从数据中剔出到,来提高统计分析的效果,为什么这样做呢?
这又涉及到了价值观的问题,是多数决定整体还是少数决定整体? 或者说是多数决定趋势,还是少数决定趋势?
从数据中剔出孤立点,是因为我们认为他们不代表整体,反而会对整体 的统计结果造成不好的影响,真的是这样吗?
举个例子:一群收入平均收入是10000的人群,突然来个100B的人,他们 的平均收入会怎么样? 还要看这个人群的数量n了.
如果越南去个盖茨会怎样?
E,V的统计指标都是总体的特征的描述,当然这似乎也能反映出整体的 情况。
但是对于个人而言,或者对某个具体问题而言的意义是多少? 正如"是多数决定整体还是少数决定整体?或者说是多数决定趋势,还是 少数决定趋势?"
教课书上说,是人民创造了历史.................................. 但是现在某个人单个创新就可以改变现在的历史........
孤立点是什么, 是与众不同的, 可以是最坏,也可使是最好, 可以是希特勒, 可以使斯大林, 但他们永远是大众水平的.
发现的孤立点, 可能你就发现了机会, 正因为他的异常可以给你带来不同, 当然可以是好的,也可以是坏的......
似乎我更喜欢做个 outlier 这样才能与众不同...
我的意思似乎还没有表达出来, 可能是我文字水平的问题, 也可能是这问题 本身就说不清.
Email: ariszh...@gmail.com 欢迎交流(无论同意 or 反对)