网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月26日
漏签
0
天
大岩定增吧
关注:
20
贴子:
134
看贴
图片
吧主推荐
游戏
2
回复贴,共
1
页
<返回大岩定增吧
>0< 加载中...
大岩资本:处理异常值的泛用方法——截尾
取消只看楼主
收藏
回复
SuperEnd_
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
清洗异常值,在量化中泛用的做法是截尾。对于每个数据,定义一大一小两个数值,称之为上界和下界,把该数据中大于上界的数值变为上界;把该数据中小于下界的数值变为下界。上界和下界有两种常用定义方法,分位数法或标准差法。
送TA礼物
1楼
2021-03-10 16:29
回复
SuperEnd_
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
分位数法:将数据排序,取其分位数为上下界,通常可以是99%和1%。
标准差法:将数据均值加减3~5个标准差,定义为上下界。
显然,截尾操作将损失值过大和值过小的数据信息。这种清洗方式隐含了哪些假设?
2楼
2021-03-10 16:30
回复
收起回复
SuperEnd_
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
隐含假设之一,少数数据不适合统计归纳。突发的事件和新闻会带来变化很大的数据,这部分信息不一定是当前模型能够学习到的,因此我们希望通过截尾,来减弱这些突发事件数据对其他数据造成的影响。
同时,在许多量化模型里,异常值对模型训练会产生较大的影响,我们隐含假设了模型应该发现的是重复了非常多次的规律,而不去学习到极少数数据中含有的信息。
3楼
2021-03-10 16:30
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
王祖贤在贴吧官宣创业
2589090
2
表白收到摩斯密码怎么破
2027245
3
AL淘汰JDG晋级决赛
1885324
4
分享我和妹妹难以启齿的故事
1604205
5
南师大博士女友出轨已婚导师
1138878
6
特朗普被说是俄国克格勃特工
960075
7
娜可露露重做野区霸主归来
845160
8
崩坏3.2遐蝶技能强度爆炸
629119
9
未来的农村宅基地还值钱吗
462946
10
尹锡悦的最终时刻即将到来
461055
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示