目前的删贴机功能:
1,每隔固定时间,读取本吧首页的所有新发表或者具有新回复的帖子
2,自动删除所有知道搬运贴
3,自动进入所有新帖子,获取第一页的所有回复(包括楼中楼第一页),删除带链接广告
现有的识别机制:
对于知道搬运,根据百度的内部数据实现,完全不存在漏报(假阴性)或者误报(假阳性)。
对于带链接广告,暂时基于关键词+链接判断,目前为止还没有见到漏报或者误报,但以后肯定会出现漏报的情况。
可能的开发方向:
识别模块:用户白名单机制,正则表达式支持,机器学习等
爬虫模块:爬取最后回复帐号的最近发回帖记录,根据用户名搜索帖子,异步操作,队列及线程池,性能优化
封删模块:封禁帐号,拉黑名单,详细日志,跳过被手工恢复的帖子
登录模块:多帐号支持,验证码自动识别,会话管理
其他:删贴速度优化,细粒度异常处理,重启或崩溃自动恢复保存的进度等
由于业余时间有限,所以不打算投入太多时间。虽然有开发计划,但不一定会真的去做。尤其是在现有的删贴机满足需求的情况下,更是不想投入更多时间。如果你有Python开发经验,欢迎合作开发。(暂时不开源,等功能完善以后考虑以GPL协议开源)
至于验证码识别,纯粹是因为之前无聊已经实现了一部分功能,所以才会放进开发计划里,欢迎无视。
1,每隔固定时间,读取本吧首页的所有新发表或者具有新回复的帖子
2,自动删除所有知道搬运贴
3,自动进入所有新帖子,获取第一页的所有回复(包括楼中楼第一页),删除带链接广告
现有的识别机制:
对于知道搬运,根据百度的内部数据实现,完全不存在漏报(假阴性)或者误报(假阳性)。
对于带链接广告,暂时基于关键词+链接判断,目前为止还没有见到漏报或者误报,但以后肯定会出现漏报的情况。
可能的开发方向:
识别模块:用户白名单机制,正则表达式支持,机器学习等
爬虫模块:爬取最后回复帐号的最近发回帖记录,根据用户名搜索帖子,异步操作,队列及线程池,性能优化
封删模块:封禁帐号,拉黑名单,详细日志,跳过被手工恢复的帖子
登录模块:多帐号支持,验证码自动识别,会话管理
其他:删贴速度优化,细粒度异常处理,重启或崩溃自动恢复保存的进度等
由于业余时间有限,所以不打算投入太多时间。虽然有开发计划,但不一定会真的去做。尤其是在现有的删贴机满足需求的情况下,更是不想投入更多时间。如果你有Python开发经验,欢迎合作开发。(暂时不开源,等功能完善以后考虑以GPL协议开源)
至于验证码识别,纯粹是因为之前无聊已经实现了一部分功能,所以才会放进开发计划里,欢迎无视。