论坛和社区如何防止垃圾文章和评论

在V2上看到被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?,想起以前做论坛和信息发布平台的一些经历,也曾头痛过,总结自己以及网友的经验如下。

通过关键词库识别spam内容

如何建立关键词库

  • 人工方法收集词库;
  • 导入网上词库;
  • 收集历史内容,然后通过分词方式抽取词;
  • 使用网络上的开源spam机器学习方案;

如何运用关键词库

  • 匹配前利用正则表达式去空白
  • 使用正则表达式对整段内容运用关键词库进行多次匹配
  • 分词然后匹配词,因为分词通常不够精准,所以除非特殊情况不建议,效率上分词加词组匹配的时间不一定会比正则快

通过联系方式特征识别spam内容

如何识别联系方式

  • 数字联系方式:如④,肆等
  • 网址:.com等
  • 手机号、电话号等
  • 邮箱
  • 通讯软件:微信,咸鱼等

如何运用联系方式反spam

  • 正则表达式

通过用户身份识别spam内容

如何识别用户身份

  • 手机号认证
  • 邮箱认证
  • 微信,微博等第三方认证
  • ip地址识别
  • ip归属地识别
  • 手机归属地识别
  • 身份认证:身份证、人脸识别

如何运用身份识别反spam

  • 建立手机号,邮箱,IP,归属地黑名单
  • 注册、登录验证码
  • 答题识别
  • 邀请注册
  • 付费注册

通过操作特征识别spam内容

操作特征识别

  • 发布频率
  • 注册时间

如何运用操作特征识别反spam

  • 注册后一定时间内不允许发帖
  • 发帖消耗积分

识别后的处理

  • 过滤信息,进入待审核
  • 禁言用户(可设置时间)
  • 屏蔽账号(ip,手机号,邮箱等)
  • 屏蔽归属地(可以过一个月再打开)
  • 屏蔽所有用户发布信息(含用户名)

开源方案

商业方案