百度网盘敏感词发不出(鱼吧发帖包含敏感词)
网上发不出去的那些敏感词,是如何被屏蔽掉的?
今天是瑞奈战士自学Java的第94天。感谢收看,谢谢。
话不多说,开始今天的学习:
00-1010网络上很多平台都会有敏感词被屏蔽,有些词打出来会很和谐。
虽然我们现在提倡言论自由,但是中国自古以来就是礼仪之邦,很多粗俗的话只要不被允许就可以被允许。
这些字是怎么屏蔽的?
可以用我们昨天学的Filter技术来实现。
这是一个非常简单的形式:
动作:提交跳转的路径是wordServlet。
方法:提交方法是get submission。
Textarea:文本字段,其属性包括列数、行数和名称。
输入类型=“提交”:提交按钮
那么就必须有一个与表单提交的路径相对应的Servlet,以便获取用户在文本字段中输入的数据。
(1)处理乱码。
通过setCharcatierEncoding()方法请求将字符集设置为utf-8,以解决代码乱码的问题。
获取用户输入的数据。
通过请求的getParamter()方法获取用户输入的数据。
文本字段对应的名称是word,所以这里的参数也是word。
当然,根据实际情况,在获取用户数据后,用户的评论会显示在相应的评论区。
我这里的业务逻辑没有那么复杂,所以我使用输出语句来代替。
一、用户评论功能
既然要筛选敏感词,就要先确定哪些词是敏感词,再以这些词为标准进行筛选。
在web包下创建一个word包来存储需要屏蔽的词汇文件。按照分类,肯定有很多非常档。
为了更好的测试,我写了一个仁者斗士,设置为1级。毕竟那些敏感词是不可能真的写出来的。
好了,当敏感词准备好了,是时候创建Filter过滤器并编写业务逻辑代码来屏蔽它们了。
首先,要获取敏感词汇,在init()方法中实现这个需求。因为代码太长,无法截图,所以分为两部分:
1获取words文件夹中的每个文件。
创建三个集合。
如前所述,敏感词有三个级别,因此创建三个成员变量来存储获取的词。
获取单词文件夹
在初始化方法init中,有一个参数FilterConfig。
使用它的getServlerContext(),可以在web应用程序中获取servletcontext,所以可以使用servletcontext接口的一些方法。
GetRealPath()填充了单词包的相对路径,可以得到单词包。
使用文件过滤器过滤文件。
刚才我们把敏感词汇文件放入了单词包,里面包含了很多文件。为了防止与其他文件混淆,我们只读取后缀为'的文本文件。' txt。
文件过滤器接口可用于过滤文件。
获取words文件夹中每个文件的内容。
代码连接到上图,for循环被增强以遍历上面的过滤单词文件夹:
-img-caption">
①转换流与缓冲流
使用转换流在于其可以设置编码字符集:utf-8。
使用缓冲流在于可以一行一行地读。
同时也算是对这两种IO流的一个回顾与复习。
②迭代器读取文件
这就是IO流中的核心代码,一行一行地读取各个文件里的内容。
③切割字符串
字符串为一行的内容:是以"|"为分隔,前面为敏感词,后面为屏蔽等级。
所以使用split()方法来将其分隔成一个数组,数组里0索引位为敏感词,1索引位为屏蔽等级。
④根据屏蔽等级分别存入对应集合
split[1]表示的也就是屏蔽等级,trim()方法可以去除空格。
split[0]表示的也就是敏感词内容,将其存入对应集合即可。
三、过滤代码编写
上述是对过滤器中init()方法里的代码编写,用于获取敏感词一共有哪些。
现在对doFilter()方法里的代码编写,用户获取用户输入的信息,再进一步判断是否符合要求。
①处理乱码并获取用户数据
和在wordServlet中编写的代码一样。
②遍历敏感词汇并与用户数据匹配
敏感词汇一共有三个级别,可以分别对应不同的处理方式,比如永久封号、封号7天,禁言……
现在毕竟学习阶段,只遍历等级为1的集合,正则匹配涉及到一个工具类Pattern:
·
compile(str):以遍历的敏感词为标准。
·
·
matcher(word):以上述标准匹配获取的用户数据。
·
通过matcher的find()方法可以判断,若为true即表示匹配,不符合要求。
③不符合要求反馈并提醒用户
在request域对象中设定一个名为msg的值,值为"评论内容不规范",再跳转word.jsp页面。
最后在word.jsp中使用EL表达式获取request域对象中的数据。
${msg}获取的也就是③中设定的msg对应的值,如果用户输入的内容不规范,在word.jsp页面就会出现警示信息。
做个测试
仁爱的战斗机在前面已经被我设置成了1级敏感词,所以在评论的时候输入仁爱的战斗机,过滤器中会截取到。
从而跳转word.jsp页面并附带警示信息。
嘻嘻嘻不为敏感词汇,则不受影响。
最后
谢谢你的观看。
如果可以的话,麻烦帮忙点个赞,谢谢你。