删除晋江原创网文章干扰码的思路(特征匹配)

2023-10-11 09:58

本文主要是介绍删除晋江原创网文章干扰码的思路(特征匹配),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文章仅授权非营利性质之用途,不得做它用。
著作人身权受法律保护,转载请保留作者署名,保持文章完整性,谢绝修改!
本文章仅作为技术讨论,切勿使用本文章提及的技术,侵害他人权益。由此引发的一切法律责任以及其他纠纷,本文作者均得免责!
特此声明!

==================================================

晋江原创网是国内很著名的原创文学发布网站。(http://www.jjwxc.net/)有很多作者的专栏,更新很快。
我有时会帮别人到上面找一些连载的文章,不过晋江的文章每个段落的后面都有一个干扰码,一般是乱码加上诸如什么保护版权的字样,看着很不爽啊!

比如:

Quote:

8df707a948fac1b4 保护版权!尊重作者!反对盗版! @ Copyright of 晋江原创网 @
26e359e83860db1d


这些干扰码的技术特点是:
1、内容不固定,含有随机的16进制数;
2、长度不固定,每行干扰码的长度不固定,无论是前面的16进制随机数,还是后面的中文提示。
3、干扰码在HTML中标注的颜色值不固定,随机性很强,虽然说还保持在一个色调范围内。

下面分析一下干扰码的特征:
1、以中文“的”开头;
2、后面有一串16进制数字;
3、干扰码最后必定是一个换行的标记(HTML中为<br>,文本中为chr(10)+chr(13),如果我没记错的话)

根据特征删除干扰码的思路:
1、判断开头;
2、找到结束;
3、删除!

附带的代码请看附件部分!用ASP写的,嘿嘿。
没办法,因为ASP是我机器上最好的开发环境,方便快捷,能用它做的我就懒得用别的了。

需要完善代码的细节部分,因为为了复制文章随手写的,很多特殊情况没有处理。
比如找到“的”之后,默认判定后面还有字符。如果文章以“的”结尾,程序就报错了,呵呵~
<%
dim i, j, text, text_len, tmp
text=request.Form("text")
i=1
k=1
if text<>"" then
 do while instr(i, text, "的")>0
  if instr(i, text, "的")>0 then
   'response.Write "T1"
   j=instr(i, text, "的")
   'response.Write j&"|"
   'response.Write asc(mid(text, j+3, 1))
   if (asc(mid(text, j+2, 1))>47 and asc(mid(text, j+2, 1))<58) or (asc(mid(text, j+2, 1))>96 and asc(mid(text, j+2, 1))<123) then
    tmp=mid(text, j, instr(j, text, chr(10))-j+1)
    text=replace(text, tmp, "")
   end if
   i=j+1
  end if
  k=k+1
  if k>5000 then exit Do
 loop
 text=replace(replace(text, chr(10), ""), chr(13), "<br>")
        text=replace(text, "  ", "")
 response.Write text
else
%>
<form action="" method="post">
<textarea name="text" cols="100" rows="30"></textarea><br>
<input type="submit"><input type="reset">
</form>
<%
end if
%>

这篇关于删除晋江原创网文章干扰码的思路(特征匹配)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/187230

相关文章

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

macOS无效Launchpad图标轻松删除的4 种实用方法

《macOS无效Launchpad图标轻松删除的4种实用方法》mac中不在appstore上下载的应用经常在删除后它的图标还残留在launchpad中,并且长按图标也不会出现删除符号,下面解决这个问... 在 MACOS 上,Launchpad(也就是「启动台」)是一个便捷的 App 启动工具。但有时候,应

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

C++从序列容器中删除元素的四种方法

《C++从序列容器中删除元素的四种方法》删除元素的方法在序列容器和关联容器之间是非常不同的,在序列容器中,vector和string是最常用的,但这里也会介绍deque和list以供全面了解,尽管在一... 目录一、简介二、移除给定位置的元素三、移除与某个值相等的元素3.1、序列容器vector、deque

C++原地删除有序数组重复项的N种方法

《C++原地删除有序数组重复项的N种方法》给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度,不要使用额外的数组空间,你必须在原地修改输入数组并在使用O(... 目录一、问题二、问题分析三、算法实现四、问题变体:最多保留两次五、分析和代码实现5.1、问题分析5.

SQL Server清除日志文件ERRORLOG和删除tempdb.mdf

《SQLServer清除日志文件ERRORLOG和删除tempdb.mdf》数据库再使用一段时间后,日志文件会增大,特别是在磁盘容量不足的情况下,更是需要缩减,以下为缩减方法:如果可以停止SQLSe... 目录缩减 ERRORLOG 文件(停止服务后)停止 SQL Server 服务:找到错误日志文件:删除

mysql删除无用用户的方法实现

《mysql删除无用用户的方法实现》本文主要介绍了mysql删除无用用户的方法实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 1、删除不用的账户(1) 查看当前已存在账户mysql> select user,host,pa

Nginx中location实现多条件匹配的方法详解

《Nginx中location实现多条件匹配的方法详解》在Nginx中,location指令用于匹配请求的URI,虽然location本身是基于单一匹配规则的,但可以通过多种方式实现多个条件的匹配逻辑... 目录1. 概述2. 实现多条件匹配的方式2.1 使用多个 location 块2.2 使用正则表达式

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi