正则表达式删除指定的html标签
来源: 阅读:800 次 日期:2016-06-14 09:10:01
温馨提示: 小编为您整理了“正则表达式删除指定的html标签”,方便广大网友查阅!

抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的html标签而打乱了格式,也可能它里面用了比较让人 费解 的html标签,把预订的格式搅乱. 如果全盘删除里面的 html 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.

正则表达式里,判断 包含某些字符串 是非常容易理解的,但是如何判断 不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事.

<(?!((/?s?li)|(/?s?ul)|(/?s?a)|(/?s?img)|(/?s?br)|(/?s?span)|(/?s?b)))[^>]+>

这个正则是判断html标签不包含 li / ul / a / img / br / span / b 的,就上面的要求来说,是要 删除 除这里列出的html标签,这也是我摸索了很长时间才搞出来的.

(?!exp) 匹配后面跟的不是exp的位置

/?s? 我一开始试着把它写到最前面的 < 后面,但是测试失败了.

下面是一个简单的函数,把要保留的tag串起来,生成一个正则表达式,然后把不需要的tag删除...

private static string removespecifyhtml(string ctx) {

string[] holdtags = { a, img, br, strong, b, span };//要保留的 tag

// <(?!((/?s?li)|(/?s?ul)|(/?s?a)|(/?s?img)|(/?s?br)|(/?s?span)|(/?s?b)))[^>]+>

string regstr = string.format(@<(?!((/?s?{0})))[^>]+>, string.join(@)|(/?s?, holdtags));

regex reg = new regex(regstr, regexoptions.compiled | regexoptions.multiline | regexoptions.ignorecase);

return reg.replace(ctx, );

}

----------------------------

修正:

上面的正则,如果保留了 li , 实际运行会发现 link 也给保留下来了, 保留 a 会把 addr 也给保留下来, 解决办法就是加 b 断言.

<(?!((/?s?lib)|(/?s?ul)|(/?s?ab)|(/?s?imgb)|(/?s?brb)|(/?s?spanb)|(/?s?bb)))[^>]+>

private static string removespecifyhtml(string ctx) {

string[] holdtags = { a, img, br, strong, b, span, li };//保留的 tag

// <(?!((/?s?lib)|(/?s?ulb)|(/?s?ab)|(/?s?imgb)|(/?s?brb)|(/?s?spanb)|(/?s?bb)))[^>]+>

string regstr = string.format(@<(?!((/?s?{0})))[^>]+>, string.join(@b)|(/?s?, holdtags));

regex reg = new regex(regstr, regexoptions.compiled | regexoptions.multiline | regexoptions.ignorecase);

return reg.replace(ctx, );

}

更多信息请查看 网页制作
由于各方面情况的不断调整与变化, 提供的所有考试信息和咨询回复仅供参考,敬请考生以权威部门公布的正式信息和咨询为准!
关于我们| 联系我们| 人才招聘| 网站声明| 网站帮助| 非正式的简要咨询| 简要咨询须知| 加入群交流| 手机站点| 投诉建议
工业和信息化部备案号:滇ICP备2023014141号-1 云南省教育厅备案号:云教ICP备0901021 滇公网安备53010202001879号 人力资源服务许可证:(云)人服证字(2023)第0102001523号
云南网警备案专用图标
联系电话:0871-65317125(9:00—18:00) 获取招聘考试信息及咨询关注公众号:
咨询QQ:526150442(9:00—18:00) 版权所有:
云南网警报警专用图标
Baidu
map