正则表达式删除指定的html标签

来源：阅读：800 次日期：2016-06-14 09:10:01

温馨提示：小编为您整理了“正则表达式删除指定的html标签”,方便广大网友查阅！

抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的html标签而打乱了格式,也可能它里面用了比较让人费解的html标签,把预订的格式搅乱. 如果全盘删除里面的 html 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.

正则表达式里,判断包含某些字符串是非常容易理解的,但是如何判断不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事.

<(?!((/?s?li)|(/?s?ul)|(/?s?a)|(/?s?img)|(/?s?br)|(/?s?span)|(/?s?b)))[^>]+>

这个正则是判断html标签不包含 li / ul / a / img / br / span / b 的,就上面的要求来说,是要删除除这里列出的html标签,这也是我摸索了很长时间才搞出来的.

(?!exp) 匹配后面跟的不是exp的位置

/?s? 我一开始试着把它写到最前面的 < 后面,但是测试失败了.

下面是一个简单的函数,把要保留的tag串起来,生成一个正则表达式,然后把不需要的tag删除...

private static string removespecifyhtml(string ctx) {

string[] holdtags = { a, img, br, strong, b, span };//要保留的 tag

// <(?!((/?s?li)|(/?s?ul)|(/?s?a)|(/?s?img)|(/?s?br)|(/?s?span)|(/?s?b)))[^>]+>

string regstr = string.format(@<(?!((/?s?{0})))[^>]+>, string.join(@)|(/?s?, holdtags));

regex reg = new regex(regstr, regexoptions.compiled | regexoptions.multiline | regexoptions.ignorecase);

return reg.replace(ctx, );

}

----------------------------

修正:

上面的正则,如果保留了 li , 实际运行会发现 link 也给保留下来了, 保留 a 会把 addr 也给保留下来, 解决办法就是加 b 断言.

<(?!((/?s?lib)|(/?s?ul)|(/?s?ab)|(/?s?imgb)|(/?s?brb)|(/?s?spanb)|(/?s?bb)))[^>]+>

private static string removespecifyhtml(string ctx) {

string[] holdtags = { a, img, br, strong, b, span, li };//保留的 tag

string regstr = string.format(@<(?!((/?s?{0})))[^>]+>, string.join(@b)|(/?s?, holdtags));

regex reg = new regex(regstr, regexoptions.compiled | regexoptions.multiline | regexoptions.ignorecase);

return reg.replace(ctx, );

}

手机网站地址：正则表达式删除指定的html标签

由于各方面情况的不断调整与变化，提供的所有考试信息和咨询回复仅供参考，敬请考生以权威部门公布的正式信息和咨询为准！