求一个去除html源代码中的无效代码( 如注释,空白字符,空白行等)的 java正则表达式~谢谢

给个思路也行,自己做做完.压缩完成之后网页照常使用,就像百度首页一样只有两三行谢谢各位大哥大姐~

举报该问题

推荐答案 2011-01-05

注释的正则：
页面样式的正则：<style[^>]*>[^<]*?</style>
HTML标签的正则：<[^>]*?>

/// <summary>
/// 正则替换
/// </summary>
/// <param name="sOld">原内容</param>
/// <param name="sRegexString">正则表达式</param>
/// <param name="sReplaceString">新字符串</param>
/// <returns></returns>
public static string ReplaceRegxString(string sOld, string sRegexString, string sReplaceString)
{
Regex reg = new Regex(@sRegexString, RegexOptions.Singleline | RegexOptions.IgnoreCase);
return reg.Replace(sOld, sReplaceString);
}

参考资料：http://hi.baidu.com/activezfj/blog/item/4aca3c7a5348f3eb2f73b3b2.html

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/vWvjBjzWX.html

其他回答

第1个回答 2011-01-05

正则:<!\-\-.*?\-\->|^\s*$
替换:空(即'')

其中'|' 左侧的正则匹配html的注释语句,右侧匹配html的空白行

第2个回答 2011-01-05

正则:<!\-\-.*?\-\->|^\s*$
替换:空(即'')

其中'|' 左侧的正则匹配html的注释语句,右侧匹配html的空白行

求一个去除html源代码中的 无效代码( 如注释,空白字符,空白行等)的 java正则表达式~谢谢

求一个去除html源代码中的无效代码( 如注释,空白字符,空白行等)的 java正则表达式~谢谢