求一个去除html源代码中的 无效代码( 如注释,空白字符,空白行等)的 java正则表达式~谢谢

给个思路也行,自己做做完.压缩完成之后 网页照常使用,就像百度首页一样只有两三行 谢谢各位大哥大姐~

注释的正则:<!--[\s\S]*?-->
页面样式的正则:<style[^>]*>[^<]*?</style>
HTML标签的正则:<[^>]*?>

/// <summary>
/// 正则替换
/// </summary>
/// <param name="sOld">原内容</param>
/// <param name="sRegexString">正则表达式</param>
/// <param name="sReplaceString">新字符串</param>
/// <returns></returns>
public static string ReplaceRegxString(string sOld, string sRegexString, string sReplaceString)
{
Regex reg = new Regex(@sRegexString, RegexOptions.Singleline | RegexOptions.IgnoreCase);
return reg.Replace(sOld, sReplaceString);
}

参考资料:http://hi.baidu.com/activezfj/blog/item/4aca3c7a5348f3eb2f73b3b2.html

温馨提示:答案为网友推荐,仅供参考
第1个回答  2011-01-05
正则:<!\-\-.*?\-\->|^\s*$
替换:空(即'')

其中'|' 左侧的正则匹配html的注释语句,右侧匹配html的空白行
第2个回答  2011-01-05
正则:<!\-\-.*?\-\->|^\s*$
替换:空(即'')

其中'|' 左侧的正则匹配html的注释语句,右侧匹配html的空白行
相似回答
大家正在搜