Jsoup怎样从Html文件中提取正文内容?

如题所述

举报该问题

推荐答案 2018-01-03

Jsoupä»Htmlæä»¶ä¸æåæ£æåå®¹
ç¤ºä¾ä»£ç ï¼
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "/example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
jsoupæ¯ä¸æ¬¾JavaçHTMLè§£æå¨ï¼å¯ç´æ¥è§£ææä¸ªURLå°åãHTMLææ¬åå®¹ãå®æä¾äºä¸å¥éå¸¸çåçAPIï¼å¯éè¿DOMï¼CSSä»¥åç±»ä¼¼äºJQueryçæä½æ¹æ³æ¥ååºåæä½æ°æ®ã
jsoupçä¸»è¦åè½å¦ä¸ï¼
1. ä»ä¸ä¸ªURLï¼æä»¶æåç¬¦ä¸²ä¸è§£æHTMLï¼
2.ä½¿ç¨DOMæCSSéæ©å¨æ¥æ¥æ¾ãååºæ°æ®ï¼
3. å¯æä½HTMLåç´ ãå±æ§ãææ¬ï¼

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WBttOWWOvtBtWX7tzzj.html

相似回答

大家正在搜