下面是一个例子, H1部分就是你需要的正文部分
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class HTMLParser{
public static void main(String args[]) {
// Parse HTML String using JSoup library
String HTMLSTring = "<!DOCTYPE html>"
+ "<html>"
+ "<head>"
+ "<title>JSoup Example</title>"
+ "</head>"
+ "<body>"
+ "|[b]HelloWorld[/b]"
+ ""
+ "</body>"
+ "</html>";
Document html = Jsoup.parse(HTMLSTring);
String title = html.title();
String h1 = html.body().text();
System.out.println("Input HTML String to JSoup :" + HTMLSTring);
System.out.println("After parsing, Title : " + title);
System.out.println("Afte parsing, Body : " + h1);
}
}
追问这种方法是可以提取正文,但是,正文里会有一些不是正文的信息参杂进去,怎么能保证只取正文,而没有其他信息。
追答你有需要处理的那个HTMl吗?其实可以通过html.body中的一些设置函数来取得对应的信息。或者只采用某个标签里面的信息。
本回答被网友采纳