要提取的信息通用格式如下,一共需要提取六个信息(标题中的)书名、作者、出版社、出版时间、书号ISBN还有价格。
<title>《口译二阶段备考训练(附光盘)》陶伟 主编_简介_书评_在线阅读-当当图书</title>
<div class="show_info_left">作 者</div>
<div class="show_info_right"><a href="http://search.dangdang.com/?key2=%CC%D5%CE%B0&medium=01&category_path=01.00.00.00.00.00"; name="__infodetail_pub" target="_blank" class="c_green">陶伟</a> 主编</div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">出 版 社</div>
<div class="show_info_right"><a href="http://search.dangdang.com/?key=&key3=%CD%AC%BC%C3%B4%F3%D1%A7%B3%F6%B0%E6%C9%E7&medium=01&category_path=01.00.00.00.00.00"; name="__infodetail_pub" target="_blank" class="c_green">同济大学出版社</a></div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">出版时间</div>
<div class="show_info_right"></div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">ISBN</div>
<div class="show_info_right">9787560836096</div>
</div>
<div class="show_info_left">定 价</div>
<div class="show_info_right">
<i class="m_price"><em class="td_lh">¥ <span id="originalPriceTag">40.00</span></em></i></div>
如果有困难的话告诉我怎么做也行,任务紧,我来不及仔细学习正则表达式还有HTMLParser了,所以求助各位大大,真的谢谢你们了!
嗯,我试试,不过,谢谢你啊!