HTMLParser入门_02_网络爬虫的雏形_解析文章的主题和作者及关键字等信息

package com.jadyer.httpclient;

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.util.List;

import org.apache.commons.io.IOUtils;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.util.EntityUtils;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.tags.MetaTag;
import org.htmlparser.util.NodeList;

/**
 * HTMLParser入门_02_网络爬虫的雏形_解析文章的主题和作者及关键字等信息
 * @see ---------------------------------------------------------------------------------------------------------
 * @see 所有jar如下
 * @see commons-io-2.3.jar
 * @see commons-codec-1.6.jar(以下7个jar取自HttpClient官网下载的httpcomponents-client-4.2.1-bin.zip)
 * @see commons-logging-1.1.1.jar
 * @see fluent-hc-4.2.1.jar
 * @see httpclient-4.2.1.jar
 * @see httpclient-cache-4.2.1.jar
 * @see httpcore-4.2.1.jar
 * @see httpmime-4.2.1.jar
 * @see filterbuilder.jar(以下5个jar取自HTMLParser官网下载的HTMLParser-2.0-SNAPSHOT-bin.zip)
 * @see htmllexer.jar
 * @see htmlparser.jar
 * @see sitecapturer.jar
 * @see thumbelina.jar
 * @see ---------------------------------------------------------------------------------------------------------
 * @see 本文所用的HTMLParser工具类,详见我的下面的这一篇文章
 * @see http://blog.csdn.net/jadyer/article/details/8656479
 * @see ---------------------------------------------------------------------------------------------------------
 * @create Mar 10, 2013 5:05:55 PM
 * @author 玄玉<http://blog.csdn/net/jadyer>
 */
public class SpiderDemo {
	private static final String articleURI = "http://www.ibm.com/developerworks/cn/java/j-javaroundtable/index.html";
	private static final String localHTML = "D:/Download/localHTML.html";
	
	/**
	 * 下载文章
	 */
	private static void downloadArticle() throws Exception {
		HttpClient httpClient = new DefaultHttpClient();
		HttpGet httpGet = new HttpGet(articleURI);
		try {
			HttpResponse response = httpClient.execute(httpGet);
			HttpEntity entity = response.getEntity();
			if(null != entity){
				String responseContent = EntityUtils.toString(entity, "UTF-8");
				EntityUtils.consume(entity);
				//文章内容写到本地(IOUtils干完活儿会自动关闭IO流)
				IOUtils.write(responseContent, new FileOutputStream(localHTML), "UTF-8");
			}
		}finally{
			httpClient.getConnectionManager().shutdown();
		}
	}
	
	
	/**
	 * 解析具有某种特征的标签
	 */
	@SuppressWarnings("serial")
	private static void parseSpecifiedTag() throws Exception{
		String inputHTML = IOUtils.toString(new FileInputStream(localHTML), "UTF-8");
		Parser parser = new Parser();
		parser.setInputHTML(inputHTML);
		//提取name="title"的<meta>标签,符合条件的应该只有一个<meta>标签,所以这里用单数
		//这里我们自己写一个Filter,并且用内部类的方式
		NodeList metaTag = parser.parse(
			new NodeFilter(){
				@Override
				public boolean accept(Node node) {
					//找到<meta>标签
					if(node instanceof MetaTag){
						MetaTag mt = (MetaTag)node;
						//找到<meta name="title">的标签
						if(null!=mt.getMetaTagName() && "title".equals(mt.getMetaTagName())){
							return true;
						}
					}
					return false;
				}
			}
		);
		//提取<meta name="title" content="2010 年春 Java 平台圆桌会议"/>标签中的content属性值
		System.out.println("name=title,content=" + ((MetaTag)metaTag.elementAt(0)).getMetaContent());
	}
	
	
	/**
	 * 解析文章的简介,关键字,作者姓名等信息
	 */
	private static void parseAbstractAndKeywords() throws Exception{
		String html = IOUtils.toString(new FileInputStream(localHTML), "UTF-8");
		List<MetaTag> metaTags = HTMLParseUtil.parseTags(html, MetaTag.class, "name", "Abstract");
		for(MetaTag mt : metaTags){
			System.out.println("文章的简介:" + mt.getMetaContent());
		}
		MetaTag mt = HTMLParseUtil.parseTag(html, MetaTag.class, "name", "Keywords");
		System.out.println("文章关键字:" + mt.getMetaContent());
		List<Div> divTags = HTMLParseUtil.parseTags(html, Div.class, "class", "author");
		for(Div div : divTags){
			//div.getStringText()可以得到<div></div>所嵌套的内容
			LinkTag aTag = HTMLParseUtil.parseTag(div.getStringText(), LinkTag.class, "class", "dwauthor");
			System.out.println("作者姓名:" + aTag.getStringText());
		}
	}
}

作者：jadyer 发表于2013-3-10 17:27:45 原文链接

阅读：60 评论：0 查看评论

HTMLParser入门_02_网络爬虫的雏形_解析文章的主题和作者及关键字等信息

Trending Articles

雲林縣斗六市科 - 新東京夢公園

音频播放怎么设置音量

盜伐七里香42棵市價逾5千萬

[转载]煞貢、直星、人專吉日\金神七煞歌

亮亮视野推出消费级AR眼镜Leion Hey2

台湾萌妹COSer Misa米砂写真集赠送活动获奖名单揭晓

Adobe Photoshop 2025 (v26.5) Multilingual TestNoPopup

Delphi 12.2.5 绿色版

[正版購買] YT Saver 10.3.0 中文版 - 網路影片下載兼轉檔軟體支援私人影片下載

Navisworks 真实模型渲染

[字体]古风字体合集[百度云下载][1.68GB]

參賽即是一種榮耀與肯定

出售: Technics卡式座,收音頭(零件機)

盧金箴命理師大栽問(9)－黑道卜卦你敢講壞事嗎？

[冷番补完字幕组][永远的大和号 REBEL3199 第三章群青的星形线][ヤマトよ永遠に REBEL3199 第三章...

清水國小102年「日行一善活動」

香港虽变色大陆游客赴港仍可购到禁书

JavaScriptJavaBridge::CallInfo isn't valid!

[115网盘] 【新人超级福利】豆瓣电影TOP250

清心福全跨界音樂與永續打造手搖新里程