雅虎开源解析HTML页面数据的Web爬取工具Anthelion

2016-02-02 14:02 来源:venturebeat.com
浏览量: 收藏:0 分享

  2015年12月14日,Yahoo宣布开源解析HTML页面结构数据的Web爬取工具Anthelion.Web爬行工具是Yahoo很重要的核心,甚至超过了其他应用:YahooMail,YahooFinance,YahooMessenger,Flickr和Tumblr。

  2014年在上海的一次会议中,Yahoo也详细提到了Anthelion:“Anthelion最初专注于语义数据,使用标记语言嵌入到HTML页面,比如Microdata,Microformat或者RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

  Microdata和RDFa是结构数据关于不同主题的语法格式,兼容schema。org词汇(一个Google,Yahoo和Bing搜索引擎都在研究的项目)aprojectthattheGoogle,Yahoo,andBingsearchenginesallworkon。

  Anthelion的代码现在以Apache开源授权协议托管到GitHub:https://github。com/yahoo/anthelion,包含ApacheNutch完整源代码。

  Anthelion可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。

标签:

投稿人:admin
在线客服