天天看点

雅虎开源解析HTML页面数据的Web爬取工具Anthelion

12月14日,yahoo 宣布开源解析 html 页面结构数据的 web 爬取工具 anthelion。web 爬行工具是 yahoo 很重要的核心,甚至超过了其他应用: yahoo mail,yahoo finance,yahoo messenger,flickr 和 tumblr。

上一年在上海的一次会议中,yahoo 也详细提到了 anthelion:“anthelion 最初专注于语义数据,使用标记语言嵌入到 html 页面,比如 microdata,microformat 或者 rdfa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

microdata 和 rdfa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 google,yahoo 和 bing 搜索引擎都在研究的项目) a project that the google, yahoo, and bing search engines all work on.

anthelion 的代码现在以 apache 开源授权协议托管到 github:https://github.com/yahoo/anthelion,包含 apache nutch 完整源代码。

anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。

本文作者:佚名

来源:51cto