雅虎开源web爬虫工具Anthelion,能解析网页结构化数据

yahoo-alibaba-group-china

雅虎近日宣布开源web爬虫工具Anthelion,该工具可以解析HTML页面中的结构化数据。

Web爬虫是雅虎的核心技术,因此雅虎在这个领域发布开源工具显得不同寻常。此前雅虎刚刚宣布将剥离一些核心业务(但不包括阿里巴巴的股份),此外雅虎首席执行官Marissa Mayer刚刚生下双胞胎。

去年在上海的一个信息知识管理会议上,雅虎曾在一篇论文中详细介绍了Anthelion。该论文的作者指出:“雅虎的爬虫技术开创了业界的先河,那就是专注于那些通过Microdata、Microformats或RDFa等markup语言嵌入HTML页面的语义数据。

Microdata和RDFa是标记不同结构化数据的句法格式,他们都兼容Schema.org的结构化数据词汇库,而Schema.org是谷歌、雅虎和Bing搜索引擎共同支持的项目。

雅虎研究人员还在论文中展示了Anthelion爬虫技术的部署如何提高了搜索查询的相关结果数量。

Anthelion的源代码目前已经托管到GitHub,作为Apache Nutch开源web爬虫项目的一个组件。

雅虎研究人员在Tumblr发博文指出,Anthelion能定向检索特定网页,例如那些使用markup标记电影名称和演员等至少两种属性的网页。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸

X