衡量 Web 产品数据质量

0
衡量 Web 产品数据质量

我们将 Zyte 自己的自动提取 API 与商业竞争对手以及开源替代品进行了正面交锋,以找出谁是产品提取的佼佼者。

从价格情报到做出投资决策或构建数据驱动的产品,我们经常需要从多个网站中提取产品数据。 这通常意味着为每个网站编写特定于网站的代码,当网站数量变大时,开发和维护这些代码可能会变得既昂贵又耗时。

如果我们可以改用人工智能不是很好吗? 我们甚至可以在某些时候使用它吗?

全自动提取非常适合文章。 观看我们的网络研讨会,了解我们如何评估各种商业解决方案和开源库的性能。 然而,产品数据提取比文章更复杂,我们都渴望看到我们的解决方案执行情况的数据。 但是作为 康斯坦丁·洛普欣,我们的首席数据科学家很快发现——对于产品数据来说,即使是评估也是一项更具挑战性的任务。

目标是针对著名的商业工具对我们自己的人工智能驱动的自动提取 API 进行压力测试。 对于我们的产品提取基线,我们选择了一个相对粗糙的包装器,它是一种广泛使用的开源工具,可以从 HTML 标记中提取嵌入的元数据。 为了对我们自己的自动提取 API 进行认真的测试,我们将其与 Diffbot 进行了对比,这是另一个已经为提取质量设定了很高标准的商业产品。 通过为每一个提供一组精心策划的真实产品页面 URL,我们的目标是找到在提取产品价格、可用性和 SKU(库存单位)信息方面产生最佳质量结果的解决方案。

让我们公平地玩耍

是时候向房间里的大象讲话了。 为了使实验尽可能公平,我们努力减少可能破坏我们测试和结果可信度的因素。

我们没有挑选网络域进行评估,而是请我们数据科学团队之外的两位提取​​专家提出了一组无偏见的流行消费品域。 他们的选择范围从亚马逊、eBay 和阿里巴巴等大型市场到宜家和约翰刘易斯等单一品牌网站。 为了让事情变得更加艰难,我们以各种语言添加了一些来自更不起眼的品牌和供应商的网站。 从这些域中,我们选择了广泛的 URL,包括首页产品、更深层次的隐藏项目、折扣和缺货产品。

我们还采取了其他预防措施,例如对我们选择的目标 URL 进行“快照”并将它们输入每​​个提取引擎。 这样我们就可以确保页面内容在每次测试运行之间的短暂间隔内没有以任何方式改变,并且无论下载位置如何,页面内容始终相同。

最终获胜者是…

使用 F1 分数作为衡量标准,它结合了 准确率和召回率,我们发现Zyte的Automatic Extraction的产品提取质量在价格和SKU属性上明显优于Diffbot。 出于同样的原因,两种解决方案的可用性结果具有可比性。 Diffbot 和 Zyte 的 Automatic Extraction 都远远好于提取基线。

不要只相信我们的话,我们已经开源了整个项目以表明没有什么可隐藏的。 这就是我们发布整个实验数据集的原因,包括 Web 存档文件、测试方法、所选页面的屏幕截图、基本事实注释、评估代码和基线开源提取代码。

迎接产品数据挑战

我们很高兴——也有点松了一口气——发现我们自己的 Zyte 驱动的提取解决方案在当天战胜了它的商业和开源竞争对手。 已经对更简单的文章提取任务进行了类似的实验,我们希望我们可以通过产品提取获得类似的结果……但这并没有阻止一些蝴蝶在重要的日子里!

网络世界中没有什么是静止的。 产品页面设计不断发展,使 HTML 页面的准确解析和解释成为我们数据科学团队的移动目标。 最近的趋势包括越来越多地使用 JavaScript 和“无限”页面的流行,这些页面在您向下滚动时会不断呈现新内容。

在 Zyte,我们的业务是密切关注这些趋势,并且我们不断改进它,以便我们能够为我们的客户提供最佳解决方案。 非常欢迎您与自己的数据提取挑战取得联系。 我们喜欢棘手的问题——几乎就像我们喜欢为我们的网络抓取客户解决这些问题一样。

下一步

如果您有兴趣了解更多信息或有疑问,请观看我们的点播网络研讨会,听取康斯坦丁关于他如何进行整个评估过程、他面临的问题以及他的结论和建议的信息。

您还可以免费试用我们的自动提取 API,看看您的进展如何。

Ähnliche Beiträge

Leave a Reply