商业保险

  • 衡量 Web 产品数据质量

    我们将 Zyte 自己的自动提取 API 与商业竞争对手以及开源替代品进行了正面交锋,以找出谁是产品提取的佼佼者。 从价格情报到做出投资决策或构建数据驱动的产品,我们经常需要从多个网站中提取产品数据。 这通常意味着为每个网站编写特定于网站的代码,当网站数量变大时,开发和维护这些代码可能会变得既昂贵又耗时。 如果我们可以改用人工智能不是很好吗? 我们甚至可以在某些时候使用它吗? 全自动提取非常适合文章。 观看我们的网络研讨会,了解我们如何评估各种商业解决方案和开源库的性能。 然而,产品数据提取比文章更复杂,我们都渴望看到我们的解决方案执行情况的数据。 但是作为 康斯坦丁·洛普欣,我们的首席数据科学家很快发现——对于产品数据来说,即使是评估也是一项更具挑战性的任务。 目标是针对著名的商业工具对我们自己的人工智能驱动的自动提取 API 进行压力测试。 对于我们的产品提取基线,我们选择了一个相对粗糙的包装器,它是一种广泛使用的开源工具,可以从…

  • 什么是 Web 数据收集?

    免责声明:我们不是您的律师,本指南中的建议不构成法律建议。 如果您需要有关您的具体情况的帮助,那么您应该咨询律师。 随着数据科学的发展和对大数据的需求,每个人都在寻找能够赋予他们竞争优势并促进决策制定的创新方法来访问数据。 Web 数据是未开发数据的最大来源之一,可以从根本上改变您的业务。 随着越来越多的公司提取越来越多的 Web 数据,Web 数据提取行业在过去十年中有了长足的发展。 由于这种爆炸性的增长,许多不同的术语,如网络抓取、网络数据收集、网络挖掘、网络爬虫、数据提取、数据挖掘等都在流传。 所有这些术语都可以互换使用,这在行业中造成了很多混乱。 让我们尝试仔细研究这些术语并了解它们的正确用法。 什么是网络数据采集? Web 数据收集是以自动化方式收集结构化 Web 数据的过程。 它也称为网络抓取或网络数据提取。…

  • 如何通过数据解析减少数据中的噪音

    互联网上充满了我们可以使用的有用信息。 然而,与此同时,它充满了可能对数据分析有害的隐藏噪音。 例如,如果你加载这个 维基百科页面,它将向您展示一些结构化的内容,您可以轻松地解析和搜索该给定主题所需的相关信息。 但是,计算机对事物的看法不同。 为了以简单的方式放置内容,浏览器理解底层的 HTML 源代码并呈现它,以便您看到该结构。 如果您查看该页面的源代码(右键单击 -> 查看源代码),您将看到浏览器对呈现内容的解释。 浏览器看到的所有来源都与以愉快的方式呈现内容相关。 但是,如果您只是想执行一些数据分析,那么大部分都是无关紧要的。 假设您想查找文章标题中最常用的词。 您不需要为此存储所有 Wikipedia 数据。 实际上,您确实需要下载所有页面,但您可以解析它们并仅提取相关信息(部分标题)并仅存储该数据。…

  • 使用 Zyte 数据 API 智能浏览器管理禁令并获取您的数据

    网站变得越来越智能。 我们全新的 Zyte 数据 API 智能浏览器使开发人员能够更轻松地管理当今的反禁令技术并检索他们想要的 Web 数据。 随着网站所有者部署新措施来阻挠您的合法提取工作,获取网络数据的成本变得越来越高。 通常是电子商务平台等热门网站在反机器人技术上投入最大。 这意味着您的企业需要可靠且大规模地接收数据可能是最难掌握的。 许多网站正在采用先进的反机器人措施来防止恶意机器人或攻击性流量。 不幸的是,合法的网络爬虫也可能被这些措施阻止。 站点所有者已经超越了简单的标头和 TCP/IP 指纹识别、IP 阻止和地理围栏,转向更热心的技术。 其中包括详细的浏览器指纹检查,例如…

  • 有什么区别,哪一个适合我的用例?

    如果您花时间思考您的在线安全性,您会经常听到“VPN”和“代理”这两个术语的出现。 当您访问 Internet 时,它们可以通过隐藏您的 IP 地址来提高您的隐私和匿名性。 但是 VPN 和代理以完全不同的方式工作,每种方式都有各自的优点和局限性。 让我们找出最适合您自己的 Web 数据提取项目的方法。 什么是 VPN? 虚拟专用网络或“VPN”让用户可以通过 Internet 或更普遍的公共网络共享数据,就好像他们连接到专用网络一样。 如果您是在家工作的员工,VPN…

  • 在网页抓取和数据提取中使用无头浏览器

    如果您参与过任何类型的 Web 数据提取项目,您可能听说过无头浏览器。 也许您想知道它们是什么,以及您是否需要使用它们。 在这里,我想解决一些关于无头浏览器及其使用方式的基本问题。 让我们首先看看在大多数抓取框架如何工作的上下文中访问网页时会发生什么。 要阅读此博客,您几乎肯定会在计算机或移动设备上使用某种网络浏览器。 从本质上讲,浏览器是一种软件,它呈现网页以供在目标设备上查看。 它将从服务器发送的代码转换为在您的屏幕上可读的内容,文本和图像由漂亮的字体、弹出窗口、动画和所有其他漂亮的东西装饰。 更重要的是,浏览器还允许您通过单击、滚动、悬停和滑动来与页面内容进行交互。 实际上是您的计算机执行渲染的驴式工作,这通常涉及浏览器向服务器发送数百个 HTTP 请求。 您的浏览器将首先请求初始的“原始”HTML 页面内容。 然后它将向服务器发出一系列进一步请求,以获取其他元素,例如样式表和图像。 在 Web…

  • Extract Summit 2021:亮点和关键要点

    这是一个包裹! 上周,第三次, 提取峰会 汇集了网络数据专家和爱好者来学习、分享和启发。 会议、研讨会、小组讨论、竞赛——今年的峰会提供了很多东西,我什至不知道从哪里开始。 提取峰会一目了然 由于 2021 年 COVID-19 仍存在所有不确定性,我们决定保持安全并再次举办虚拟活动。 然而,我们希望为所有与会者和演讲者提供出色的体验和相互联系的机会。 使用事件平台 胡比洛 帮助我们组织了一次互动和有趣的活动。 “事件界面看起来很糟糕! 我不会撒谎,远程会议与真实会议的感觉不同,因为您没有“感觉”。 我喜欢…

  • 什么是代理服务器? 它们如何工作和使用案例

    如果您曾经参与过网络抓取项目,那么您很可能听说过代理服务器。 但是代理服务器究竟是什么意思,它如何影响您的网络抓取项目? 在本文中,我们将深入解释什么是代理服务器,以及为什么代理是 Web 数据提取项目的重要组成部分。 所以让我们从基础开始。 什么是代理服务器? 代理服务器通常是位于用户和他们试图通过 Internet 连接的另一台服务器之间的服务器。 您可以将其描述为一种网关 - 发送到您或从您发送的任何内容可能需要通过此门才能到达目的地。 通过代理浏览的主要区别在于用户和目标通常不会直接相互连接 - 他们连接到充当数据中介的代理。 现在我们确切地知道代理服务器是什么,让我们进一步了解它的实际工作原理。 代理服务器如何运作?…

  • 如何从 HTML 表格中提取数据

    HTML 表格是用于显示信息的一种非常常见的格式。 在构建抓取工具时,您通常需要从 HTML 表中提取数据并将其转换为不同的结构化格式,例如 JSON、CSV 或 Excel。 在本文中,我们将讨论在 Python 和 Scrapy 中从 HTML 表中提取数据。 但在我们开始之前,这里有几篇文章可以让您复习一下您的网络抓取知识: 什么是网页抓取网页抓取和网页抓取有什么区别现在我们已经清楚了基础知识,让我们开始吧! HTML…

  • Zyte 被评为德勤科技高成长 50 强之一

    在经历了公司更名、推出自动提取和智能浏览器以及开设美国办事处的忙碌一年之后,我们很高兴在 2021 年结束在德勤科技高成长 50 强中排名第 41 位,这是美国增长最快的 50 家科技公司的排名。爱尔兰。 今年年初,我们从Scrapinghub变成了Zyte。 通过品牌重塑,我们不仅改变了名称和外观,还开发了新技术来帮助提取网络数据。 Zyte 反映了我们是谁以及我们要去哪里。 我们所做的不仅仅是低级别的网络抓取,我们还专注于网络数据,并将客户置于我们工作的核心。 我们凭借两个新的数据 API 处于 Web…