什么是数据湖?数据湖是如何工作的?


融小文

2023年2月21日

首先让我们来定义一下数据湖的含义:数据湖是一个集中式存储库,它不需要任何特殊的结构或组织形式。相反,您可以将所有数据(结构化数据和非结构化数据)输入到数据湖中,而无需首先对其进行调整和细化。

尽管缺乏结构,但用户仍然可以运行不同类型的数据湖分析来获取信息。这些可能是仪表板、可视化或机器学习—所有这些都可以利用数据湖中的数据来获取价值。

数据湖提供的开放格式允许企业利用其数据,而无需先对其进行结构调整。这为从数据中学习提供了广泛的可能性。它消除了可能阻碍您获取全面信息的孤岛和界限。

数据湖还具有成本效益,并将与您的业务规模相适应。它们不需要像数据仓库一样的管理和维护,这为您获取信息提供了捷径。

此外,数据湖使机器学习、深度学习和高级分析等技术蓬勃发展。你不知道你不知道什么,这就是机器学习的亮点。它可以将非结构化或半结构化数据点与点之间连接起来,这有助于您从数据中获取更多信息,并做出更好的业务决策。

为了充分理解数据湖架构,了解它的各种组件是很有帮助的。其中包括:数据获取、数据安全性、数据治理、数据发现、数据审核。

数据获取指的是数据来源以及它们如何进入数据湖的。在数据获取方面,您可能有多种获取类型、方法和来源,比如非结构化数据、emi结构化数据、结构化数据、获取方法、批次、实时的、一次性的、获取来源、电子邮件、物联网、web服务器…

在数据安全性方面,安全协议存在于数据湖的每一层。这些协议有助于防止某些用户未经授权访问数据,可能包括身份验证、保护和授权等。

治理是指如何管理、使用、保护、验证数据,以及如何向用户提供数据。良好的数据治理可以提高数据质量,确保用户能够从数据中获取价值。

在用户使用分析大数据之前,数据首先需要经过发现阶段,而这正是数据发现方面的用处。数据分析师可以利用标记技术来组织和理解数据湖中的数据。

在数据审核方面,数据审核允许数据分析师评估风险并保持合规性。这包括跟踪数据集的更改,并了解谁在进行这些更改,以及更改发生的方式和时间。

那么,数据湖如何工作的呢?

数据湖允许您从多个来源收集数据,例如机器到机器、日志、商务应用程序、物联网设备、社交媒体、网络会议等。您可以实时收集数据,也可以将数据分批输入湖中。所有这些数据源都会以原始格式输入同一个湖。不需要定义特殊的格式,数据的大小也没有限制。一旦收集到数据,用户就可以对数据进行爬取、索引和编目,以了解可供他们处理的数据类型。