|
Post by account_disabled on Jan 28, 2024 21:59:27 GMT -8
行业中,公司维护着有关其客户、供应商、运营等的大量交易数据。在公共部门,我们看到如何管理包含人口普查数据、医疗记录、税收等的庞大数据库。 机器对机器 但促成信息巨大增长的不仅是人类,还有一种称为机器对机器(M2M机器对机器)的通信,其在创建大量数据方面的价值也非常重要。安装在集装箱中的数字传感器用于确定包裹交付过程中生成的路线,并将该信息发送给运输公司,电表中的传感器定期确定能源消耗,以便将该信息发送给能源公司部门等 根据IBM的一份报告,预计汽车、交通、工业、服务、商业等不同领域有超过3000万个互连传感器。并且这个数字预计每年以30%的速度增长。 总而言之,据估计,人类历史上 90% 的信息都是在过去两年中创建的。信息爆炸带来了一系列技术挑战以及新的商业可能性。 认识三个“Ves” 从纯粹的技术角度来看,大数据被称为超出主要基于关系数据库的传统技术能力的信息系统。 需要新技术的信息的特点主要有3个:容量、速度和多样性。我们可以在其他文本中找到这个定义中添加的新“V”(例如价值、真实性、可变性……),但在技术层面,原来的 3 个 V 才是重要的: Volume:指要管理的数据集的大小。当前,处理千兆字节或太字节规模的数据量是很常见的,因此内存存储技术不可行。 速度:不仅指新数据产生的频率高,还指需要实时响应信息。 多样性:指所管理信息的 电报数据库 多样性。我们来自完全适合关系模型的结构化信息,但现在我们发现自己面对的是半结构化和非结构化信息(视频、音频、图像、社交网络等),需要新的持久化和协商方法。 大数据技术革命诞生于工业界,以应对3V带来的问题。 谷歌、雅虎、Twitter、Facebook或Linkedin等公司创造了创新技术来满足他们前所未有的需求。开源社区完成了剩下的工作。他负责为任何公司或用户发展和民主化此类技术的使用。具有开创性的是:最尖端技术的潜力并不在于支付昂贵的许可证费用。 利用数据的价值 我们讨论了由著名的3V衍生出来的大数据系统的技术问题和解决方案。看来大数据问题是一个工程问题。这也是一个科学问题吗?它从哪里进入数据科学的概念?为了回答这个问题,我们必须在等式中包含 4 V:值。如果我们不能为我们的利益实现额外的价值,那么处理更多的信息、不同性质的信息或者更快地处理信息是没有意义的。这就是数据分析流程发挥作用的地方。
|
|