阿帕奇水槽简介
什么是水槽?
阿帕奇水槽是用于收集聚集和输送大量流数据的例如日志文件,事件(等)从各种源到集中式数据存储的工具/服务/数据摄取机制。
水槽是高度可靠的,分布式的和可配置的工具。其主要目的是从不同的Web服务器流数据(日志数据)复制到HDFS。

水槽中的应用
假设一个电子商务Web应用程序想从一个特定区域分析客户的行为。这样做,他们将需要在到Hadoop的移动可用日志数据进行分析。在这里,阿帕奇水槽来拯救我们。
水槽是用于由应用服务器生成的日志数据移动到HDFS以更高的速度。
水槽的优点
下面是使用水槽的优点 -
使用Apache水槽我们可以存储在任一集中存储(HBase的,HDFS)的数据。
当输入数据的速率超过了数据可以被写入到目标的速度,水槽充当数据生产者和集中商店之间的中介,并提供它们之间的稳定的数据流。
水槽提供上下文路由的功能。
其中,两笔交易(一个发送器和一个接收器)保持每封邮件中的水槽交易是基于信道。它保证了可靠的消息传递。
水槽是可靠的,容错,可扩展,可管理和可定制的。
水槽的特点
是一些水槽的显着特点如下 -
水槽摄取来自多个Web服务器的数据登录到集中存储(HDFS,HBase的)有效。
用水槽,我们可以从多台服务器上的数据马上进入Hadoop的。
随着日志文件,水槽也被用来导入由社交网站如Facebook和Twitter,以及电子商务网站如亚马逊和Flipkart活动产生的海量数据。
水槽支持大量的源和目标类型。
水槽支持Multi-hop流动,扇入扇出流,上下文路径等。
水槽可以水平扩展。