codecamp

阿帕奇水槽简介

什么是水槽?

阿帕奇水槽是用于收集聚集和输送大量流数据的例如日志文件,事件(等)从各种源到集中式数据存储的工具/服务/数据摄取机制。

水槽是高度可靠的,分布式的和可配置的工具。其主要目的是从不同的Web服务器流数据(日志数据)复制到HDFS。

Apache的水槽

水槽中的应用

假设一个电子商务Web应用程序想从一个特定区域分析客户的行为。这样做,他们将需要在到Hadoop的移动可用日志数据进行分析。在这里,阿帕奇水槽来拯救我们。

水槽是用于由应用服务器生成的日志数据移动到HDFS以更高的速度。

水槽的优点

下面是使用水槽的优点 -

  • 使用Apache水槽我们可以存储在任一集中存储(HBase的,HDFS)的数据。

  • 当输入数据的速率超过了数据可以被写入到目标的速度,水槽充当数据生产者和集中商店之间的中介,并提供它们之间的稳定的数据流。

  • 水槽提供上下文路由的功能。

  • 其中,两笔交易(一个发送器和一个接收器)保持每封邮件中的水槽交易是基于信道。它保证了可靠的消息传递。

  • 水槽是可靠的,容错,可扩展,可管理和可定制的。

水槽的特点

是一些水槽的显着特点如下 -

  • 水槽摄取来自多个Web服务器的数据登录到集中存储(HDFS,HBase的)有效。

  • 用水槽,我们可以从多台服务器上的数据马上进入Hadoop的。

  • 随着日志文件,水槽也被用来导入由社交网站如Facebook和Twitter,以及电子商务网站如亚马逊和Flipkart活动产生的海量数据。

  • 水槽支持大量的源和目标类型。

  • 水槽支持Multi-hop流动,扇入扇出流,上下文路径等。

  • 水槽可以水平扩展。


Apache的水槽数据传输在Hadoop中
温馨提示
下载编程狮App,免费阅读超1000+编程语言教程
取消
确定
目录

关闭

MIP.setData({ 'pageTheme' : getCookie('pageTheme') || {'day':true, 'night':false}, 'pageFontSize' : getCookie('pageFontSize') || 20 }); MIP.watch('pageTheme', function(newValue){ setCookie('pageTheme', JSON.stringify(newValue)) }); MIP.watch('pageFontSize', function(newValue){ setCookie('pageFontSize', newValue) }); function setCookie(name, value){ var days = 1; var exp = new Date(); exp.setTime(exp.getTime() + days*24*60*60*1000); document.cookie = name + '=' + value + ';expires=' + exp.toUTCString(); } function getCookie(name){ var reg = new RegExp('(^| )' + name + '=([^;]*)(;|$)'); return document.cookie.match(reg) ? JSON.parse(document.cookie.match(reg)[2]) : null; }