新闻动态大文件传输

大数据时代数据流的传输特征和网络发展机遇

大数据时代数据流的传输特征和网络发展机遇

研究表明,大数据时代网络数据流的分布出现了新的特征,少量的巨块数据消耗了大部分网络带宽,如同“寡头”侵占了大量资源。在一个典型的数据中心网络中,以交互性强的信息为主的短流(数KB,称为老鼠流)数量上占90%以上,但流量上却不足10%。长流(100 MB~1 GB,称为大象流)在数量上只占10 %以下,但流量上却占90 %以上,并且其中大部分100 MB左右的数据流是由大文件切割而来的,实际的数据流达到GB级甚至TB级之巨,相当于大数据“寡头”,数据流的两极分化在快速拉大。

显然,利用现有的方式将占主体的大象流打包并进行逐跳(per-hop)处理,网络数据的传输效率必然十分低下,相应的能源消耗也非常高,与可持续发展策略相违背。与此同时,大象流和老鼠流之间的资源竞争,也使得在网络瓶颈链路上老鼠流难以获得足够的带宽,各种丰富多样的交互式应用的体验难以得到保证。

另一方面,以基因研究、脑科学、高能物理、大科学计算和数据中心之间数据同步等为代表的海量数据传输需求,都有一个共同的特征,就是对数据整体的递送时延要求较为宽松,如图2所示。此类数据通常不要求传输开始的时间,但要求全部数据流最后送达的时间,并且要求整个数据块的完整性

。这与网页浏览、电子邮件、微博微信、电子商务、即时消息/音视频等应用要求数据被实时、即时递送形成了鲜明对比。例如,由欧洲大型粒子对撞机产生的27 TB的数据,需要以天为单位分发到分布于欧洲、亚洲和北美的相关研究机构中。多个数据中心之间同步和备份的流量,绝大部分来自对时延不太敏感的背景业务。显然,将这些对递送时延不太敏感的海量数据按照传统的方式推送到目前的网络中,与对时延敏感的交互性应用争抢网络资源,一方面会极大地影响交互式应用的体验,另一方面对大数据应用本身也帮助有限,还会降低网络的稳定性和可靠性.

大数据流的以上新特征要求网络在能够处理传统短小数据流的同时,用更为简化的网络层次结构,综合利用网络中的交换、传输、存储资源,有序、批量、整体地移动巨块数据。这样才可能提高网络资源利用效率,同时降低能耗。简而言之,深入分析大数据流巨块和时延不敏感的显著特征,为探索新型的传输机制提供了机遇。

上一篇:大数据存在于各行各业,一个大数据时代正在到来

下一篇:有哪些好用又简单的文件传输软件?

关注云语科技

wechat qrcode

微信扫一扫,获取最新资讯