新闻动态大文件传输

大数据存在于各行各业,一个大数据时代正在到来
以互联网为代表的“信息高速公路” 计划发展20年来,人、机、物三元世界高度融合,颠覆了人类的生产生活方式,引发了数据规模的爆炸式增长。 邬贺铨院士在《求是》杂志的载文中指出,1998年全球网民平均每月使用流量是1 MB,2000年是10 MB,2003年是100 MB,2008年是1 GB(1 GB等于1 024 MB),2014年预计达到10 GB。全网流量累计达到1 EB(即1 024 PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而在2013年仅需一天。我国网民数居世界之首,每天产生的数据量也位于世界前列。总之,大数据存在于各行各业,一个大数据时代正在到来。 据预测,未来10年全球数据将增加50倍,对数据进行处理分析的服务器数量将增加10倍。对海量数据进行存储、处理和传输,对网络基础设施提出了前所未有的高要求。据预测,未来几年内,数据中心之间的流量将以每年34%的速度增长,到2015年达到1 ZB。 在网络基础设施的建设中,数据中心之间网络的成本占主导地位。增加网络节点交换容量,提高网络资源利用效率成为大数据时代网络技术面临的最大挑战。一个典型的例子,是作为世界上最大的基因研究所华大基因(BGI),目前仍然依赖传统邮寄的方式,而不是网络传输的方式来传递数据。这是因为目前的网络体制是从电信时代建立起来的,无法提供大数据时代的大容量高效传输,成为大数据应用快速发展的一个瓶颈。 在数据量爆炸式增长的同时,由数据交换和文件传输所造成的能源消耗也在不断增加。据统计,2006年仅在美国,数据中心中网络设备一年所消耗的电能为30亿千瓦,并且这个数字在快速地攀升。 到2010年,数据中心所消耗的电能占全球总电能消耗的1.3%,在美国,这个数字为2%。在电交换方式下,如果接口速率从目前的10 Gbit/s 升级到40 Gbit/s,则网络节点接口和交换矩阵能耗将在目前的基础上翻番。 以电分组交换(IP)为基础的网络技术从能耗上来说缺乏大规模扩展的可能性,难以满足大数据时代数据中心内部和数据中心之间的交换和传输的需要,而依靠光电路交换技术来提供大数据流的动态弹性大管道,与IP一起构成跨层的联合交换体制,使大量的小数据流尽可能用IP处理,少量的大数据块尽可能用光交换处理,这样才有可能将数据流的传输能耗降下来。
2021-04-16
大数据时代数据流的传输特征和网络发展机遇
研究表明,大数据时代网络数据流的分布出现了新的特征,少量的巨块数据消耗了大部分网络带宽,如同“寡头”侵占了大量资源。在一个典型的数据中心网络中,以交互性强的信息为主的短流(数KB,称为老鼠流)数量上占90%以上,但流量上却不足10%。长流(100 MB~1 GB,称为大象流)在数量上只占10 %以下,但流量上却占90 %以上,并且其中大部分100 MB左右的数据流是由大文件切割而来的,实际的数据流达到GB级甚至TB级之巨,相当于大数据“寡头”,数据流的两极分化在快速拉大。 显然,利用现有的方式将占主体的大象流打包并进行逐跳(per-hop)处理,网络数据的传输效率必然十分低下,相应的能源消耗也非常高,与可持续发展策略相违背。与此同时,大象流和老鼠流之间的资源竞争,也使得在网络瓶颈链路上老鼠流难以获得足够的带宽,各种丰富多样的交互式应用的体验难以得到保证。 另一方面,以基因研究、脑科学、高能物理、大科学计算和数据中心之间数据同步等为代表的海量数据传输需求,都有一个共同的特征,就是对数据整体的递送时延要求较为宽松,如图2所示。此类数据通常不要求传输开始的时间,但要求全部数据流最后送达的时间,并且要求整个数据块的完整性 。这与网页浏览、电子邮件、微博微信、电子商务、即时消息/音视频等应用要求数据被实时、即时递送形成了鲜明对比。例如,由欧洲大型粒子对撞机产生的27 TB的数据,需要以天为单位分发到分布于欧洲、亚洲和北美的相关研究机构中。多个数据中心之间同步和备份的流量,绝大部分来自对时延不太敏感的背景业务。显然,将这些对递送时延不太敏感的海量数据按照传统的方式推送到目前的网络中,与对时延敏感的交互性应用争抢网络资源,一方面会极大地影响交互式应用的体验,另一方面对大数据应用本身也帮助有限,还会降低网络的稳定性和可靠性. 大数据流的以上新特征要求网络在能够处理传统短小数据流的同时,用更为简化的网络层次结构,综合利用网络中的交换、传输、存储资源,有序、批量、整体地移动巨块数据。这样才可能提高网络资源利用效率,同时降低能耗。简而言之,深入分析大数据流巨块和时延不敏感的显著特征,为探索新型的传输机制提供了机遇。
2021-04-16

关注云语科技

wechat qrcode

微信扫一扫,获取最新资讯