本次主题:《企业中的海量数据处理》  主要有三个主讲,如图:  分享淘宝iData技术嘉年华的几点感触  主讲内容  第一场:主讲HBase  之前为了听讲座自己专门到网上百度了一下HBase的一点知识,具体自己没有使用过,在这里简单的说一下Hbase:  HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。  它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。  主讲内容:林昊首先介绍了淘宝在使用HBase遇到的一些问题和bug,自己没有使用过,所以印象也不深,接下来就是一些建议和总结了;  关于使用HBSASE的使用场景建议:  HBase技术现在相当于1.0版本之前的关系型数据库(HBase技术还处于一个较弱的技术阶段,相对应比较成熟的关系型数据库技术还是有许多不足)。  瞬间写入量很大的作业(业务侧重写操作的作业)。  数据量需要长久保存且持续增长的场景(例如淘宝的数据需要保存十年,hbase可以很容易的在廉价的pc 服务器上搭建集群,在淘宝上的应用是买家三个月之前的订单信息,就是使用HBASE技术)。  淘宝总结的HBSASE经验:  合理设计rowKey(有很多问题通过合理的设计rowkey可以避免)。  数据备份和恢复机制(HBASE有个bug,很容易造成数据丢失,最新版本可能解决这个问题)。  关闭split 同时region数量也不要太多。  最后说了一下在HBASE技术在行业的应用和发展趋势;排名前十的网站,大概除了谷歌,百度,腾讯(未知)基本上都使用了HBASE技术,而且hbase技术在国外很火,相信国内的这个hbase技术也会热起来。  PS:第二场主讲的信息量很大,基本上没有听懂,自己也没有什么印象。  第三场:主讲网易的大型架构。  汪院长在主讲的时候很谦虚的说:自己的数据量没有淘宝大,没有使用hbase。  网易架构和数据处理分享:  底层的pc Server都是使用低价的服务器。  websever使用了nginx做反向代理,web缓存好像是squid(这个没有听清)。  数据库是mysql,不过网易自己搞了一个数据库引擎(在讲解的时候也有一个对比:这个引擎相对应mysql InnoDB引擎是他的十倍,是mencache+mysql的三四倍)。  memcache网易也是使用的,在一定程度上缓解数据库压力。  关于NOsql,网易还是习惯使用比较成熟的关系型数据库,对nosql的数据库使用的不是很多,汪院长也解释到网易现在使用Tokyo Cabinet,主要是insert的效率很高,每秒可以达到数万级别的插入,但是update的操作很差,目前没有使用比较流行的mongodb。  题外话  淘宝的讲座主要还是新技术的使用,相对应网易,整体感觉网易的讲座,没有太多的新型应用,不过把现有的资源和技术发挥到极致其实也很牛逼,把这两家企业的讲座对比起来确实很有意思。  个人对两家讲座的感觉:  淘宝很有创新精神,喜欢新技术。  网易很保守,善于把现有技术做透。  ps:这里顺便说一下两家公司的创始人给我的印象:  马云:很激情,很能侃,大学的时候经常看赢在中国,印象很深,马云也经常跑到高校演讲,被誉为创业教父,很能侃也很能感染人不愧是教师出身(虽然哥哥我也是师范专业,但是这点哥哥我自愧不如,只能到博客园写篇博客,供大家哈哈一笑)  丁磊:沉稳低调,很少看到丁磊在公开场合做演讲,虽然丁磊曾经拿过一个中国首富,估计大家对着首富印象也不是很深,太低调太沉稳了,很是网易的风格,求稳慢性子,丁磊是搞程序出身,这个点体现的很突出  总结:  公司的创始人确实很能影响整个公司的发展趋势,如马云激情,淘宝在新技术上的创新,是一家高调做事的公司,丁磊低调,网易在技术上的以现有技术为主,另外还有一点:网易虽然排不上中国互联网前三强,但是要论收入的话,网易绝对是前三,是一家埋头挣钱的公司。  BTY:找工作的时候也需要看老板,公司老板在一定程度上影响这个公司发展趋势和风格  2.关于新技术,老技术的看法:新技术是一种趋势,需要大家去推动,同样现有的成熟技术也不能忽略,也需要大家做深做透,不可一味的求新,现有的成熟技术也很重要,具体是采用哪种技术,需要根据目前的项目来评估,切忌为了采取新技术而采取新技术。
转自http://tech.it168.com/a2011/1128/1279/000001279866.shtml