本人对大数据方面也是刚刚研究,由于工作需要在实时查询与统计的性能方面要深入学习。现测试性能如下:
环境:VirtualBox host-only
ubuntu版本: Linux master 4.4.0-47-generic #68-Ubuntu SMP Wed Oct 26 19:39:52 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux
XXX.XXX.XXX.101 master
XXX.XXX.XXX.102 Slave1
XXX.XXX.XXX.103 Slave2
XXX.XXX.XXX.104 Client1
XXX.XXX.XXX.1 HOST 数据库安装于宿主机器内
在master中start-all 成功启动后。slave1与Slave2 Work启动成功。
在Client机器中启动 spark-shell --master spark://master:7077 --jars ../lib/ojdbc6.jar 启动成功 执行下面的指令
val url = "jdbc:oracle:thin:@XXX.XXX.XXX.1:1521:orcl" val tableName = "mytables" val prop = new java.util.Properties prop.setProperty("user","test") prop.setProperty("password","test")
prop.setProperty("driver","oracle.jdbc.driver.OracleDriver")
val predicates = Array( "2013-01-01" -> "2014-01-01", "2014-01-01" -> "2015-01-01", "2015-01-01" -> "2016-01-01",
"2016-01-01" -> "2017-01-01" ).map { case (start, end) => s" indbtime>= to_date('$start','yyyy-mm-dd') " + s" AND indbtime<= to_date( '$end','yyyy-mm-dd')" }
val jdbcDF = sqlContext.read.jdbc(url,tableName,predicates,prop)
scala> jdbcDF.count()
16/11/29 17:19:49 INFO DAGScheduler: Job 0 finished: count at <console>:30, took 41.144126 s
res4: Long = 1441039
结论:
1441039的数据耗时要41秒,而在数据库里直接用select count(*) from tables ,不到一秒就返回结果。
我知道集群的spark应该会比单机的oracle功能更强大,请高手指点,哪儿出的问题?
对数据库表里上亿条的数据各种组合条件与统计字段交叉,要求10秒内返回结果,请问大牛们,如何实现??
大数据初学,问题有些低级,望专业人士不要见笑。
环境:VirtualBox host-only
ubuntu版本: Linux master 4.4.0-47-generic #68-Ubuntu SMP Wed Oct 26 19:39:52 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux
XXX.XXX.XXX.101 master
XXX.XXX.XXX.102 Slave1
XXX.XXX.XXX.103 Slave2
XXX.XXX.XXX.104 Client1
XXX.XXX.XXX.1 HOST 数据库安装于宿主机器内
在master中start-all 成功启动后。slave1与Slave2 Work启动成功。
在Client机器中启动 spark-shell --master spark://master:7077 --jars ../lib/ojdbc6.jar 启动成功 执行下面的指令
val url = "jdbc:oracle:thin:@XXX.XXX.XXX.1:1521:orcl" val tableName = "mytables" val prop = new java.util.Properties prop.setProperty("user","test") prop.setProperty("password","test")
prop.setProperty("driver","oracle.jdbc.driver.OracleDriver")
val predicates = Array( "2013-01-01" -> "2014-01-01", "2014-01-01" -> "2015-01-01", "2015-01-01" -> "2016-01-01",
"2016-01-01" -> "2017-01-01" ).map { case (start, end) => s" indbtime>= to_date('$start','yyyy-mm-dd') " + s" AND indbtime<= to_date( '$end','yyyy-mm-dd')" }
val jdbcDF = sqlContext.read.jdbc(url,tableName,predicates,prop)
scala> jdbcDF.count()
16/11/29 17:19:49 INFO DAGScheduler: Job 0 finished: count at <console>:30, took 41.144126 s
res4: Long = 1441039
结论:
1441039的数据耗时要41秒,而在数据库里直接用select count(*) from tables ,不到一秒就返回结果。
我知道集群的spark应该会比单机的oracle功能更强大,请高手指点,哪儿出的问题?
对数据库表里上亿条的数据各种组合条件与统计字段交叉,要求10秒内返回结果,请问大牛们,如何实现??
大数据初学,问题有些低级,望专业人士不要见笑。
解决方案 »
- 关于Swift的问题
- OpenStack会在中国火起来么?
- 云计算市场现状及未来如何?
- openstack中是否有个context机制怎么存在跟实现?
- 请问Virtual PC之间是怎么访问的呢
- 请教大家一个问题, ifconfig 命令改网卡的ip地址后,能否通知改arp缓存?
- 什么设备分离 ,就是加入MS系统 网卡被手贱禁用了。设备分离在那个菜单可以调出来?
- spark配置worker节点数量
- 大佬们,我的HADOOP一直报错,我把调试信息发出来,求大佬们帮我看看我到底是哪里出问题了!!!跪谢
- 【华为云】7天玩转DevOps实战营免费招募启动!7天晋升DevOps大师!
- docker-compose 重新构建容器错误
- 国产服务器虚拟化软件比较好的有哪些?
要提升效率当然是把JDBC的数据通过sqoop等工具导入到HDFS中,最常用的是OCR或者PARQUET文件格式。然后Spark读取,再进行查询就很快了
df.write.parquet("hdfs://xxxxxx")
不过太蠢了,建议还是用sqoop,功能更强大
df.write.parquet("hdfs://xxxxxx")
不过太蠢了,建议还是用sqoop,功能更强大你好,首先谢谢你的建议,但我又进行测试,代码如下。
System.out.println("0>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> jdbcDF = spark.read().format("jdbc")
.option("url", "jdbc:oracle:thin:@192.168.56.1:1521:orcl")
.option("dbtable", "testTable")
.option("user", "test")
.option("password", "test")
.option("driver", "oracle.jdbc.driver.OracleDriver")
.load();
jdbcDF.select("testcol", "testcol1").orderBy("testcol").write().parquet("hdfs://master:9000/test.parquet");
System.out.println("1>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> parquetFileDF = spark.read().parquet("hdfs://master:9000/test.parquet");
System.out.println("2>>>>>>>>>>>>>>>" + Util.toStr(null));
parquetFileDF.createOrReplaceTempView("parquetFile");
String sql = "SELECT testcol,count(*) c FROM parquetFile group by testcol order by c desc";
System.out.println("sql:"+ sql);
Dataset<Row> namesDF = spark.sql(sql);
System.out.println("3>>>>>>>>>>>>>>>" + Util.toStr(null));
System.out.println("4>>>>>>>>>>>>>>>" + Util.toStr(null));
namesDF.show();
System.out.println("5>>>>>>>>>>>>>>>" + Util.toStr(null));结果发现,把parquet读出到运算得出结果大约7秒左右,比oracle运行速度稍慢一点点。
我的spark用的是三台linux虚拟机,一台master,两台worker。请问有没有更好的方法,进一步提高效率?秒级的响应速度 。我用的测试数据是百万级别。
df.write.parquet("hdfs://xxxxxx")
不过太蠢了,建议还是用sqoop,功能更强大你好,首先谢谢你的建议,但我又进行测试,代码如下。
System.out.println("0>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> jdbcDF = spark.read().format("jdbc")
.option("url", "jdbc:oracle:thin:@192.168.56.1:1521:orcl")
.option("dbtable", "testTable")
.option("user", "test")
.option("password", "test")
.option("driver", "oracle.jdbc.driver.OracleDriver")
.load();
jdbcDF.select("testcol", "testcol1").orderBy("testcol").write().parquet("hdfs://master:9000/test.parquet");
System.out.println("1>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> parquetFileDF = spark.read().parquet("hdfs://master:9000/test.parquet");
System.out.println("2>>>>>>>>>>>>>>>" + Util.toStr(null));
parquetFileDF.createOrReplaceTempView("parquetFile");
String sql = "SELECT testcol,count(*) c FROM parquetFile group by testcol order by c desc";
System.out.println("sql:"+ sql);
Dataset<Row> namesDF = spark.sql(sql);
System.out.println("3>>>>>>>>>>>>>>>" + Util.toStr(null));
System.out.println("4>>>>>>>>>>>>>>>" + Util.toStr(null));
namesDF.show();
System.out.println("5>>>>>>>>>>>>>>>" + Util.toStr(null));结果发现,把parquet读出到运算得出结果大约7秒左右,比oracle运行速度稍慢一点点。
我的spark用的是三台linux虚拟机,一台master,两台worker。请问有没有更好的方法,进一步提高效率?秒级的响应速度 。我用的测试数据是百万级别。
首先group by count不要作为性能评估依据其次你用SparkSQL就是要用UDF/UDAF以及要跑很久的复杂查询,否则你直接JDBC查Oracle算了最后3台虚拟机给个眼神你自己体会
df.write.parquet("hdfs://xxxxxx")
不过太蠢了,建议还是用sqoop,功能更强大你好,首先谢谢你的建议,但我又进行测试,代码如下。
System.out.println("0>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> jdbcDF = spark.read().format("jdbc")
.option("url", "jdbc:oracle:thin:@192.168.56.1:1521:orcl")
.option("dbtable", "testTable")
.option("user", "test")
.option("password", "test")
.option("driver", "oracle.jdbc.driver.OracleDriver")
.load();
jdbcDF.select("testcol", "testcol1").orderBy("testcol").write().parquet("hdfs://master:9000/test.parquet");
System.out.println("1>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> parquetFileDF = spark.read().parquet("hdfs://master:9000/test.parquet");
System.out.println("2>>>>>>>>>>>>>>>" + Util.toStr(null));
parquetFileDF.createOrReplaceTempView("parquetFile");
String sql = "SELECT testcol,count(*) c FROM parquetFile group by testcol order by c desc";
System.out.println("sql:"+ sql);
Dataset<Row> namesDF = spark.sql(sql);
System.out.println("3>>>>>>>>>>>>>>>" + Util.toStr(null));
System.out.println("4>>>>>>>>>>>>>>>" + Util.toStr(null));
namesDF.show();
System.out.println("5>>>>>>>>>>>>>>>" + Util.toStr(null));结果发现,把parquet读出到运算得出结果大约7秒左右,比oracle运行速度稍慢一点点。
我的spark用的是三台linux虚拟机,一台master,两台worker。请问有没有更好的方法,进一步提高效率?秒级的响应速度 。我用的测试数据是百万级别。
首先group by count不要作为性能评估依据其次你用SparkSQL就是要用UDF/UDAF以及要跑很久的复杂查询,否则你直接JDBC查Oracle算了最后3台虚拟机给个眼神你自己体会
你好,还要继续请教。现在客户数据库单张表内有5000万打的数据,每条数据大约100个字段,要求各种组合条件与分组统计的结果,要在10秒以内得出。请问,用大数据的什么方案可以完美解决此需求。现在我的问题主要是没有思路。
df.write.parquet("hdfs://xxxxxx")
不过太蠢了,建议还是用sqoop,功能更强大你好,首先谢谢你的建议,但我又进行测试,代码如下。
System.out.println("0>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> jdbcDF = spark.read().format("jdbc")
.option("url", "jdbc:oracle:thin:@192.168.56.1:1521:orcl")
.option("dbtable", "testTable")
.option("user", "test")
.option("password", "test")
.option("driver", "oracle.jdbc.driver.OracleDriver")
.load();
jdbcDF.select("testcol", "testcol1").orderBy("testcol").write().parquet("hdfs://master:9000/test.parquet");
System.out.println("1>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> parquetFileDF = spark.read().parquet("hdfs://master:9000/test.parquet");
System.out.println("2>>>>>>>>>>>>>>>" + Util.toStr(null));
parquetFileDF.createOrReplaceTempView("parquetFile");
String sql = "SELECT testcol,count(*) c FROM parquetFile group by testcol order by c desc";
System.out.println("sql:"+ sql);
Dataset<Row> namesDF = spark.sql(sql);
System.out.println("3>>>>>>>>>>>>>>>" + Util.toStr(null));
System.out.println("4>>>>>>>>>>>>>>>" + Util.toStr(null));
namesDF.show();
System.out.println("5>>>>>>>>>>>>>>>" + Util.toStr(null));结果发现,把parquet读出到运算得出结果大约7秒左右,比oracle运行速度稍慢一点点。
我的spark用的是三台linux虚拟机,一台master,两台worker。请问有没有更好的方法,进一步提高效率?秒级的响应速度 。我用的测试数据是百万级别。
首先group by count不要作为性能评估依据其次你用SparkSQL就是要用UDF/UDAF以及要跑很久的复杂查询,否则你直接JDBC查Oracle算了最后3台虚拟机给个眼神你自己体会
你好,还要继续请教。现在客户数据库单张表内有5000万打的数据,每条数据大约100个字段,要求各种组合条件与分组统计的结果,要在10秒以内得出。请问,用大数据的什么方案可以完美解决此需求。现在我的问题主要是没有思路。
SparkSQL去做没有问题,但是影响性能的首先肯定是集群硬件,其次是SQL的性能优化3台虚拟机10秒内完成5kw数据的聚合查询,可能有点吃紧。另外你可以看看其他的SQL on Hadoop。impala据称是可以做到毫秒级的响应,靠的是数据的预聚合
已经放到HDFS系统里了。
df.write.parquet("hdfs://xxxxxx")
不过太蠢了,建议还是用sqoop,功能更强大你好,首先谢谢你的建议,但我又进行测试,代码如下。
System.out.println("0>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> jdbcDF = spark.read().format("jdbc")
.option("url", "jdbc:oracle:thin:@192.168.56.1:1521:orcl")
.option("dbtable", "testTable")
.option("user", "test")
.option("password", "test")
.option("driver", "oracle.jdbc.driver.OracleDriver")
.load();
jdbcDF.select("testcol", "testcol1").orderBy("testcol").write().parquet("hdfs://master:9000/test.parquet");
System.out.println("1>>>>>>>>>>>>>>>" + Util.toStr(null));
Dataset<Row> parquetFileDF = spark.read().parquet("hdfs://master:9000/test.parquet");
System.out.println("2>>>>>>>>>>>>>>>" + Util.toStr(null));
parquetFileDF.createOrReplaceTempView("parquetFile");
String sql = "SELECT testcol,count(*) c FROM parquetFile group by testcol order by c desc";
System.out.println("sql:"+ sql);
Dataset<Row> namesDF = spark.sql(sql);
System.out.println("3>>>>>>>>>>>>>>>" + Util.toStr(null));
System.out.println("4>>>>>>>>>>>>>>>" + Util.toStr(null));
namesDF.show();
System.out.println("5>>>>>>>>>>>>>>>" + Util.toStr(null));结果发现,把parquet读出到运算得出结果大约7秒左右,比oracle运行速度稍慢一点点。
我的spark用的是三台linux虚拟机,一台master,两台worker。请问有没有更好的方法,进一步提高效率?秒级的响应速度 。我用的测试数据是百万级别。
首先group by count不要作为性能评估依据其次你用SparkSQL就是要用UDF/UDAF以及要跑很久的复杂查询,否则你直接JDBC查Oracle算了最后3台虚拟机给个眼神你自己体会
你好,还要继续请教。现在客户数据库单张表内有5000万打的数据,每条数据大约100个字段,要求各种组合条件与分组统计的结果,要在10秒以内得出。请问,用大数据的什么方案可以完美解决此需求。现在我的问题主要是没有思路。
SparkSQL去做没有问题,但是影响性能的首先肯定是集群硬件,其次是SQL的性能优化3台虚拟机10秒内完成5kw数据的聚合查询,可能有点吃紧。另外你可以看看其他的SQL on Hadoop。impala据称是可以做到毫秒级的响应,靠的是数据的预聚合
看样我需要研究impala了。
我来终结此贴百万级别根本不是spark擅长的 不到千万的级别oracle足够了 虚拟机搭建spark集群毫无意义,反而比单机能慢百万级别的数据如果oracle费力,还不如用greenplum.5000w 数据 多维度聚合 最好的方式就是做cube.cube结果以grouping__id作为位图索引 存在oracle就好