- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一零二四、pyspark在jupyter中的完美运行

托马斯-酷涛发表于 2022/08/31 00:28:24 2022/08/31

【摘要】 1、配置环境变量（1）JAVA_HOME （2）SPARK_HOME （3）HADOOP_HOME 2、安装pyspark包注意此处默认安装的是最新的pyspark包，最新的跑不起来，换为2.3.2 即可使用 org.apache.spark.api.python.PythonUtils.isEncryptio...

1、配置环境变量

（1）JAVA_HOME

（2）SPARK_HOME

（3）HADOOP_HOME

2、安装pyspark包

注意此处默认安装的是最新的pyspark包，最新的跑不起来，换为2.3.2 即可使用

org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does not exist in the JVM

这个报错即需要将 pyspark 版本降为 2.3.2 完美运行

pip install pyspark==2.3.2

最好加上镜像源，会快很多

https://blog.csdn.net/m0_54925305/article/details/126596822?spm=1001.2014.3001.5501

3、初始化找到spark环境

py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does not exist in the JVM


  
   
    
     
    
    
     
      import findspark
     
    
   
    
     
    
    
     
      findspark.init()

当然需要：(最好加上镜像源，会快很多)

pip install findspark

4、运行代码


  
   
    
     
    
    
     
      import findspark
     
    
   
    
     
    
    
     
      findspark.init()
     
    
   
    
     
    
    
     
      from pyspark import SparkConf, SparkContext 
     
    
   
    
     
    
    
     
      ## 配置spark
     
    
   
    
     
    
    
     
      sc.stop() #多次运行需要先停止再重新运行
     
    
   
    
     
    
    
     
      sparkConf = SparkConf().setMaster("local[6]").setAppName("My App") #"spark://node1:7077"为主节点master的地址
     
    
   
    
     
    
    
     
      sc = SparkContext(conf=sparkConf)
     
    
   
    
     
    
    
     
      file = sc.textFile("E:\Python大数据分析程序\share\stu_Score.csv")
     
    
   
    
     
    
    
     
      file.collect()

可以随便找个数据读一下看看

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by <module> at /usr/local/spark/python/pyspark/shell.py:59

出现这个错误是因为之前已经启动了SparkContext，所以需要先关闭spark，然后再启动。

也就是前面写的sc.stop()

步骤总结：

1、配置环境变量

2、安装pyspark包（2.3.2）

3、安装findspark包并在程序中加入 import findspark findspark.init() 这两行代码

4、运行程序

文章来源: tuomasi.blog.csdn.net，作者：托马斯-酷涛，版权归原作者所有，如需转载，请联系作者。

原文链接：tuomasi.blog.csdn.net/article/details/126598019

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一零二四、pyspark在jupyter中的完美运行

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

一零二四、pyspark在jupyter中的完美运行

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品