He probado el contenedor de Apache Zeppelin y tiene muchas cosas, eso significa tambien muchas cosas que configurar. Jupyter Notebook es simple pero eficiente, es un ide que a mi me encanta asi que es el que voy a usar para conectarme a mi cluster de spark. Despues de probar alguno que habia por ahi ninguno me dejo del todo contento por lo que me cree una imagen que cumpla mis expectativas y ya de paso la comparto con la comunidad.
Solo teneis que bajar la imagen
docker pull akaronte/jupyter-notebook
y luego poner en marcha el contenedor dejando expuesto el puerto 8888 donde esta jupyter notebook arrancado.
docker run --name jupyter -p 8888:8888 -v /notebook:/notebook -d akaronte/jupyter-notebook
la ruta /notebook es donde se guardaran los notebook.
Ejemplo pyspark:import findspark findspark.init("/opt/spark") import random from pyspark import SparkContext sc = SparkContext(appName="EstimatePi") def inside(p): x, y = random.random(), random.random() return x*x + y*y < 1 NUM_SAMPLES = 1000000 count = sc.parallelize(range(0, NUM_SAMPLES)) \ .filter(inside).count() print("Pi is roughly %f" % (4.0 * count / NUM_SAMPLES)) sc.stop() pi = 4 * count / NUM_SAMPLES print(pi) sc.stop()
0 comentarios