He probado el contenedor de Apache Zeppelin y tiene muchas cosas, eso significa tambien muchas cosas que configurar. Jupyter Notebook es simple pero eficiente, es un ide que a mi me encanta asi que es el que voy a usar para conectarme a mi cluster de spark. Despues de probar alguno que habia por ahi ninguno me dejo del todo contento por lo que me cree una imagen que cumpla mis expectativas y ya de paso la comparto con la comunidad.
Solo teneis que bajar la imagen
docker pull akaronte/jupyter-notebook
y luego poner en marcha el contenedor dejando expuesto el puerto 8888 donde esta jupyter notebook arrancado.
docker run --name jupyter -p 8888:8888 -v /notebook:/notebook -d akaronte/jupyter-notebook
la ruta /notebook es donde se guardaran los notebook.
import findspark
findspark.init("/opt/spark")
import random
from pyspark import SparkContext
sc = SparkContext(appName="EstimatePi")
def inside(p):
x, y = random.random(), random.random()
return x*x + y*y < 1
NUM_SAMPLES = 1000000
count = sc.parallelize(range(0, NUM_SAMPLES)) \
.filter(inside).count()
print("Pi is roughly %f" % (4.0 * count / NUM_SAMPLES))
sc.stop()
pi = 4 * count / NUM_SAMPLES
print(pi)
sc.stop()
0 comentarios