He probado el contenedor de Apache Zeppelin y tiene muchas cosas, eso significa tambien muchas cosas que configurar. Jupyter Notebook es simple pero eficiente, es un ide que a mi me encanta asi que es el que voy a usar para conectarme a mi cluster de spark. Despues de probar alguno que habia por ahi ninguno me dejo del todo contento por lo que me cree una imagen que cumpla mis expectativas y ya de paso la comparto con la comunidad.

Solo teneis que bajar la imagen

docker pull akaronte/jupyter-notebook

y luego poner en marcha el contenedor dejando expuesto el puerto 8888 donde esta jupyter notebook arrancado.

docker run --name jupyter -p 8888:8888 -v /notebook:/notebook -d akaronte/jupyter-notebook

la ruta /notebook es donde se guardaran los notebook.

Ejemplo pyspark:
import findspark
findspark.init("/opt/spark")
import random
from pyspark import SparkContext
sc = SparkContext(appName="EstimatePi")
def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1
NUM_SAMPLES = 1000000
count = sc.parallelize(range(0, NUM_SAMPLES)) \
             .filter(inside).count()
print("Pi is roughly %f" % (4.0 * count / NUM_SAMPLES))
sc.stop()

pi = 4 * count / NUM_SAMPLES
print(pi)

sc.stop()

0 comentarios

Deja una respuesta

Marcador de posición del avatar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *