Инсталиране бележника jupyter книги в местната околна среда и връзката й hdinsight клъстера лазурно

В тази статия,

В тази статия ще научите как да настроите бележника Jupyter с потребителски ядки PySpark (за Python) и Spark (за Scala) чрез магия командата искра, а след това свържете ноутбука клъстер HDInsight. Има различни причини за създаване Jupyter на локалния компютър, но има някои трудности. За повече информация, вижте. В секцията Защо да Jupyter на компютъра? в края на тази статия.

За да инсталирате Jupyter и магически Spark команди на компютъра ви трябва да се изпълнява три основни стъпки.

Монтаж бележника Jupyter
Инсталирайте PySpark и Spark двигател чрез магически отбор Spark
Регулиране на Spark магия команда за достъп до клъстер Spark в HDInsight

За повече информация относно потребителски ядки и магически команди на искра, на разположение за преносими компютри Jupyter HDInsight в клъстер, виждам. Член ядки на разположение за преносими компютри Jupyter скупчени Apache Spark в HDInsight на платформата Linux.

Предварителни

Това са предпоставките не трябва да се инсталира Jupyter. Те се свързвате книги бележника Jupyter да клъстера след инсталацията HDInsight бележника.

Инсталиране на преносими Jupyter книги на вашия компютър

Преди да инсталирате тетрадки Jupyter трябва да инсталирате Python. Python и Jupyter предлага като част от Anaconda разпределение. При инсталиране на Anaconda инсталиран Python разпределение. След инсталацията Anaconda следвайте съответните инструкции за инсталиране Jupyter.

Изтеглете Anaconda инсталатор за вашата платформа и стартирайте инсталационната програма. В съветника за настройка, изберете опцията за добавяне на Anaconda променлива PATH.

Изпълнете следната команда, за да инсталирате Jupyter.

За повече информация относно инсталирането на Jupyter види. Тук.

Инсталиране на ядра и магия отбор Spark

За инструкции за инсталиране на магия отбор Spark, както и ядрената PySpark и Spark, вижте. В документацията sparkmagic на уебсайта GitHub. За да започнете да използвате магия команда Spark, първо трябва да се зададе. Това - първата стъпка, както е описано в документацията. Замяна на тази стъпка в линка по-горе следните команди на базата на версията на HDInsight на клъстер, към която сте свързани. След това следвайте останалите стъпки, в съответствие с документацията на магия отбор Spark на. За да инсталирате различни ядки трябва да изпълняват стъпка 3 от инструкциите в този раздел, за да инсталирате Spark магия екип.

За Cluster версия 3.4 sparkmagic инсталирате версия 0.2.3, командата PIP инсталирате sparkmagic == 0.2.3

За клъстери версии 3.5 и 3.6 се инсталира sparkmagic версия 0.11.2, командата PIP инсталирате sparkmagic == 0.11.2

Създаване магия Spark команди, за да се свържете към клъстер HDInsight Spark на

В този раздел, можете да конфигурирате връзка магия Spark екип, създаден по-рано, Spark Apache за клъстера, вече сте създали в Azure HDInsight.

Информация за Jupyter конфигурация обикновено се съхраняват в домашната директория на потребителя. За да намерите вашата домашна директория, въведете следните команди (те са подходящи за всяка операционна система платформа).

Започнете черупката Python. В командния ред въведете следната команда:

В Python, Shell, въведете следната команда, за да намерите собствената директория.

Отиди в дома си директория и да се създаде папка с името .sparkmagic. ако това не е така.

В тази папка, да създавате config.json файл и добавете следния фрагмент от JSON код.

Сменете. и съответните стойности. За да създадете парола в кодиране Base64, можете да използвате различни комунални услуги в предпочитания от вас език или инструменти, които са на разположение в Интернет програмиране.

Правилно настроите импулсните параметри в config.json. Тези параметри трябва да бъдат добавени на същото ниво с фрагменти kernel_python_credentials и kernel_scala_credentials. че се прибавят преди. В този пример, config.json файл показва как и къде се добавят импулсните параметри.

За sparkmagic 0.2.3 (клъстери версия 3.4), добавят:

За sparkmagic 0.11.2 (клъстери версии 3.5 и 3.6), добавят:

импулсни сигнали са изпратени да се предотврати изтичане сесии. Когато влиза в режим на заспиване или изключване на компютъра не се изпраща на пулса, което води до почистване сесия. Ако искате да изключите тази поведение до версия 3.4 клъстер, можете да конфигурирате настройките за Ливий livy.server.interactive.heartbeat.timeout 0 чрез потребителски интерфейс Ambari. Ако Cluster версия 3.5 не е подходяща конфигурация, по-горе, сесията няма да бъде изтрита.

Започнете Jupyter. Изпълнете следната команда от командния ред.

Уверете се, че можете да се свържете на клъстера с помощта на преносим компютър и да използвате Jupyter Spark магическа команда с ядра. Следвайте стъпките по-долу.

а. Създаване на нов лаптоп. В горния десен ъгъл кликнете върху Създаване. Трябва да видите ядрото по подразбиране python2 и два нови ядрото, че сте инсталирали: PySpark и Spark. Кликнете PySpark.

Инсталиране бележника jupyter книги в местната околна среда и връзката й hdinsight клъстера лазурно

б. Изпълнете следната кодовия фрагмент.

Ако сте успешно получена на изхода, се свържете с клъстера HDInsight работи.

Ако искате да обновите конфигурацията на преносимия компютър, за да се свържете с друг клъстер, за да промените config.json файл с нов набор от ценности, както е показано в стъпка 3.

Защо да Jupyter на моя компютър?

Може да има няколко причини, поради които трябва да инсталирате на компютъра си Jupyter и го свържете към Spark клъстер в HDInsight.

Въпреки преносими компютри вече са на разположение в Jupyter Spark клъстер в Azure HDInsight, веднъж инсталиран на компютър, можете да създадете тетрадки на местно ниво, тестови приложения, работещи на клъстера и изпращане на преносими компютри на клъстера. За да изпратите тетрадки за клъстера, можете да ги изпратите с помощта на преносим компютър Jupyter, която се изпълнява на клъстер, или да ги запазите в / HdiNotebooks съхранение сметка папка, свързана с клъстера. За повече информация относно поддържането на преносими компютри в клъстер, вижте. Раздел, където се съхраняват преносими компютри.
Използване на наличните местни преносими компютри, можете да се свържете с различни клъстери Spark в зависимост от нуждите на вашето приложение.
Можете да използвате GitHub за прилагане на системата за контролиране на версията за контрол на освобождаването на преносими компютри. Можете също така да се създаде среда за съвместна работа, в която множество потребители ще работят с една тетрадка.
Можете да работите с преносими компютри на място, дори и без клъстера. Cluster само за тестване на преносими компютри, но не се изисква за ръчно управление на преносими компютри или среда за разработка.
Може да ви е по-лесно да се създаде среда, местното развитие, можете да конфигурирате Jupyter инсталация в клъстера. Можете спокойно да използвате софтуер, който се инсталира на местно ниво, без да конфигурирате дистанционно клъстери.

Ако Jupyter инсталирана на локалния компютър, множество потребители могат едновременно да се движат по същия бележника в същия клъстер Spark. В такава ситуация създава множество сесии Ливий. Ако се сблъскате с проблеми, и те започват отстраняване на грешки, ще бъде трудно да се определи коя сесия принадлежи на кой потребител Ливий.