Quickstart: Create Apache Spark cluster in Azure HDInsight using Azure portal

2025-04-12

In this quickstart, you use the Azure portal to create an Apache Spark cluster in Azure HDInsight. Затем мы создадим записную книжку Jupyter Notebook и с ее помощью выполним SQL-запрос Spark к таблицам Apache Hive. Azure HDInsight — это управляемая комплексная служба аналитики с открытым кодом, предназначенная для предприятий. Платформа Apache Spark для HDInsight обеспечивает быструю аналитику данных и кластерные вычисления, используя обработку в памяти. Jupyter Notebook позволяет работать с данными, объединять код с текстом Markdown и выполнять простые визуализации.

Подробные объяснения доступных конфигураций см. в статье об установке кластеров в HDInsight. Дополнительные сведения об использовании портала для создания кластеров см. в статье о создании кластеров на портале.

If you're using multiple clusters together, you may want to create a virtual network; if you're using a Spark cluster may also want to use the Hive Warehouse Connector. См. сведения о планировании виртуальной сети для Azure HDInsight и интеграции Apache Spark и Apache Hive с Hive Warehouse Connector.

Это важно

Billing for HDInsight clusters is prorated per minute, whether you are using them or not. Обязательно удалите кластер, когда завершите его использование. Дополнительные сведения см. в разделе Очистка ресурсов этой статьи.

Предпосылки

Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно .

Создание кластера Apache Spark в HDInsight

You use the Azure portal to create an HDInsight cluster that uses Azure Storage Blobs as the cluster storage. Дополнительные сведения об использовании Data Lake Storage Gen2 см. в статье Краткое руководство по установке кластеров в HDInsight.

Войдите на портал Azure.
В меню сверху выберите + Create a resource (+ Создать ресурс).
Выберите Analytics>Azure HDInsight, чтобы перейти на страницу Создание кластера HDInsight.

На вкладке Основные сведения укажите следующую информацию:

Недвижимость	Описание
Подписка	В раскрывающемся списке выберите подписку Azure, которая используется для кластера.
Группа ресурсов	В раскрывающемся списке выберите существующую группу ресурсов, а затем Создать новую.
Имя кластера	Введите глобально уникальное имя.
Регион	В раскрывающемся списке выберите регион, в котором создается кластер.
Зона доступности	Optional - specify an availability zone in which to deploy your cluster
Тип кластера	Select cluster type to open a list. From the list, select Spark.
Cluster version	This field will auto-populate with the default version once the cluster type has been selected.
Имя пользователя для входа в кластер	Enter the cluster login username. The default name is admin. You use this account to log in to the Jupyter Notebook later in the quickstart.
Пароль для входа в кластер	Enter the cluster login password.
Имя пользователя для Secure Shell (SSH)	Enter the SSH username. The SSH username used for this quickstart is sshuser. By default, this account shares the same password as the Cluster Login username account.

Screenshot shows Create HDInsight cluster with the Basics tab selected.

Select Next: Storage >> to continue to the Storage page.

Under Storage, provide the following values:

Недвижимость	Описание
Тип первичного хранилища	Используйте значение Azure Storage по умолчанию.
Метод выбора	Используйте значение Выбрать в списке по умолчанию.
Primary storage account	Используйте значение, предоставленное автоматически.
Контейнер	Используйте значение, предоставленное автоматически.

Screenshot shows Create HDInsight cluster with the Storage tab selected.

Select Review + create to continue.

Under Review + create, select Create. Процесс создания кластеров занимает около 20 минут. Прежде чем перейти к следующему сеансу, вы должны создать кластер.

Если при создании кластера HDInsight возникают проблемы, возможно, у вас нет необходимых разрешений. Дополнительные сведения см. в разделе Требования к контролю доступа.

Создание записной книжки Jupyter

Jupyter Notebook — это интерактивная среда записной книжки, поддерживающая различные языки программирования. Notebook позволяет работать с данными, объединять код с текстом Markdown и выполнять простые визуализации.

В веб-браузере перейдите на страницу https://CLUSTERNAME.azurehdinsight.net/jupyter, где CLUSTERNAME — это имя вашего кластера. При появлении запроса введите учетные данные для входа в кластер.
Выберите New>PySpark, чтобы создать блокнот.

Будет создана и открыта записная книжка с именем Untitled (Untitled.pynb).

Выполнение инструкций SQL в Apache Spark

SQL — это наиболее распространенный и широко используемый язык для создания запросов и определения данных. Spark SQL работает как расширение Apache Spark для обработки структурированных данных с использованием знакомого синтаксиса SQL.

Убедитесь, что ядро готово. Ядро будет готово, когда в записной книжке появится пустой круг рядом с именем ядра. Solid circle denotes that the kernel is busy.

При первом запуске записной книжки некоторые задачи ядро выполняет в фоновом режиме. Wait for the kernel to be ready.
Вставьте указанный ниже код в пустую ячейку и нажмите сочетание клавиш SHIFT + ВВОД, чтобы выполнить код. Эта команда выводит список таблиц Hive в кластере:
```
%%sql
SHOW TABLES
```
When you use a Jupyter Notebook with your HDInsight cluster, you get a preset sqlContext that you can use to run Hive queries using Spark SQL. %%sql tells Jupyter Notebook to use the preset sqlContext to run the Hive query. Запрос извлекает первые 10 строк из таблицы Hive (hivesampletable), которая по умолчанию входит в состав всех кластеров HDInsight. Для получения результатов может понадобиться около 30 секунд. Выходные данные выглядят следующим образом:

is quickstart." border="true":::

При каждом выполнении запроса в Jupyter в заголовке окна веб-браузера будет отображаться состояние (Занято), а также название записной книжки. Кроме того, рядом с надписью PySpark в верхнем правом углу будет показан сплошной кружок.
Выполните другой запрос, чтобы вывести данные из таблицы hivesampletable.
```
%%sql
SELECT * FROM hivesampletable LIMIT 10
```
Экран обновится, и отобразятся выходные данные запроса.

Insight" border="true":::
В меню Файл на ноутбуке выберите Закрыть и остановить. Shutting down the notebook releases the cluster resources.

Очистка ресурсов

HDInsight сохраняет ваши данные в службе хранилища Azure или Azure Data Lake Storage, что позволяет безопасно удалить неиспользуемый кластер. Плата за кластеры HDInsight взимается, даже когда они не используются. Так как затраты на кластер во много раз превышают затраты на хранилище, экономически целесообразно удалять неиспользуемые кластеры. If you plan to work on the tutorial listed in Next steps immediately, you might want to keep the cluster.

Вернитесь на портал Azure и выберите Удалить.

Azure portal delete an HDInsight cluster. sight cluster" border="true":::

Кроме того, можно выбрать имя группы ресурсов, чтобы открыть страницу группы ресурсов, а затем щелкнуть Удалить группу ресурсов. Вместе с группой ресурсов вы также удалите кластер HDInsight и учетную запись хранения по умолчанию.

Дальнейшие действия

Из этого краткого руководства вы узнали, как создать кластер Apache Spark в HDInsight и выполнить простой SQL-запрос Spark. Из следующего руководства вы узнаете, как с помощью кластера HDInsight выполнять интерактивные запросы, используя для этого пример данных.

Выполнение интерактивных запросов в Apache Spark