Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Примечание.
Эта функция доступна в кластерах, которые выполняют Databricks Runtime 10.0 (EoS) и более поздних версий. Для кластеров, работающих под управлением Databricks Runtime 9.1 LTS и ниже, используйте вместо этого Koalas.
Часто используется специалистами по обработке и анализу данных , pandas — это пакет Python, который предоставляет удобные структуры данных и средства анализа данных для языка программирования Python. Однако pandas плохо масштабируется для работы с большими данными. API Pandas в Spark восполняет этот недостаток, предоставляя API-интерфейсы, эквивалентные Pandas, которые работают в Apache Spark. API Pandas в Spark полезен не только для пользователей Pandas, но и для пользователей PySpark, так как API Pandas в Spark поддерживает множество задач, которые трудно выполнить с помощью PySpark, например построение данных непосредственно из PySpark DataFrame.
Требования
API Pandas для Spark доступно начиная с Apache Spark 3.2 (включено в Databricks Runtime 10.0 (EoS)) с использованием следующего import
оператора:
import pyspark.pandas as ps
Записная книжка
В следующей записной книжке показано, как выполнить миграцию с Pandas на API Pandas в Spark.