DatabricksStep Classe

Crée une étape de pipeline Azure ML pour ajouter un notebook DataBricks, un script Python ou un fichier JAR en tant que nœud.

Pour obtenir un exemple d’utilisation de DatabricksStep, consultez le notebook https://aka.ms/pl-databricks.

Créez une étape de pipeline Azure ML pour ajouter un notebook DataBricks, un script Python ou un fichier JAR en tant que nœud.

Pour obtenir un exemple d’utilisation de DatabricksStep, consultez le notebook https://aka.ms/pl-databricks.

:p aram python_script_name :[Obligatoire] Nom d’un script Python relatif à source_directory. Si le script accepte des entrées et des sorties, ceux-ci sont passés au script en tant que paramètres. Si python_script_name elle est spécifiée, source_directory elle doit également être.

Spécifiez exactement l’un des éléments suivants notebook_path: , python_script_pathpython_script_nameou main_class_name.

Si vous spécifiez un objet DataReference comme entrée avec data_reference_name=input1 et un objet PipelineData comme sortie avec name=output1, les entrées et sorties sont passées au script en tant que paramètres. C’est ainsi qu’ils ressemblent et vous devez analyser les arguments de votre script pour accéder aux chemins d’accès de chaque entrée et sortie : « -input1 », « wasbs://test@storagename.blob.core.windows.net/test », « wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1 »

En outre, les paramètres suivants sont disponibles dans le script :

AZUREML_RUN_TOKEN : jeton AML pour l’authentification auprès d’Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY : heure d’expiration du jeton AML.
AZUREML_RUN_ID : ID d’exécution Azure Machine Learning pour cette exécution.
AZUREML_ARM_SUBSCRIPTION : abonnement Azure pour votre espace de travail AML.
AZUREML_ARM_RESOURCEGROUP : groupe de ressources Azure pour votre espace de travail Azure Machine Learning.
AZUREML_ARM_WORKSPACE_NAME : nom de votre espace de travail Azure Machine Learning.
AZUREML_ARM_PROJECT_NAME : nom de votre expérience Azure Machine Learning.
AZUREML_SERVICE_ENDPOINT : URL de point de terminaison pour les services AML.
AZUREML_WORKSPACE_ID : ID de votre espace de travail Azure Machine Learning.
AZUREML_EXPERIMENT_ID : ID de votre expérience Azure Machine Learning.
AZUREML_SCRIPT_DIRECTORY_NAME : chemin d’accès au répertoire dans DBFS où source_directory a été copié.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Lorsque vous exécutez un script Python à partir de votre ordinateur local sur Databricks à l’aide de paramètres source_directory DatabricksStep et python_script_nameque votre source_directory est copié sur DBFS et que le chemin d’accès au répertoire sur DBFS est passé en tant que paramètre à votre script lors de son exécution. Ce paramètre est étiqueté en tant que –AZUREML_SCRIPT_DIRECTORY_NAME. Vous devez le préfixer avec la chaîne « dbfs :/ » ou « /dbfs/ » pour accéder au répertoire dans DBFS.

Constructeur

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Paramètres

Nom	Description
name Obligatoire	str [Obligatoire] Nom de l’étape.
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Liste des connexions d’entrée pour les données consommées par cette étape. Récupérez-le à l’intérieur du notebook à l’aide de dbutils.widgets.get(« input_name »). Peut être DataReference ou PipelineData. DataReference représente un élément de données existant sur un magasin de données. Il s’agit essentiellement d’un chemin d’accès sur un magasin de données. DatabricksStep prend en charge les magasins de données qui encapsulent DBFS, blob Azure ou ADLS v1. PipelineData représente les données intermédiaires produites par une autre étape d’un pipeline. Valeur par défaut: None
outputs	list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]] Liste des définitions de port de sortie pour les sorties produites par cette étape. Récupérez-le dans le notebook à l’aide de dbutils.widgets.get(« output_name »). Doit être PipelineData. Valeur par défaut: None
existing_cluster_id	str ID de cluster d’un cluster interactif existant sur l’espace de travail Databricks. Si vous transmettez ce paramètre, vous ne pouvez pas passer l’un des paramètres suivants qui sont utilisés pour créer un cluster : spark_version node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Remarque : Pour créer un cluster de travaux, vous devez passer les paramètres ci-dessus. Vous pouvez passer ces paramètres directement ou les transmettre dans le cadre de l’objet RunConfiguration à l’aide du paramètre runconfig. Le passage de ces paramètres directement et via RunConfiguration entraîne une erreur. Valeur par défaut: None
spark_version	str La version de Spark pour le cluster Databricks exécute, par exemple : « 10.4.x-scala2.12 ». Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre. Valeur par défaut: None
node_type	str [Obligatoire] Les types de nœuds de machine virtuelle Azure pour databricks exécutent le cluster, par exemple : « Standard_D3_v2 ». Spécifiez `node_type` ou `instance_pool_id`. Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre. Valeur par défaut: None
instance_pool_id	str [Obligatoire] ID du pool d’instances auquel le cluster doit être attaché. Spécifiez `node_type` ou `instance_pool_id`. Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre. Valeur par défaut: None
num_workers	int [Obligatoire] Nombre statique de workers pour le cluster d’exécution Databricks. Vous devez spécifier l’une ou l’autre `num_workers` ou les deux`min_workers`.`max_workers` Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre. Valeur par défaut: None
min_workers	int [Obligatoire] Nombre minimal de workers à utiliser pour la mise à l’échelle automatique du cluster d’exécution databricks. Vous devez spécifier l’une ou l’autre `num_workers` ou les deux`min_workers`.`max_workers` Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre. Valeur par défaut: None
max_workers	int [Obligatoire] Nombre maximal de workers à utiliser pour la mise à l’échelle automatique du cluster d’exécution databricks. Vous devez spécifier l’une ou l’autre `num_workers` ou les deux`min_workers`.`max_workers` Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre. Valeur par défaut: None
spark_env_variables	dict Les variables d’environnement Spark pour le cluster d’exécution Databricks. Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre. Valeur par défaut: None
spark_conf	dict Configuration spark pour le cluster d’exécution Databricks. Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre. Valeur par défaut: None
init_scripts	[str] Obsolète. Databricks a annoncé que le script init stocké dans DBFS cessera de fonctionner après le 1erc 2023. Pour atténuer le problème, utilisez des scripts d’init globaux dans databricks suivant https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentez la ligne de init_scripts dans votre étape AzureML databricks. Valeur par défaut: None
cluster_log_dbfs_path	str Chemins DBFS dans lesquels les journaux des clusters doivent être remis. Valeur par défaut: None
notebook_path	str [Obligatoire] Chemin d’accès au notebook dans l’instance Databricks. Cette classe permet de spécifier le code de quatre façons d’exécuter sur le cluster Databricks. Pour exécuter un notebook présent dans l’espace de travail Databricks, utilisez : notebook_path=notebook_path, notebook_params={'myparam' : 'testparam'} Pour exécuter un script Python présent dans DBFS, utilisez : python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Pour exécuter un fichier JAR présent dans DBFS, utilisez : main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Pour exécuter un script Python présent sur votre ordinateur local, utilisez : python_script_name=python_script_name, source_directory=source_directory Spécifiez exactement l’un des éléments suivants `notebook_path`: , `python_script_pathpython_script_name`ou `main_class_name`. Valeur par défaut: None
notebook_params	dict[str, Union[str, PipelineParameter]] Dictionnaire de paramètres à passer au notebook. `notebook_params` sont disponibles en tant que widgets. Vous pouvez extraire les valeurs de ces widgets à l’intérieur de votre notebook à l’aide de dbutils.widgets.get(« myparam »). Valeur par défaut: None
python_script_path	str [Obligatoire] Chemin d’accès au script Python dans le DBFS. Spécifiez exactement l’un des éléments suivants `notebook_path`: , `python_script_pathpython_script_name`ou `main_class_name`. Valeur par défaut: None
python_script_params	list[str, PipelineParameter] Paramètres du script Python. Valeur par défaut: None
main_class_name	str [Obligatoire] Nom du point d’entrée dans un module JAR. Spécifiez exactement l’un des éléments suivants `notebook_path`: , `python_script_pathpython_script_name`ou `main_class_name`. Valeur par défaut: None
jar_params	list[str, PipelineParameter] Paramètres du module JAR. Valeur par défaut: None
python_script_name	str [Obligatoire] Nom d’un script Python relatif à `source_directory`. Si le script accepte des entrées et des sorties, ceux-ci sont passés au script en tant que paramètres. Si `python_script_name` elle est spécifiée, `source_directory` elle doit également être. Spécifiez exactement l’un des éléments suivants `notebook_path`: , `python_script_pathpython_script_name`ou `main_class_name`. Si vous spécifiez un objet DataReference comme entrée avec data_reference_name=input1 et un objet PipelineData comme sortie avec name=output1, les entrées et sorties sont passées au script en tant que paramètres. C’est ainsi qu’ils ressemblent et vous devez analyser les arguments de votre script pour accéder aux chemins d’accès de chaque entrée et sortie : « -input1 », « wasbs://test@storagename.blob.core.windows.net/test », « wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1 » En outre, les paramètres suivants sont disponibles dans le script : AZUREML_RUN_TOKEN : jeton AML pour l’authentification auprès d’Azure Machine Learning. AZUREML_RUN_TOKEN_EXPIRY : heure d’expiration du jeton AML. AZUREML_RUN_ID : ID d’exécution Azure Machine Learning pour cette exécution. AZUREML_ARM_SUBSCRIPTION : abonnement Azure pour votre espace de travail AML. AZUREML_ARM_RESOURCEGROUP : groupe de ressources Azure pour votre espace de travail Azure Machine Learning. AZUREML_ARM_WORKSPACE_NAME : nom de votre espace de travail Azure Machine Learning. AZUREML_ARM_PROJECT_NAME : nom de votre expérience Azure Machine Learning. AZUREML_SERVICE_ENDPOINT : URL de point de terminaison pour les services AML. AZUREML_WORKSPACE_ID : ID de votre espace de travail Azure Machine Learning. AZUREML_EXPERIMENT_ID : ID de votre expérience Azure Machine Learning. AZUREML_SCRIPT_DIRECTORY_NAME : chemin d’accès au répertoire dans DBFS où source_directory a été copié. (Ce paramètre est renseigné uniquement lorsqu’il `python_script_name` est utilisé. Pour plus d’informations, voir ci-dessous.) Lorsque vous exécutez un script Python à partir de votre ordinateur local sur Databricks à l’aide de paramètres `source_directory` DatabricksStep et `python_script_name`que votre source_directory est copié sur DBFS et que le chemin d’accès au répertoire sur DBFS est passé en tant que paramètre à votre script lors de son exécution. Ce paramètre est étiqueté en tant que –AZUREML_SCRIPT_DIRECTORY_NAME. Vous devez le préfixer avec la chaîne « dbfs :/ » ou « /dbfs/ » pour accéder au répertoire dans DBFS. Valeur par défaut: None
source_directory	str Dossier qui contient le script et d’autres fichiers. Si `python_script_name` elle est spécifiée, `source_directory` elle doit également être. Valeur par défaut: None
hash_paths	[str] DÉCONSEILLÉ : n’est plus nécessaire. Liste des chemins d’accès au hachage lors de la vérification des modifications apportées au contenu de l’étape. S’il n’y a aucune modification détectée, le pipeline réutilise le contenu de l’étape à partir d’une exécution précédente. Par défaut, le contenu de `source_directory` l’objet est haché à l’exception des fichiers répertoriés dans .amlignore ou .gitignore. Valeur par défaut: None
run_name	str Nom dans Databricks pour cette exécution. Valeur par défaut: None
timeout_seconds	int Délai d’expiration de l’exécution de Databricks. Valeur par défaut: None
runconfig	RunConfiguration Runconfig à utiliser. Remarque : Vous pouvez transmettre autant de bibliothèques que vous le souhaitez en tant que dépendances à votre travail à l’aide des paramètres suivants : `maven_libraries`, , `pypi_libraries`, `egg_libraries`, `jar_libraries`ou `rcran_libraries`. Passez ces paramètres directement avec leurs paramètres correspondants ou dans le cadre de l’objet RunConfiguration à l’aide du `runconfig` paramètre, mais pas les deux. Valeur par défaut: None
maven_libraries	list[MavenLibrary] Bibliothèques Maven à utiliser pour l’exécution de Databricks. Valeur par défaut: None
pypi_libraries	list[PyPiLibrary] Bibliothèques PyPi à utiliser pour l’exécution de Databricks. Valeur par défaut: None
egg_libraries	list[EggLibrary] Bibliothèques d’œufs à utiliser pour l’exécution de Databricks. Valeur par défaut: None
jar_libraries	list[JarLibrary] Bibliothèques jar à utiliser pour l’exécution de Databricks. Valeur par défaut: None
rcran_libraries	list[RCranLibrary] Bibliothèques RCran à utiliser pour l’exécution de Databricks. Valeur par défaut: None
compute_target	str, DatabricksCompute [Obligatoire] Calcul Azure Databricks. Avant de pouvoir utiliser DatabricksStep pour exécuter vos scripts ou notebooks sur un espace de travail Azure Databricks, vous devez ajouter l’espace de travail Azure Databricks en tant que cible de calcul à votre espace de travail Azure Machine Learning. Valeur par défaut: None
allow_reuse	bool Indique si l’étape doit réutiliser les résultats précédents lors de la réexécutation avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par la modification de la définition du jeu de données, et non par la modification des données sous-jacentes. Valeur par défaut: True
version	str Balise de version facultative pour indiquer une modification des fonctionnalités de l’étape. Valeur par défaut: None
permit_cluster_restart	bool si existing_cluster_id est spécifié, ce paramètre indique si le cluster peut être redémarré pour le compte de l’utilisateur. Valeur par défaut: None
name Obligatoire	str [Obligatoire] Nom de l’étape.
inputs Obligatoire	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Liste des connexions d’entrée pour les données consommées par cette étape. Récupérez-le à l’intérieur du notebook à l’aide de dbutils.widgets.get(« input_name »). Peut être DataReference ou PipelineData. DataReference représente un élément de données existant sur un magasin de données. Il s’agit essentiellement d’un chemin d’accès sur un magasin de données. DatabricksStep prend en charge les magasins de données qui encapsulent DBFS, blob Azure ou ADLS v1. PipelineData représente les données intermédiaires produites par une autre étape d’un pipeline.
outputs Obligatoire	list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]] Liste des définitions de port de sortie pour les sorties produites par cette étape. Récupérez-le dans le notebook à l’aide de dbutils.widgets.get(« output_name »). Doit être PipelineData.
existing_cluster_id Obligatoire	str ID de cluster d’un cluster interactif existant sur l’espace de travail Databricks. Si vous transmettez ce paramètre, vous ne pouvez pas passer l’un des paramètres suivants qui sont utilisés pour créer un cluster : spark_version node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Remarque : Pour créer un cluster de travaux, vous devez passer les paramètres ci-dessus. Vous pouvez passer ces paramètres directement ou les transmettre dans le cadre de l’objet RunConfiguration à l’aide du paramètre runconfig. Le passage de ces paramètres directement et via RunConfiguration entraîne une erreur.
spark_version Obligatoire	str La version de Spark pour le cluster Databricks exécute, par exemple : « 10.4.x-scala2.12 ». Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre.
node_type Obligatoire	str [Obligatoire] Les types de nœuds de machine virtuelle Azure pour databricks exécutent le cluster, par exemple : « Standard_D3_v2 ». Spécifiez `node_type` ou `instance_pool_id`. Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre.
instance_pool_id Obligatoire	str [Obligatoire] ID du pool d’instances auquel le cluster doit être attaché. Spécifiez `node_type` ou `instance_pool_id`. Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre.
num_workers Obligatoire	int [Obligatoire] Nombre statique de workers pour le cluster d’exécution Databricks. Vous devez spécifier l’une ou l’autre `num_workers` ou les deux`min_workers`.`max_workers` Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre.
min_workers Obligatoire	int [Obligatoire] Nombre minimal de workers à utiliser pour la mise à l’échelle automatique du cluster d’exécution databricks. Vous devez spécifier l’une ou l’autre `num_workers` ou les deux`min_workers`.`max_workers` Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre.
max_workers Obligatoire	int [Obligatoire] Nombre maximal de workers à utiliser pour la mise à l’échelle automatique du cluster d’exécution databricks. Vous devez spécifier l’une ou l’autre `num_workers` ou les deux`min_workers`.`max_workers` Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre.
spark_env_variables Obligatoire	dict Les variables d’environnement Spark pour le cluster d’exécution Databricks. Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre.
spark_conf Obligatoire	dict Configuration spark pour le cluster d’exécution Databricks. Pour plus d’informations, consultez la description du `existing_cluster_id` paramètre.
init_scripts Obligatoire	[str] Obsolète. Databricks a annoncé que le script init stocké dans DBFS cessera de fonctionner après le 1erc 2023. Pour atténuer le problème, utilisez des scripts d’init globaux dans databricks suivant https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentez la ligne de init_scripts dans votre étape AzureML databricks.
cluster_log_dbfs_path Obligatoire	str Chemins DBFS dans lesquels les journaux des clusters doivent être remis.
notebook_path Obligatoire	str [Obligatoire] Chemin d’accès au notebook dans l’instance Databricks. Cette classe permet de spécifier le code de quatre façons d’exécuter sur le cluster Databricks. Pour exécuter un notebook présent dans l’espace de travail Databricks, utilisez : notebook_path=notebook_path, notebook_params={'myparam' : 'testparam'} Pour exécuter un script Python présent dans DBFS, utilisez : python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Pour exécuter un fichier JAR présent dans DBFS, utilisez : main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Pour exécuter un script Python présent sur votre ordinateur local, utilisez : python_script_name=python_script_name, source_directory=source_directory Spécifiez exactement l’un des éléments suivants `notebook_path`: , `python_script_pathpython_script_name`ou `main_class_name`.
notebook_params Obligatoire	dict[str, (str ou PipelineParameter)] Dictionnaire de paramètres à passer au notebook. `notebook_params` sont disponibles en tant que widgets. Vous pouvez extraire les valeurs de ces widgets à l’intérieur de votre notebook à l’aide de dbutils.widgets.get(« myparam »).
python_script_path Obligatoire	str [Obligatoire] Chemin d’accès au script Python dans le DBFS. Spécifiez exactement l’un des éléments suivants `notebook_path`: , `python_script_pathpython_script_name`ou `main_class_name`.
python_script_params Obligatoire	list[str, PipelineParameter] Paramètres du script Python.
main_class_name Obligatoire	str [Obligatoire] Nom du point d’entrée dans un module JAR. Spécifiez exactement l’un des éléments suivants `notebook_path`: , `python_script_pathpython_script_name`ou `main_class_name`.
jar_params Obligatoire	list[str, PipelineParameter] Paramètres du module JAR.
source_directory Obligatoire	str Dossier qui contient le script et d’autres fichiers. Si `python_script_name` elle est spécifiée, `source_directory` elle doit également être.
hash_paths Obligatoire	[str] DÉCONSEILLÉ : n’est plus nécessaire. Liste des chemins d’accès au hachage lors de la vérification des modifications apportées au contenu de l’étape. S’il n’y a aucune modification détectée, le pipeline réutilise le contenu de l’étape à partir d’une exécution précédente. Par défaut, le contenu de `source_directory` l’objet est haché à l’exception des fichiers répertoriés dans .amlignore ou .gitignore.
run_name Obligatoire	str Nom dans Databricks pour cette exécution.
timeout_seconds Obligatoire	int Délai d’expiration de l’exécution de Databricks.
runconfig Obligatoire	RunConfiguration Runconfig à utiliser. Remarque : Vous pouvez transmettre autant de bibliothèques que vous le souhaitez en tant que dépendances à votre travail à l’aide des paramètres suivants : `maven_libraries`, , `pypi_libraries`, `egg_libraries`, `jar_libraries`ou `rcran_libraries`. Passez ces paramètres directement avec leurs paramètres correspondants ou dans le cadre de l’objet RunConfiguration à l’aide du `runconfig` paramètre, mais pas les deux.
maven_libraries Obligatoire	list[<xref:azureml.core.runconfig.MavenLibrary>] Bibliothèques Maven à utiliser pour l’exécution de Databricks. Pour plus d’informations sur la spécification des bibliothèques Maven, consultez `help(azureml.core.runconfig.MavenLibrary)`.
pypi_libraries Obligatoire	list[<xref:azureml.core.runconfig.PyPiLibrary>] Bibliothèques PyPi à utiliser pour l’exécution de Databricks. Pour plus d’informations sur la spécification des bibliothèques PyPi, consultez `help(azureml.core.runconfig.PyPiLibrary)`.
egg_libraries Obligatoire	list[<xref:azureml.core.runconfig.EggLibrary>] Bibliothèques d’œufs à utiliser pour l’exécution de Databricks. Pour plus d’informations sur la spécification des bibliothèques Egg, consultez `help(azureml.core.runconfig.EggLibrary)`.
jar_libraries Obligatoire	list[<xref:azureml.core.runconfig.JarLibrary>] Bibliothèques jar à utiliser pour l’exécution de Databricks. Pour plus d’informations sur la spécification des bibliothèques Jar, consultez `help(azureml.core.runconfig.JarLibrary)`.
rcran_libraries Obligatoire	list[<xref:azureml.core.runconfig.RCranLibrary>] Bibliothèques RCran à utiliser pour l’exécution de Databricks. Pour plus d’informations sur la spécification des bibliothèques RCran, consultez `help(azureml.core.runconfig.RCranLibrary)`.
compute_target Obligatoire	str, DatabricksCompute [Obligatoire] Calcul Azure Databricks. Avant de pouvoir utiliser DatabricksStep pour exécuter vos scripts ou notebooks sur un espace de travail Azure Databricks, vous devez ajouter l’espace de travail Azure Databricks en tant que cible de calcul à votre espace de travail Azure Machine Learning.
allow_reuse Obligatoire	bool Indique si l’étape doit réutiliser les résultats précédents lors de la réexécutation avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par la modification de la définition du jeu de données, et non par la modification des données sous-jacentes.
version Obligatoire	str Balise de version facultative pour indiquer une modification des fonctionnalités de l’étape.
permit_cluster_restart Obligatoire	bool si existing_cluster_id est spécifié, ce paramètre indique si le cluster peut être redémarré pour le compte de l’utilisateur.

Méthodes

create_node

Créez un nœud à partir de l’étape Databricks et ajoutez-le au graphique spécifié.

Cette méthode n’est pas destinée à être utilisée directement. Lorsqu’un pipeline est instancié avec cette étape, Azure ML transmet automatiquement les paramètres requis par cette méthode afin que cette étape puisse être ajoutée à un graphique de pipeline qui représente le flux de travail.

create_node

Créez un nœud à partir de l’étape Databricks et ajoutez-le au graphique spécifié.

create_node(graph, default_datastore, context)

Paramètres

Nom	Description
graph Obligatoire	Graph Objet graphique auquel ajouter le nœud.
default_datastore Obligatoire	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Magasin de données par défaut.
context Obligatoire	<xref:azureml.pipeline.core._GraphContext> Contexte de graphe.

Retours

Type	Description
Node	Nœud créé.

Partager via

DatabricksStep Classe

Constructeur

Paramètres

Méthodes

create_node

Paramètres

Retours

Commentaires