教程｜Cloudera数据科学工作台CDSW之旅

12月

1281 0 0

介绍

Cloudera数据科学工作台CDSW是一个安全的企业数据科学平台，它使的数据科学家能够通过为其提供自己的分析管道来加快从勘探到生产的工作流程。CDSW使数据科学家能够利用现有的技能和工具（例如Python、R和Scala）在Hadoop集群中运行计算。

在较高级别，Cloudera Data Science Workbench在CDH集群的一个或多个网关节点上运行。网关节点利用Docker和Kubernetes为隔离的环境分配资源，您可以在其中运行自己的数据科学项目。

先决条件

使用CDSW安装Cloudera Distribution Hadoop（CDH）大纲

概念CDSW之旅的导览添加环境变量任务调度CDSW实验室分享结果进一步阅读概念

本教程将指导您了解使用CDSW的基础知识，并了解其基本功能。您将首先了解用户界面的布局，然后在CDSW上创建第一个数据科学项目，最后将学习如何共享结果。

CDSW导览

这是CDSW主仪表板，在这里您可以找到

正在运行多少个会话、作业或模型分配给您的资源有哪些，例如虚拟CPU、存储设备和GPUCDSW的一个重要功能是上下文，通过切换上下文，您将能够从团队项目更改为您自己的个人项目。创建新上下文非常容易，让我们为本教程和我们可能使用的未来CDSW教程创建一个新上下文。

单击用户名旁边的标志，然后选择创建团队

接下来为您的团队Tutorials命名，然后选择创建团队

确保您在Tutorials团队的帐户中

添加环境变量

CDSW中的环境变量可以使您更好地控制会话的行为。例如，您可以在工作台控制台的输出上设置最大字符数，甚至可以更改每个会话的项目时区和超时。

您可以在以下范围内设置环境变量：

全局范围：CDSW的站点管理员可以设置全局变量，该变量将应用于特定部署上的每个项目

项目范围：如果您创建了一个项目并且您是该项目的管理员，则可以为整个项目设置环境变量，这些设置将优先于全局变量首先选择要为其设置环境变量的项目：

然后在适当的部分输入变量

作业范围：如果存在现有作业，也可以为计划构建的模型设置环境变量。作业环境变量优先于项目变量

实验：实验级别的变量与项目隔离，并将继承项目级别和/或全局级别设置的环境变量的值。模型：模型变量与项目隔离，并在构建时进行设置，这些设置将超越所有其他环境变量。如果未设置变量，则将继承项目级别和全局级别。任务调度

CDSW允许您自动执行启动引擎，运行训练脚本以及通过自动电子邮件警报跟踪训练结果的过程。

接下来为您的新的任务命名，然后选择要运行的脚本

作业可以手动运行，也可以通过将其作为重复生成版本运行来实现自动化

或作为其他工作的依存关系

CDSW实验室

以下练习将向您展示如何创建第一个CDSW项目并运行python引擎以生成见解。首先要下载本教程中使用的python脚本和数据

现在，我们准备在CDSW实例上创建一个新项目。单击屏幕右上角的标志，然后选择“新建项目”，您将找到一个类似于下图所示的屏幕。

帐户名称部分应自动填充我们之前创建的教程团队，为您的项目命名Hello CDSW

接下来，选择本地窗口，然后选择我们先前下载的文件，该文件应命名为tour-of-cdsw.zip

文件上传完成后，您将找到项目的管理界面，如果您已在该项目中创建了模型或正在运行与该项目相关的任何作业，则可以在其中管理它们。

要开始工作，请单击右上角的“打开工作台”按钮。下一步是选择引擎内核，默认情况下CDSW支持使用Scala、Python和R的引擎

在CDSW的上下文中，引擎负责运行数据科学的工作负载并充当支持CDH集群的中介。CDSW的基本引擎映像是Docker映像，其中包含启动CDSW会话和运行工作负载所需的所有构造块，它们内置在CDSW中并随CDSW一起提供。当您运行会话以启动项目时，引擎会作为容器旋转，并由Kubernetes管理，该容器基于您选择的基本引擎映像，并包含以下组件：