我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:小鱼儿主页 > 调度作业 >

如何在Hadoop上运行这些深度学习工作

归档日期:07-24       文本归类:调度作业      文章编辑:爱尚语录

  Hadoop是用于大型企业数据集的分布式处理的最流行的开源框架,它在本地和云端环境中都有很多重要用途。

  深度学习对于语音识别,图像分类,AI聊天机器人,机器翻译等领域的企业任务非常有用,仅举几例。为了训练深度学习/机器学习模型,可以利用TensorFlow/ MXNet / Pytorch / Caffe /XGBoost等框架。有时需要将这些框架进行组合使用以用于解决不同的问题。

  为了使分布式深度学习/机器学习应用程序易于启动,管理和监控,Hadoop社区启动了Submarine项目以及其他改进,例如一流的GPU支持,Docker容器支持,容器DNS支持,调度改进等。

  这些改进使得在Apache Hadoop YARN上运行的分布式深度学习/机器学习应用程序就像在本地运行一样简单,这可以让机器学习工程师专注于算法,而不是担心底层基础架构。通过升级到最新的Hadoop,用户现在可以在同一群集上运行其他ETL / streaming 作业来运行深度学习工作负载。这样可以轻松访问同一群集上的数据,从而实现更好的资源利用率。

  典型的深度学习工作流程:数据从各个终端(或其他来源)汇聚到数据湖中。数据科学家可以使用笔记本进行数据探索,创建pipelines 来进行特征提取/分割训练/测试数据集。 并开展深度学习和训练工作。 这些过程可以重复进行。因此,在同一个集群上运行深度学习作业可以显著提高数据/计算资源共享的效率。

  让我们仔细看看Submarine项目(它是Apache Hadoop项目的一部分),请看下如何在Hadoop上运行这些深度学习工作。

  最重要的是我们的有一套集成Submarine的生态系统软件和工具,目前包括:

  图表说明了 Submarine 的整体构成,底部显示了 Submarine 计算引擎,它只是 YARN 的一个应用程序。 在计算引擎之上,它集成到其他生态系统,如笔记本电脑(Zeppelin / Jupyter)和 Azkaban。

  通过使用 Submarine 计算引擎,用户只需提交一个简单的 CLI 命令即可运行单/分布式深度学习训练工作,并从YARN UI 中获取完整的运行情况。所有其他复杂性,如运行分布式等,都会由 YARN 负责。我们来看几个例子:

  以下命令启动深度学习训练工作读取 HDFS上 的 cifar10 数据。

  这项工作是使用用户指定的 Docker 镜像,与YARN 上运行的其他作业共享计算资源(如CPU/ GPU /内存)。

  以下命令启动深度学习训练工作读取 HDFS 上的 cifar10 数据。

  Hadoop Submarine 项目的目标是提供深度学习场景中的数据(数据采集,数据处理,数据清理),算法(交互式,可视化编程和调优),资源调度,算法模型发布和作业调度的全流程服务支持。

  zeppelin 是一个基于 notebook 交互式的数据分析系统。你可以使用 SQL,Scala,Python等来制作数据驱动的交互式协作文档。

  在完成机器学习之前,你可以使用 Zeppelin 中的 20 多种解释器(例如 Spark,Hive,Cassandra,Elasticsearch,Kylin,HBase 等)在 Hadoop 中的数据中收集数据,清理数据,特征提取等。模特训练,完成数据预处理过程。

  我们提供 Submarine 解释器,以支持机器学习工程师从 Zeppelin 笔记本中进行算法开发,并直接向 YARN 提交训练任务并从 Zeppelin 中获得结果。

  通过点击 Notebook 中的 YARN LOG 超链接,你将会打开 YARN 的管理页面查看执行的任务。

  在 YARN 管理页面中,你可以打开自己的任务链接,查看任务的 docker 容器使用情况以及所有执行日志。

  有了这个强大的工具,数据科学家不需要了解 YARN 的复杂性或如何使用 Submarine 计算引擎。提交 Submarine 训练工作与在笔记本中运行 Python 脚本完全相同。最重要的是,用户无需更改其已有算法程序即可转换为 Submarine 作业运行。

  你可以在 Zeppelin 中使用 Azkaban 的作业文件格式,编写具有执行依赖性的多个笔记本执行任务。

  由于分布式深度学习框架需要在多个 Docker 容器中运行,并且需要能够协调容器中运行的各种服务,因此需要为分布式机器学习完成模型训练和模型发布服务。这其中将涉及到多个系统工程问题,如 DNS,Docker,GPU,网络,显卡驱动,操作系统内核修改等,正确部署这些运行环境是一件非常困难和耗时的事情。

  我们为你提供了 submarine installer ,用于运行时环境的安装, submarine installer 是一个完全由 Shell 脚本编写,提供了简单易用的菜单化操作方式,你只需要在一台可以联网的服务器上运行,就可以轻松便捷的安装好运行环境。

  网易杭研大数据团队是 Submarine 项目的主要贡献者之一,主要希望通过 Submarine 来解决机器学习开发和运维过程中遇到的以下问题:

  单独部署的 Kubernetes 集群(配备GPU)用于机器学习工作负载

  没有集成的操作平台,全部通过手动编写算法,提交作业和检查运行结果,效率低,容易出错。

  需要同时运维 Hadoop 和 Kubernetes 两套操作环境,增加维护成本和学习成本。

  文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

  David,加州大学物理博士,美国著名电商数据科学家。本课程介绍什么是深度学习, 深度学习与机器学习的关系,几种神经网络

  此前由这一技术路线带来的“奇迹”在Alphago获胜后未再出现,而且估计未来也很难继续大量出现。

  本文对基于深度学习的细粒度图像分析进行了综述,从细粒度图像识别、检索和生成三个方向展开论述。

  自从人工智能进入机器的深度学习时代,原有MCU的硬件加速已无法满足高速海量数值计算要求,以及大数据的....

  Quantib是一家总部位于荷兰的创业公司,其目前正在致力于通过深度学习的方法来帮助医生诊断痴呆症。

  基于计算机网络技术以及无线通信技术和视频监控技术,研究深度学习图像识别的变电站基建安全行为监控系统。

  深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框...

  Zebra 可消除深度学习推断中具有挑战性的编程及 FPGA 任务。Zebra 可轻松部署和适应广泛....

  近日,一项鼻纹识别解决方案,一经推出就大受好评,并已最先应用于犬只身份认证。这一方案将有助于城市中的....

  本次大赛面向的是内地和港澳地区高等院校、专业研究机构、数据分析公司、开发者等举办的大型数据创新类竞赛....

  作者:Liran Bar,CEVA成像与视觉DSP核心产品线市场总监 机器学习正快速成为物联网(IoT)设备不可分割的特征。家用...

  这次的实战使用的数据是交通标志数据集,共有62类交通标志。其中训练集数据有4572张照片(每个类别大....

  图1:常用跟踪数据集统计示意图。包括OTB-2013、OTB-2015、TC-128、NUS-PRO....

  值得一提的是,在CVPR 2019 Workshop NTIRE 2019视频恢复比赛中(包含两个视....

  TI毫米波传感器可用于旨在帮助工业机器人避免碰撞的系统中,解决同人类和其他物体相互作用的机器人协同互....

  同理,由于谷歌官方发布的BERT-base(Chinese)中,中文是以字为粒度进行切分,没有考虑到....

  微软于2016年提出的Deep Crossing可以说是深度学习CTR模型的最典型和基础性的模型。如....

  这个问题涉及到的更本质的问题,就是语言学的structure在深度学习的框架下有多重要 (因为词是一....

  为了能够更准确地构建模型,现在机器学习应用通常要处理大量的数据并生成多种特征,这已成为必要的。而 P....

  为什么要权衡这些问题其实不难理解,我们需要保持一致的环境,避免大型数据集跨不同集群之间的传递。此外,....

  在第9章我们将介绍如何加载预训练网络(该网络是Keras提供的五个预训练网络之一),研究图像输入网络....

  .验证码的一个功能就是来规避机器的自动操作,所以我们需要通过轨迹来判断这个拖动过程是真实的人还是机器....

  随着 AI 技术的不断发展与落地,有越来越多的平台和工具可供大家使用,这些平台针对不同领域、不同层次....

  这使计算机科学家能够建立一个模型,分析过去的表现,预测特定锻炼时间和路线下的速度和心率。

  即在分布式计算或者多代理(multi-agent)系统中,如何在发生进程故障的情况下保持系统的可靠性....

  一个名叫《Awesome Graph Classification》的GitHub项目

  那么它和PyTorch Geometric有什么区别呢?PyTorch Geometric仅涵盖了深....

  使用人工智能深度学习核心技术手段,结合2D/3D工业相机、自动化工装、机械臂等硬件设备,提供全套的工....

  作者:Gordon Cooper,Synopsys嵌入式视觉产品营销经理 识别面部表情和情绪是人类社交初期阶段的一项基本且非常重要的技能。...

  摘要: 简介 市面上基于嵌入式平台的神经网络加速平台有很多,今天给大家带来是百度大脑出品的EdgeB....

  深度学习是一个好的开始,但是不能解决一切问题,需要和更高维度的方式叠加。

  在计算机视觉领域,深度学习方法已全方位在各个方向获得突破,这从近几年CVPR 的论文即可看出。但这往....

  这项研究来自Netflix的高级数据科学家Amir Ziai,他正在斯坦福大学攻读AI专业研究生。Z....

  要知道 Faster R-CNN已经是2015年提出的论文了,而YOLOv3发表出来也已经一年多了。....

  调研结果显示,虽然 AI 技术已经在头部媒体及内容平台中发挥了显著竞争优势,但对于众多中长尾内容平台....

  我们可以将这些取值分为不同的集合类,在每一类中,我们记录属于该类结果的次数。例如,我们可以投1000....

  cnn_learner 使用来自给定架构的预训练模型构建CNN学习器、来自预训练模型的学习参数用于初....

  这是一项国际性的大数据分析竞赛,共有来自中国、美国、英国、德国等 7 个国家,来自华为、京东、滴滴等....

  英伟达一直在寻求“one ring to rule them all”的解决方案:是否可以构建一些可....

  首先我们来看 panda 包里面的 read_csv() 函数,它可以将时间序列数据集(关于澳大利亚....

  在FRVT评测中,测试集是完全不公开的,只有简略的几段话描述。这意味着FRVT用的不是传统那种通过在....

  Google AI最新研究用无监督数据增强推进半监督学习,取得令人瞩目的成果

  谷歌的结果促进了半监督学习的复兴,而且还发现3点有趣的现象:(1)SSL可以匹配甚至优于使用数量级更....

  预测价格对数和真实价格对数的RMSE(均方根误差)作为模型的评估指标。将RMSE转化为对数尺度,能够....

  但这里其实有一个误区。我们可以看到,几十种 AI 芯片像潮水一样涌现,但是却只能支持一部分功能,它可....

  英伟达详细介绍了一种微型测试芯片,可以独立完成底层工作;但当36个芯片团结起来时,性能可以提升32倍....

  从 2016 年 AlphaGo 战胜李世石掀起深度学习的热潮,到如今深度学习寒冬论甚嚣尘上,短短两....

  图灵奖获得者John Hopcroft到访讯飞 深入探讨计算机科学人才培养问题

  近日,图灵奖获得者、中国政府友谊奖获得者、中国科学院外籍院士约翰·霍普克罗夫特(John Hopcr....

  章节目录 SGAN代码实现训练结束语 01 SGAN什么是生成对抗网络:简单的来说,就是给定一个噪声z的输入,通过生成器...

本文链接:http://i-zyczenia.net/diaoduzuoye/1026.html