机器码是会变得嘛_数据机器人使生活变得轻松-程序员宅基地

技术标签: python  java  机器学习  人工智能  大数据  

机器码是会变得嘛

I’m diverging from the previous articles in the series. I’m going to review two tools that are heads and shoulders above the others. The design and beautiful visualizations do not come cheap. That doesn’t mean we can’t admire them and use them as a bar to which we strive. I will start with DataRobot. It’s an enterprise tool that you may find yourself having access to through work or school.

我与本系列的前几篇文章有所不同。 我将回顾两个首屈一指的工具。 设计和精美的可视化并不便宜。 这并不意味着我们不能佩服它们并将它们用作我们努力的标准。 我将从DataRobot开始。 这是一种企业工具,您可能会发现自己可以通过工作或上学访问。

为什么选择DataRobot? (Why DataRobot?)

I have experience using this tool and love it for the business cases for which I use it. My business case is to have a straightforward interface for a non-data scientist to run and deploy models in an automated way. DataRobot adds new features on a regular cadence, each built nicely within the existing user experience. I could go on about the benefits, but I will control my inner fan-girl.

我有使用此工具的经验,并且喜欢使用它的业务案例。 我的业务案例是为非数据科学家提供一个直接的界面,以自动化方式运行和部署模型。 DataRobot定期添加新功能,并且在现有用户体验中很好地构建了每个功能。 我可以继续讲讲好处,但我会控制我内在的迷迷女孩。

To keep things even with the other tools, I will focus on the most basic tasks to run a simple .csv file with autoML without any manual interventions or hyper-parameter tuning.

为了使其他工具保持工作状态,我将专注于最基本的任务,以通过autoML运行简单的.csv文件,而无需任何人工干预或超参数调整。

设置和费用 (The setup and cost)

Straight up, DataRobot is outside of the budget range of the individual data scientist. The implementation and cost are definitely in the realm of businesses. AWS Marketplace offers a one-year subscription for $98,000. Pocket change, I’m sure. But if you use AWS govCloud, it is $9.33/hr (it varies). Interesting.

直截了当,DataRobot超出了单个数据科学家的预算范围。 实施和成本绝对在企业领域。 AWS Marketplace提供98,000美元的一年期订购。 我敢肯定,零钱。 但是,如果您使用AWS govCloud,则每小时$ 9.33 (不同)。 有趣。

数据 (The Data)

To keep parity across the tools in this series, I will stick to the Kaggle training file. Contradictory, My Dear Watson. Detecting contradiction and entailment in the multilingual text using TPUs. In this Getting Started Competition, we’re classifying pairs of sentences (consisting of a premise and a hypothesis) into three categories — entailment, contradiction, or neutral.

为了使本系列中的工具保持一致,我将坚持使用Kaggle培训文件。 矛盾的,亲爱的沃森。 使用TPU检测多语言文本中的矛盾和牵连 。 在本入门竞赛中,我们将成对的句子(由前提和假设组成)分为三类-蕴涵,矛盾或中立。

6 Columns x 13k+ rows — Stanford NLP documentation

6列x 13k +行— Stanford NLP 文档

  • id

    ID
  • premise

    前提
  • hypothesis

    假设
  • lang_abv

    lang_abv
  • language

    语言
  • label

    标签

加载数据 (Loading the data)

You create a project by uploading a dataset. This interface is where you begin.

您可以通过上传数据集来创建项目。 该界面是您开始的地方。

Image for post
screenshot by the author
作者的屏幕截图

After the data is loaded, there are opportunities to change datatypes or remove features. There are some data distribution data. A bonus is that there are warnings if there might be data leakage. If data leakage is detected, DataRobot removes that feature from the final training dataset.

加载数据后,就有机会更改数据类型或删除功能。 有一些数据分发数据。 一个额外的好处是,如果有数据泄漏,则会发出警告。 如果检测到数据泄漏,DataRobot将从最终训练数据集中删除该功能。

Image for post
project screenshot by the author
作者的项目截图
Image for post
screenshot by the author
作者的屏幕截图

训练模型 (Training your model)

Once you choose your target, you hit the big Start button with Modeling Mode set to AutoPilot. When you do that, you will see progress on the right side. As models are trained, they become available on the leaderboard as they complete.

选择目标后,您将“建模模式”设置为“自动驾驶”时点击了“开始”按钮。 完成此操作后,您将在右侧看到进度。 训练模型后,完成后即可在排行榜上使用它们。

One good thing about having access to the early model results is that you can review for significant issues. Many times some data issues become glaringly apparent with the Insights, and I could halt the process and try again. This quick and easy review helps with rapid iteration.

获得早期模型结果的一件好事是,您可以查看重大问题。 很多情况下,一些数据问题在“见解”中变得非常明显,我可以暂停该过程,然后重试。 快速简便的审查有助于快速迭代。

评估培训结果 (Evaluate Training Results)

The leaderboard begins to fill with the completed models. You can choose several valid metrics in the dropdown. There are also some helpful tags to let you know WHY the leaders are up at the top.

排行榜开始填充完成的模型。 您可以在下拉菜单中选择几个有效指标。 还有一些有用的标签,可让您知道领导者为何居于首位。

Image for post
leaderboard screenshot by the author
作者的排行榜屏幕截图

You can compare the models against each other.

您可以相互比较模型。

Image for post
learning curve screenshot by the author
作者的学习曲线截图

One tab I use often is speed versus accuracy. There are times when you are scoring millions of records when speed trumps accuracy if the accuracy drop is minor.

我经常使用的一个选项卡是速度与准确性。 有时,如果精度下降幅度较小,那么速度会比精度高得多,因此您需要为数百万条记录评分。

Image for post
speed versus accuracy screenshot by the author
作者的速度与准确性截屏
Image for post
head to head model comparisons screenshot by the author
作者的头对头模型比较屏幕截图

The Insights tab is handy. You can quickly see if one of your features is popping. It’s up to your business expertise to know if that’s appropriate or not. This tab is where I find data issues early in the autoML model training. If I see something that doesn’t seem correct, I can iterate faster than waiting for the entire process to finish.

数据分析标签非常方便。 您可以快速查看您的功能之一是否正在弹出。 由您的业务专家决定是否合适。 在自动ML模型培训的早期,我可以在此选项卡中找到数据问题。 如果我发现似乎不正确的内容,则可以比等待整个过程更快地进行迭代。

Image for post
insights screenshot by the author
作者的见解截图

DataRobot model explainability is the best of the tools I have reviewed so far. Each prediction is assigned which features influenced the final score, indicating not only strength but also direction.

到目前为止,DataRobot模型的可解释性是我评测过的最好的工具。 每个预测都分配了影响最终得分的特征,这些预测不仅指示强度,还指示方向。

Image for post
prediction explanation screenshot by the author
作者的预测解释截图

Not to be underestimated, documentation can be a real drain on your time. For this simple dataset, DataRobot generates a 7000+ word document with all of the charts, model parameters, and challenger model details. This documentation is a unique feature that I haven’t found in any other tools, though I have asked for it when asked. All done with a single click.

别小看,文档可能会真正浪费您的时间。 对于这个简单的数据集,DataRobot会生成一个7000多个word文档,其中包含所有图表,模型参数和挑战者模型详细信息。 该文档是我在其他任何工具中都找不到的独特功能,尽管我在询问时会要求它。 一键完成所有操作。

Image for post
compliance reporting screenshot by the author
作者的合规报告屏幕截图
Image for post
compliance documentation screenshot by the author
作者的合规性文档截图

结论 (Conclusions)

To loosely compare results between tools, I reran the dataset in classification mode. The metrics are just slightly higher than Azure. For the most part, the model results are similar.

为了比较工具之间的结果,我以分类模式重新运行了数据集。 指标仅略高于Azure。 在大多数情况下,模型结果相似。

For my business case, this is the top of the pile so far. Head-to-head in image processing or time-series may provide different results. That would be a challenge for another series.

对于我的业务案例,这是到目前为止的头等大事。 图像处理或时间序列中的对立可能会提供不同的结果。 这将是另一个系列的挑战。

The ease of use, visualizations, access to challenger model details, model explainability, and the automated documentation stand out from the others. Of course, you are paying dearly for this.

易用性,可视化,访问挑战者模型的详细信息,模型的可解释性以及自动化的文档与众不同。 当然,您为此付出了高昂的代价。

Next, I will show you H2O.ai Driverless AI. In my opinion, they are the closest comparison to DataRobot at this time. They have gone to great lengths to get top data visualization designers on the project so I’m expecting great things.

接下来,我将向您展示H2O.ai无人驾驶AI。 我认为,它们是目前与DataRobot的最接近的比较。 他们竭尽全力以吸引该项目的顶级数据可视化设计师,所以我期望一切顺利。

If you missed one of the articles in the series, I have posted them below.

如果您错过了该系列的文章之一,我将它们张贴在下面。

翻译自: https://towardsdatascience.com/datarobot-makes-life-easy-8505637241e5

机器码是会变得嘛

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_26756255/article/details/108946355

智能推荐

【新手科研指南5】深度学习代码怎么读-小白阶段性思路(以手写数字识别应用为例)_深度学习程序怎么读-程序员宅基地

文章浏览阅读6.2k次,点赞6次,收藏26次。我是一个深度学习代码小白,请你用中文写上注释,能让我能轻松理解下面这段代码。注意包含所有函数、调用和参数的注释。以同样的python代码块样式返回你写的代码给我。代码看累了,就看《动手学深度学习》文档:基于PyTorch框架,从底层函数实现基础功能,再到框架的高级功能。努力上路的小白一枚,麻烦路过的大佬指导一二,同时希望能和大家交流学习~争取更新学习这个文档的专栏,记录学习过程。量身定做了一套话术hhh,亲身测试还不错。这个感觉更浅一点儿,之后复习看吧。20天吃掉那只Pytorch。_深度学习程序怎么读

Java学习路线图,看这一篇就够了!-程序员宅基地

文章浏览阅读2.7w次,点赞126次,收藏1.2k次。耗废1024根秀发,Java学习路线图来了,整合了自己所学的所有技术整理出来的2022最新版Java学习路线图,适合于初、中级别的Java程序员。_java学习路线

PCL_Tutorial2-1.7-点云保存PNG_pcl::io:savepng-程序员宅基地

文章浏览阅读4.4k次。1.7-savingPNG介绍代码详情函数详解savePNGFile()源码savePNGFile()源码提示savePNGFile()推荐用法处理结果代码链接介绍PCL提供了将点云的值保存到PNG图像文件的可能性。这只能用有有序的云来完成,因为结果图像的行和列将与云中的行和列完全对应。例如,如果您从类似Kinect或Xtion的传感器中获取了点云,则可以使用它来检索与该云匹配的640x480 RGB图像。代码详情#include <pcl / io / pcd_io.h>#incl_pcl::io:savepng

知乎问答:程序员在咖啡店编程,喝什么咖啡容易吸引妹纸?-程序员宅基地

文章浏览阅读936次。吸引妹子的关键点不在于喝什么咖啡,主要在于竖立哪种男性人设。能把人设在几分钟内快速固定下来,也就不愁吸引对口的妹子了。我有几个备选方案,仅供参考。1. 运动型男生左手单手俯卧撑,右手在键盘上敲代码。你雄壮的腰腹肌肉群活灵活现,简直就是移动的春药。2.幽默男生花 20 块找一个托(最好是老同学 or 同事)坐你对面。每当你侃侃而谈,他便满面涨红、放声大笑、不能自已。他笑的越弱_咖啡厅写代码

【笔试面试】腾讯WXG 面委会面复盘总结 --一次深刻的教训_腾讯面委会面试是什么-程序员宅基地

文章浏览阅读1.2w次,点赞5次,收藏5次。今天 (应该是昨天了,昨晚太晚了没发出去)下午参加了腾讯WXG的面委会面试。前面在牛客上搜索了面委会相关的面经普遍反映面委会较难,因为都是微信的核心大佬,问的问题也会比较深。昨晚还蛮紧张的,晚上都没睡好。面试使用的是腾讯会议,时间到了面试官准时进入会议。照例是简单的自我介绍,然后是几个常见的基础问题:例如数据库索引,什么时候索引会失效、设计模式等。这部分比较普通,问的也不是很多,不再赘述。现在回想下,大部分还是简历上写的技能点。接下来面试官让打开项目的代码,对着代码讲解思路。我笔记本上没有这部分代码,所_腾讯面委会面试是什么

AI绘画自动生成器:艺术创作的新浪潮-程序员宅基地

文章浏览阅读382次,点赞3次,收藏4次。AI绘画自动生成器是一种利用人工智能技术,特别是深度学习算法,来自动创建视觉艺术作品的软件工具。这些工具通常基于神经网络模型,如生成对抗网络(GANs),通过学习大量的图像数据来生成新的图像。AI绘画自动生成器作为艺术与科技结合的产物,正在开启艺术创作的新篇章。它们不仅为艺术家和设计师提供了新的工具,也为普通用户提供了探索艺术的机会。随着技术的不断进步,我们可以预见,AI绘画自动生成器将在未来的创意产业中发挥越来越重要的作用。

随便推点

Flutter ListView ListView.build ListView.separated_flutter listview.separated和listview.builder-程序员宅基地

文章浏览阅读1.7k次。理解为ListView 的三种形式吧ListView 默认构造但是这种方式创建的列表存在一个问题:对于那些长列表或者需要较昂贵渲染开销的子组件,即使还没有出现在屏幕中但仍然会被ListView所创建,这将是一项较大的开销,使用不当可能引起性能问题甚至卡顿直接返回的是每一行的Widget,相当于ios的row。行高按Widget(cell)高设置ListView.build 就和io..._flutter listview.separated和listview.builder

2021 最新前端面试题及答案-程序员宅基地

文章浏览阅读1.4k次,点赞4次,收藏14次。废话不多说直接上干货1.js运行机制JavaScript单线程,任务需要排队执行同步任务进入主线程排队,异步任务进入事件队列排队等待被推入主线程执行定时器的延迟时间为0并不是立刻执行,只是代表相比于其他定时器更早的被执行以宏任务和微任务进一步理解js执行机制整段代码作为宏任务开始执行,执行过程中宏任务和微任务进入相应的队列中整段代码执行结束,看微任务队列中是否有任务等待执行,如果有则执行所有的微任务,直到微任务队列中的任务执行完毕,如果没有则继续执行新的宏任务执行新的宏任务,凡是在..._前端面试

linux基本概述-程序员宅基地

文章浏览阅读1k次。(3)若没有查到,则将请求发给根域DNS服务器,并依序从根域查找顶级域,由顶级查找二级域,二级域查找三级,直至找到要解析的地址或名字,即向客户机所在网络的DNS服务器发出应答信息,DNS服务器收到应答后现在缓存中存储,然后,将解析结果发给客户机。(3)若没有查到,则将请求发给根域DNS服务器,并依序从根域查找顶级域,由顶级查找二级域,二级域查找三级,直至找到要解析的地址或名字,即向客户机所在网络的DNS服务器发出应答信息,DNS服务器收到应答后现在缓存中存储,然后,将解析结果发给客户机。_linux

JavaScript学习手册十三:HTML DOM——文档元素的操作(一)_javascript学习手册十三:html dom——文档元素的操作(一)-程序员宅基地

文章浏览阅读7.9k次,点赞26次,收藏66次。HTML DOM——文档元素的操作1、通过id获取文档元素任务描述相关知识什么是DOM文档元素节点树通过id获取文档元素代码文件2、通过类名获取文档元素任务描述相关知识通过类名获取文档元素代码文件3、通过标签名获取文档元素任务描述相关知识通过标签名获取文档元素获取标签内部的子元素代码文件4、html5中获取元素的方法一任务描述相关知识css选择器querySelector的用法代码文件5、html5中获取元素的方法二任务描述相关知识querySelectorAll的用法代码文件6、节点树上的操作任务描述相关_javascript学习手册十三:html dom——文档元素的操作(一)

《LeetCode刷题》172. 阶乘后的零(java篇)_java 给定一个整数n,返回n!结果尾数中零的数量-程序员宅基地

文章浏览阅读132次。《LeetCode学习》172. 阶乘后的零(java篇)_java 给定一个整数n,返回n!结果尾数中零的数量

php 公众号消息提醒,如何开启公众号消息提醒功能-程序员宅基地

文章浏览阅读426次。请注意,本文将要给大家分享的并不是开启公众号的安全操作风险提醒,而是当公众号粉丝给公众号发消息的时候,公众号的管理员和运营者如何能在手机上立即收到消息通知,以及在手机上回复粉丝消息。第一步:授权1、在微信中点击右上角+,然后选择“添加朋友”,然后选择“公众号”,然后输入“微小助”并关注该公众号。2、进入微小助公众号,然后点击底部菜单【新增授权】,如下图所示:3、然后会打开一个温馨提示页面。请一定要..._php微信公众号服务提示

推荐文章

热门文章

相关标签