AI公司的练级之道：如何更具扩展性？

云栖号资讯：【点击查看更多行业资讯
】

在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

机器学习似乎已成为每个人都追求的一个宏大目标，超过80%的公司都正在研究至少一个AI项目。

图源：unsplash

在开始之前，最好先询问自己以下三个问题：

“此机器学习模型的准确性如何?”
“培训时间多长?”
“需要多少培训数据?”

用户通常想知道新模型的装载需要多长时间，以及它的性能或推广效果如何，他们想要一种根据性能衡量总体成本的方法。但遗憾的是，以上问题的答案并不能解决这个问题。

它们甚至具有误导性。

模型训练只是冰山一角。获取合适的数据集以及清理、存储、聚合、标记、建立可靠的数据流和基础架构管道需要巨大成本，但大多数用户和AI / ML公司都忽略了这一点。

根据最近的研究，公司在AI / ML项目中将80%以上的时间用于数据准备和工程业务。换句话说，如果将大部分精力放在构建和训练模型上，则总的工程工作量和成本可能是预计的五倍。

此外，机器学习模糊了用户和软件开发商之间的界线。

AIaaS或MLaaS已经开始出现。随着数据的增长，云端模型不断改进。也正因如此，MLaaS的业务比SaaS更具挑战性。

资料来源：黄Bastiane

机器模型从训练数据中学习，因此缺乏高质量的数据，模型将无法良好运行。在大多数情况下，用户并不了解生成或注释适当数据集的最佳做法。

当系统性能不佳时，用户往往会归咎于模型。因此，AI / ML公司通常花费大量时间和资源进行培训并与用户合作，以确保数据质量，这成为AI公司与其客户之间的共同责任。

例如，要训练生产线上的缺陷检查模型，计算机视觉公司需要与客户合作，以正确的角度和位置安装摄像头，检查分辨率和帧频，确保每个场景都有足够的正负面训练样本。

某些时候机器人或车辆需要人为操作，因此使用机器人技术或自动驾驶汽车应用程序进行数据收集更加耗时且成本更高。

即使进行了培训课程，且看完了所有用户手册和指南，你仍然不能完全控制用户生成的数据。一家机器视觉相机公司告诉我，他们的工程师会手动验证所有数据以确保其完整输入。

所有这些经常被忽视的额外培训、手动检查、数据清理和标记任务会给AI公司带来巨大的间接费用。这就是为什么要建立更具可扩展性的AI/ML项目的原因。那么该如何解决这个问题呢?

可扩展性是关键。

确定大量客户愿意购买的正确用例，并使用相同的模型体系结构解决。最后，你需要在没有标准产品的情况下为不同的公司构建和训练不同的模型。

尽量提供自助服务。

尽可能使培训和数据管道自动化，以提高运营效率并减少对体力劳动的依赖。相比较内部工具或自动化，公司更看重开放客户可见的功能，但是前者很快就会收到回报，你需要确保为内部流程自动化分配足够的资源。

最后，确定并跟踪成本，尤其是隐性成本。

工程师花费了多少时间清理、过滤或聚合数据?他们花费多少时间来确保第三方正确完成注释?他们需要多久帮助客户设置环境并正确收集数据?其中有多少可以自动化或外包?

练级之路可能艰难而漫长，但有些问题是迟早都需要面对的。

【云栖号在线课堂】每天都有产品技术专家分享！

课程地址：
https://yqh.aliyun.com/live
立即加入社群，与专家面对面，及时了解课程最新动态！

【云栖号在线课堂社群】
https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-04-14

本文作者：读芯术

本文来自：“

51CTO

”，了解相关信息可以关注“

”

AI公司的练级之道：如何更具扩展性？

继续阅读

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

吴恩达机器学习笔记（3）

吴恩达j机器学习之过拟合

吴恩达机器学习(一) 介绍

BMP文件结构及图像每行字节计算方法

磁盘结构及在Linux中的命名

深度学习模型分析人类复杂疾病的准确性

疾病研究：重症肌无力

人工智能如何有效地运用于自然语言处理

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

[HTML5]自定义属性 data-* 和 jQuery.data 详解

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

无人机--飞控科普