“饿了么”上线的电子证照应用服务通过市场监管局调用商家证照信息,实现主体数据双向互通,完成线上展示、查验、安全传阅和实时更新,杜绝无证照、假证照餐饮店入网经营,提升市场监管效能。依托全国一体化政务服务平台,市可信电子文件公共服务平台,赋能福州互联网市场监管,助推福州数字政府建设。充分发挥公司在电子证照、电子合同、电子档案等可信电子文件领域的专业技术能力与应用服务能力。持续推进可信电子文件在
“便捷公共服务”、“互联网监管”
第一阶段
√早饭午饭晚饭按时吃!√晚上6点以后别吃任何东西
效果:可去浮肿
第二阶段√早餐必吃!午餐必吃!晚餐不吃!
:第二周身体会感受到极度饥饿,第3天是最痛苦的时候逐渐可以忍受,但是早晨起床的时候疲惫感会减轻,会感觉很轻松就起床了排便也变得有规律。
第三阶段√早晨选择吃!午餐必须吃!晚餐少吃也选择不吃!
√喝水量要比平常增加很多√开始轻度有氧运动(比如跳绳、快走、跑步等)
第四阶段√脂肪大量流失,胃会缩小很多。√女生可以通过轻哑铃和瑜伽塑形。
√男生可多摄取蛋白质,同时进行肌肉训练。
效果:√到第3周的时候体重至少也能减去9公斤。
注意:因为处于急速减肥的状态,皮肤会下垂或者变得皱巴巴,所以要多拉伸或者简单地慢跑。
你如何定义以数据为中心的
AI,为什么你认为它是一种运动?
吴恩达:以数据为中心的 AI
是一门学科,它的研究重点是构建 AI 系统所需的数据。对于 AI
系统,你必须用代码实现一些算法,比如神经网络,然后在你的数据集上训练它。基于这种范式,在过去的十年中,深度学习网络有了显著的改进,以至于对于许多应用程序,代码、神经网络架构基本上是一个已经解决的问题。因此,在实际应用程序中,现在更有效率的做法是保持神经网络体系架构不变,转而寻找改进数据的方法。
你经常谈论公司或机构可供使用的数据非常少,以数据为中心的 AI
如何帮助他们?
吴恩达:我们曾听说过很多用数百万张图像构建的视觉系统——我曾经用 3.5
亿张图像构建了一个人脸识别系统。用数亿张图像构建的系统,是用 50 张图像构建的系统所远不能达到的。但事实证明,如果你有 50
个非常好的示例,你就可以构建一些有价值的东西,比如缺陷检查系统。在许多缺少巨型数据集的行业中,我认为重点必须从大数据转向优质数据。拥有
50 个精心设计的示例足以向神经网络解释用户希望它学习什么。
仅使用 50
张图像来训练模型,你所讲的是在非常大的数据集上训练模型并对其进行微调?还是训练一个全新的模型?
吴恩达:让我来描述一下
Landing.AI 的功能。在为制造商做视觉检查时,我们经常使用预训练模型
RetinaNet,其实预训练只是一小部分难题,更大的难题是可供使用的工具,使制造商能够选择正确的图像集并以相同的方式标注它们。我们在视觉、NLP
和语音方面都遇到过一个非常实际的问题,即使是人类标注也不能就标签达成一致。对于大数据应用程序,常见的反应是:如果数据有噪声,我们只需通过大量数据,相应的算法就会对其进行平均。但是,如果能够开发出一些工具来标记数据不一致的地方,并提供具有针对性的方法改善数据的一致性,这将是一个获得高性能系统的更有效的方法。
收集更多的数据通常会有所帮助,但如果研究者尝试为所有内容收集更多数据,那代价非常昂贵。
例如,如果你有 10,000 张图像,其中 30 张图像属于一类,而这
30
张图像标签有不一致的地方,我们要做的就是构建一种工具来对不一致的数据子集进行处理。因此,你可以非常快速地重新标记这些图像以使其更加一致,从而提高性能。
对高质量数据的关注是否会帮助消除数据偏见?如果你可以在训练之前更多地整理数据?
吴恩达:很多研究人员指出,有偏见的数据是导致有偏见系统的众多因素之一。其中谈到了以数据为中心的 AI
如何成为解决方案的一部分(而不是整个解决方案)以数据为中心的 AI
为我们提供的强大工具之一是能够设计数据子集。想象一下,训练一个机器学习系统,发现它的性能对于大多数数据集都还可以,但它的性能只对数据的一个子集有偏见。如果你尝试更改整个神经网络架构以仅提高该子集的性能,那将非常困难。但是,如果你可以调整数据的子集,则可以更有针对性地解决问题。
当说到数据工程,我们主要在讨论的是什么?
吴恩达:在 AI
领域里,数据清洗非常重要,但清洗数据的方式通常高度依赖手动的方式。在计算机视觉中,有人可能会通过 Jupyter Notebook
来可视化图像,以发现问题并修复它。我对能够让自己拥有大规模数据集的工具感到兴奋,这些工具可以快速有效地将你的注意力吸引到标签嘈杂的数据子集上。或者快速将你的注意力吸引到
100 个类别中的一个,这将有利于收集更多数据。
使用合成数据怎么样,这通常是一个好的解决方案吗?
吴恩达:我认为合成数据是以数据为中心的 AI 工具箱中的重要工具
你的意思是,合成数据可以让你在更多数据集上尝试模型吗?
吴恩达:不,这是个例子。假如你试图检测智能手机外壳上的缺陷,手机上有很多不同类型的缺陷:如划痕、凹痕、砂孔、涂料问题等等。如果你训练了一个模型,然后通过错误分析发现它总体上表现良好,但在凹痕问题上表现不佳,那么合成数据生成可以让你以更有针对性的方式解决问题。你可以仅为凹痕记类别生成更多数据。
合成数据生成是一个非常强大的工具,我们也会率先尝试很多其他工具。例如数据增强、提高标签一致性,或者仅仅要求工厂收集更多数据。
你能举个例子吗?有公司联系 Landing.AI
并表示在视觉检测方面有问题时,你如何说服他们部署自己的产品?
吴恩达:当客户找到我们时,我们首先就他们面临的问题进行交流,并查看一些图像以验证该问题在计算机视觉方面是否可行。通常我们会要求他们将数据上传到
LandingLens 平台。我们经常就以数据为中心的 AI 方法论向他们提供建议,并帮助他们标注数据。
Landing.AI
的一项重要业务就是帮助制造业公司应用机器学习。我们很多时候的工作是确保软件足够快速,易于使用。通过机器学习开发的迭代流程,我们为客户提供诸如如何在平台上训练模型、何时以及如何改进数据标记以提高模型性能等方面的建议。最后,我们的培训和软件服务,及已训练模型将部署到工厂的边缘设备上,来为他们提供全程支持。
如何应对不断变化的需求?如果工厂的产品发生变化或照明条件发生变化,AI
模型能否跟上?
吴恩达:每个工厂的情况都不一样。很多情况下都会出现数据飘移现象,但是有一些制造商的生产线已经运行了 20
年几乎没有变化,他们也预计未来五年不发生变化。那些稳定的环境使事情变得更容易。
对于其他生产商,我们提供了在出现重大数据漂移问题时进行标记的工具。我发现授权制造业客户更正数据、重新训练和更新模型是非常重要的事。
你是说要使其规模化,就必须在用户侧做大量训练等工作?
吴恩达:过去十年,人工智能最大的转变是向深度学习的转变。我认为在这十年中,最大的变化很可能是转向以数据为中心的人工智能。随着当今神经网络架构的成熟,我认为在很多实际应用上,瓶颈将出在「能否有效获取开发运行良好系统所需的数据」上。以数据为中心的
AI 运动在整个社区拥有巨大的能量和动力