原标题:测试机器学习模型不用写代码!谷歌“what-if”工具轻松搞定

mgm娱乐登录地址,原标题:无需写代码!谷歌推出机器学习模型分析神器,代号What-If

机器学习是很火的,许多人只是听说过,但知之甚少。这篇iOS机器学习的教程将会介绍CoreML和Vison,这是iOS11中引入的的两个全新的框架。
具体来说,将学习如何使用Places205-GoogLeNet模型将这些新API用于对图像的场景

对于使用机器学习解决的大多数常见问题,通常有多种可用的模型。每个模型都有自己的独特之处,并随因素变化而表现不同每个模型在“验证/测试”数据集上来评估性能,性能衡量使用各种统计量如准确度精度(precision),召回率等。选择的统计量通常针对特定应用场景和用例。
对于每个应用场景,选择一个能够客观比较模型的度量指标非常重要。

mgm娱乐登录地址 1

铜灵 编译整理

开始

下载启动项目。他已经包含了显示图片的用户界面,并且可是让用户从照片库中选择另一张图片。所以你可以专注于实现应用程序的机器学习和视觉方面。
编译并运行项目,你将看到一个城市的图片和一个按钮:

mgm娱乐登录地址 2

image.png

从相册中选择领一张图片。这个启动项目的Info.plist已经包含了Privacy – Photo Library Usage Description,因此将会提示你允许使用。
在图片和按钮之间还包含一个文本框,它用于显示模型对图片场景的分类。

这篇文章将介绍目标检测(Object Detection)问题中的最常用评估指标-Mean
Average Precision
,即mAP。

倒计时**8**天

今天,谷歌推出了已开源的TensorFlow可视化工具TensorBoard中一项新功能:What-If
Tool,用户可在不编写程序代码的情况下分析机器学习(ML)模型。

iOS机器学习

机器学习是一种人工智能,其中计算机“学习”而不被明确编程。机器学习工具不用编码算法,而是通过大量数据中查找模式,使计算器能够开发和优化算法。

大多数时候,这些指标很容易理解和计算。例如,在二元分类中,精确度和召回率是一个一个简单直观的统计量。然而,目标检测是一个非常不同且有趣的问题。即使你的目标检测器在图片中检测到猫,但如果你无法定位,它也没有用处。由于你要预测的是图像中各个物体是否出现及其位置,如何计算mAP将非常有趣。

新智元将于9月20日在北京国家会议中心举办AI WORLD
2018世界人工智能峰会,MIT物理教授、未来生命研究所创始人、《生命3.0》作者Max
Tegmark,将发表演讲《我们如何利用AI,而不是被其压制》
,探讨如何直面AI军事化和杀人武器的出现,欢迎到现场交流!

不用写代码?

深度学习

自20世纪50年代以来,AI研究人员开发了许多机器学习方法。苹果的核心ML框架支持神经网络,树组合,支持向量机,广义线性模型,特征工程和流水线模型。然而,神经网络已经产生了许多最壮观的最近的成功,从2012年谷歌2012年使用YouTube视频来训练其人工智能来识别猫和人。只有五年后,Google正在赞助一个比赛,以确定5000种植物和动物。像Siri和Alexa这样的应用程序也存在于神经网络中。
一个神经网络试图用层次的节点来模拟人类脑部过程,并以不同的方式联系在一起。每个附加层需要大量增加计算能力:Inception
v3,一个对象识别模型,有48层和约2000万个参数。但是计算基本上是矩阵乘法,哪些GPU处理非常有效。
GPU的成本下降使得人们能够创建多层深层神经网络,因此是深入学习的术语。

mgm娱乐登录地址 3

image.png

神经网络需要大量的训练数据,理想地代表了全方位的可能性。
用户生成数据的爆炸也促成了机器学习的复兴。
训练模型意味着向神经网络提供训练数据,并使其计算用于组合输入参数以产生输出的公式。
培训发生在离线状态,通常在具有多个GPU的机器上。
要使用这个模型,你给它新的输入,它计算输出:这被称为推论。
推论仍然需要大量的计算,来计算新输入的输出。
由于像Metal这样的框架,现在可以在手持设备上进行这些计算。
如本教程末尾所示,深入学习远非完美。
建立真正有代表性的培训数据真的很困难,过分训练模型太容易了,所以对古怪的特征给予太多的重视。

在讲解mAP之前,我们先定义目标检测问题。

没错,只需为TensorFlow模型和数据集提供指针,What-If
Tool就能给出一个可用来探索模型结果的可交互的视觉界面。

苹果提供了什么?

苹果在iOS5中引入了NSLinguisticTagger来分析自然语言。Metal出现在iOS8中,提供对设备GPU的低级访问。
去年,苹果公司将基本神经网络子程序(BNNS)添加到其加速框架中,使开发人员可以构建神经网络来进行推理(而不是训练)。
而今年,苹果给出了CoreML和Vision!

  • Core ML 使您更容易在您的应用程序中使用经过训练的模型
  • Vision
    让您轻松访问Apple的模型,以检测脸部,面部地标,文字,矩形,条形码和对象。

您还可以在Vision模型中包装任何图像分析Core
ML模型,这在本教程中将会如何。
因为这两个框架是基于Metal构建的,所以它们在设备上高效运行,因此您不需要将用户的数据发送到服务器。

在目标检测问题中,给定一个图像,找到它所包含的物体,找到它们的位置并对它们进行分类。目标检测模型通常是在一组特定的类集合上进行训练的,所以模型只会定位和分类图像中的那些类。另外,对象的位置通常采用矩形边界框表示。因此,目标检测涉及图像中物体的定位和分类。

来源:Google AI

mgm娱乐登录地址 4

将CoreML模型集成到你的App中

本教程使用Places205-GoogLeNet模型,您可以从Apple的“机器学习页面.”页面下载。
向下滚动到Working with Models,并下载第一个。
当您在那里时,请注意其他三个模型,它们都会在图像中检测物体 –
树木,动物,人物等。

如果您使用受支持的机器学习工具(如Caffe,Keras或scikit-learn)创建的训练模型,将训练模型转换为CoreML可描述如何将其转换为Core
ML格式。

mgm娱乐登录地址 5image

编辑:大明

250张人脸和在模型中检测微笑后的结果

添加模型到项目中

下载完GoogLeNetPlaces.mlmodel后,拖到项目的Resources目录中。

mgm娱乐登录地址 6

image.png

选中这个文件,并稍等一下。当Xcode生成模型类时,将会出现一个箭头:

mgm娱乐登录地址 7

image.png

点击箭头就可以看到生成的类:

mgm娱乐登录地址 8

image.png

Xcode已经生成输入输出类,并且主要的类GoogLeNetPlaces有一个model属性和两个prediction方法。
GoogLeNetPlacesInput用一个CVPixelBuffer类型的sceneImage属性。这是什么?不要害怕,不要哭泣,Vision框架将会将我们属性的图像格式装换为正确的输入类型。
Vision框架还将GoogLeNetPlacesOutput属性转换为自己的结果类型,并管理对预测方法的调用,所以在所有生成的代码中,代码将只使用model属性。

下面所述的Mean Average Precision特别适用于同时预测物体位置及类别的算法。
因此,从图1可以看出,它对评估定位模型、目标检测模型和分割模型非常有用。

【新智元导读】Google AI推出“what-if
”工具,用户完全不需要编写代码就能分析机器学习模型。该工具提供交互式可视化界面,用户可以探索并比较模型结果,可以快速地发现模型中的错误。

What-If
Tool里功能很多,包括自动用Facets将数据集可视化,也有从数据集中手动编辑示例并查看更改效果的功能,还能自动生成部分关系图,显示模型预测随着单个特征的改变而改变的趋势。

在Vision模型中包装Core ML模型

最后,你将需要写些代码!打开ViewController.swift,在import UIKit下面导入两个框架:

import CoreML
import Vision

然后在IBActions扩展末尾添加如下扩展:

// MARK: - Methods
extension ViewController {

  func detectScene(image: CIImage) {
    answerLabel.text = "detecting scene..."

    // Load the ML model through its generated class
    guard let model = try? VNCoreMLModel(for: GoogLeNetPlaces().model) else {
      fatalError("can't load Places ML model")
    }
  }
}

代码意思如下:
首先,您显示一条消息,以便用户知道某些事情正在发生。
GoogLeNetPlaces的指定的初始化程序会引发错误,因此在创建时必须使用try。
VNCoreMLModel只是一个用于Vision请求的Core ML模型的容器。
标准Vision工作流程是创建模型,创建一个或多个请求,然后创建并运行请求处理程序。
您刚刚创建了该模型,因此您的下一步是创建一个请求。

detectScene(image:):末尾添加下面代码:

// Create a Vision request with completion handler
let request = VNCoreMLRequest(model: model) { [weak self] request, error in
  guard let results = request.results as? [VNClassificationObservation],
    let topResult = results.first else {
      fatalError("unexpected result type from VNCoreMLRequest")
  }

  // Update UI on main queue
  let article = (self?.vowels.contains(topResult.identifier.first!))! ? "an" : "a"
  DispatchQueue.main.async { [weak self] in
    self?.answerLabel.text = "\(Int(topResult.confidence * 100))% it's \(article) \(topResult.identifier)"
  }
}

VNCoreMLRequest是使用Core
ML模型来完成工作的图像分析请求。它的完成处理程序接收requesterror对象。
您检查该request.results是一组VNClassificationObservation对象,这是当Core
ML模型是分类器而不是预测器或图像处理器时,Vision框架返回的。而GoogLeNetPlaces是一个分类器,因为它仅预测了一个特征:图像的场景分类。
VNClassificationObservation有两个属性:identifier – 一个String类型 –
和confidence – 介于0和1之间的数字 –
这是分类正确的概率。当使用对象检测模型时,您可能只会看到那些confidence大于某个阈值的对象,例如30%。
然后,取第一个结果将具有最高的置信度值,并将不定冠词设置为“a”或“an”,具体取决于标识符的第一个字母。最后,您将返回主队列更新标签。你很快会看到分类工作发生在主队列中,因为它可能很慢。
现在,到第三步:创建和运行请求处理程序。
detectScene(image:):末尾添加下面代码:

// Run the Core ML GoogLeNetPlaces classifier on global dispatch queue
let handler = VNImageRequestHandler(ciImage: image)
DispatchQueue.global(qos: .userInteractive).async {
  do {
    try handler.perform([request])
  } catch {
    print(error)
  }
}

VNImageRequestHandler是标准的Vision框架请求处理程序;
它不是核心ML模型的具体。
你给它作为一个参数进入detectScene(image :)的图像。
然后通过调用其perform方法运行处理程序,传递一个请求数组。
在这种情况下,您只有一个请求。
perform方法抛出一个错误,所以你把它包装在一个try-catch。

1. 为什么是mAP?

构建高效的机器学习系统,需要提出并解决许多问题。仅仅训练模型然后就放着不管是远远不够的。优秀的机器学习从业者要像侦探一样,时刻注意探索如何更好地理解构建的模型:数据点的变化将对模型的预测结果造成什么影响?同一个模型对不同的群体会有哪些不同的表现?用来测试模型的数据集的多样化程度如何等等。

不过,这还不是What-If Tool的全部实力。

使用模型来分类场景

现在只需要在两个地方调用detectScene(image :)
viewDidLoad()imagePickerController(_:didFinishPickingMediaWithInfo :)的末尾添加以下行:

guard let ciImage = CIImage(image: image) else {
  fatalError("couldn't convert UIImage to CIImage")
}

detectScene(image: ciImage)

编译并运行。很快就可以看到分类:

mgm娱乐登录地址 9

image.png

嗯,是的,图像中有摩天大楼。 还有火车。
点击按钮,并选择照片库中的第一个图像:一些太阳斑点的叶子的特写镜头:

mgm娱乐登录地址 10

image.png

引用:

  • Apple’s Core ML
    Framework
    documentation
  • WWDC 2017 Session
    703
    Introducing Core ML
  • WWDC 2017 Session
    710
    Core ML in depth
  • Core ML and Vision: Machine Learning in iOS 11
    Tutorial

目标检测问题中的每个图片都可能包含一些不同类别的物体。如前所述,需要评估模型的物体分类和定位性能。因此,用于图像分类问题的标准指标precision不能直接应用于此。
这就是为什么需要mAP。 我希望读完这篇文章后,你将能够理解它的含义。

要回答这些问题并不容易。要回答这些“假设”问题,通常要编写自定义的一次性代码来分析特定模型。这个过程不仅效率低下,而且除了程序员,其他人很难参与改进机器学习模型的过程。

7大功能

2. 关于Ground Truth

Google AI
PAIR计划的一个重点就是让更广泛的人群能够更方便地对机器学习系统进行检查、评估和调试。

What-If Tool主要有七大功能,不知道有没有你需要的那一款:

对于任何算法,评估指标需要知道ground truth数据。
我们只知道训练、验证和测试数据集的ground truth。对于目标检测问题,ground
truth包括图像中物体的类别以及该图像中每个物体的真实边界框。

今天,我们正式发布What-If工具,该工具是开源的TensorBoard
Web应用程序的一项新功能,它允许用户在不编写代码的情况下分析机器学习模型。
What-If工具给出了TensorFlow模型和数据集的指针,提供了一个交互式可视化界面,用于探索模型结果。

功能一:可视化推断结果

mgm娱乐登录地址 11image

mgm娱乐登录地址 12

根据推断结果的不同,你的示例会被分成不同的颜色,之后可用混淆矩阵和其他自定义形式进行处理,从不同特征的角度显示推断结果。

这里给出了一个实际图片(jpg、png等格式),以及相应的文本注释(边界框坐标(x,
y, w, h)和类别),如图中红色框以及文本标签所示。

What-If工具显示一组250张面部图片及其检测微笑模型的结果

mgm娱乐登录地址 13

对于这个特殊例子,模型在训练时需要原始的图片:

What-If工具功能强大,可以使用Facets自动显示数据集,从数据集手动编辑示例并查看更改的效果,还能自动生成部分依赖图(partial
dependence
plots),显示模型的预测结果随任何单个功能的更改而变化的情况。

功能二:编辑一个数据点,看模型表现如何

mgm娱乐登录地址 14image

mgm娱乐登录地址 15

你可以编辑、添加或删除任何选定数据点的特性或特性值,然后运行推断来测试模型性能,也可上传全新示例。

以及ground
truth的3个坐标及类别(这里假定图片大小是1000x800px,所有的坐标值都是以像素为单位的近似值):

探索数据点上的What-if情景

mgm娱乐登录地址 16

mgm娱乐登录地址 17image

相关文章

网站地图xml地图