TensorFlow工具快速入门教程5 TensorFlow简介

什么是TensorFlow?

目前,世界上最出名的深度学习库是Google的TensorFlow。 Google在其所有产品中使用机器学习来改进搜索引擎,翻译,图片字幕或推荐。

Google用户可以通过AI体验更快,更精准的搜索。如果用户在搜索栏中键入关键字,则Google会提供有关下个字词的建议。

image

谷歌希望利用机器学习来利用其庞大的数据集,为用户提供最佳体验。角色分工有:研究人员、数据科学家、程序员。

谷歌不止拥有世界最大的海量数据,还拥有世界上最庞大的计算机集群,所以TensorFlow是按比例建造的。 TensorFlow是由Google Brain Team开发的库,用于加速机器学习和深度神经网络研究。

它在多个CPU或GPU甚至移动操作系统上运行,支持多种语言的包装器,如Python(为主),C++或Java。

TensorFlow的历史

几年前深度学习在提供大量数据时开始超越所有其他机器学习算法。谷歌看使用这些深度神经网络来改善其服务:Gmail、照片、谷歌搜索引擎

他们构建了Tensorflow的框架,让研究人员和开发人员在AI模型上协同工作。

Tensorflow于2015年底首次公开,第一个稳定版本于2017年出现。它基于Apache开源许可。您可以使用它,修改它并重新发布修改后的版本,而无需向Google支付任何费用。

TensorFlow架构

Tensorflow架构分为三个部分:

  • 预处理数据
  • 建立模型
  • 训练和评估模型

之所以叫Tensorflow,因为它将输入作为多维数组,也称为张量(tensors)。您可以构造对输入的操作(Graph)流程图。

TensorFlow能做什么?

TensorFlow可基于硬件和软件要求分类

开发阶段:训练模型。可在台式机或笔记本电脑上完成。

运行或推理阶段:Windows,macOS或Linux;云服务;iOS和Android等移动设备

您可以在多台机器上训练,在其他机器上运行。

该模型可以在GPU和CPU上进行训练和使用。 GPU最初是为视频游戏而设计的。在2010年底,斯坦福大学的研究人员发现GPU在矩阵运算和代数方面也非常擅长,因此它可以非常快速地进行这些计算。深度学习依赖于大量的矩阵乘法。 TensorFlow在计算矩阵乘法时非常快,因为它是用 ++编写的。虽然它是用C ++实现的,但TensorFlow可以被其他语言(主要是Python)访问和控制。

最后,TensorFlow的一个重要特征是TensorBoard。 TensorBoard可以图形化和直观地监控TensorFlow正在做什么。

TensorFlow组件简介

  • Tensor

所有计算都涉及张量。张量是n维的向量或矩阵,表示所有类型的数据。张量中的所有值都保持具有已知(或部分已知)形状的相同数据类型。数据的形状是矩阵或数组的维数。

张量可以源自输入数据或计算结果。在TensorFlow中,所有操作都在图形内部进行。图一组连续发生的计算。每个操作都称为操作节点,并相互连接。

该图概述了节点之间的操作和连接。但是,它不显示值。节点的边缘是张量,即计算数据操作的方法。

  • Graph:图

图收集并描述了训练期间完成的所有系列计算。

它可以在多个CPU或GPU甚至移动操作系统上运行。图的可移植性允许保留计算以立即或稍后使用。图中的所有计算都是通过将张量连接在一起来完成的

张量具有节点和边缘。节点承载数学运算并产生端点输出。边缘到边缘解释了节点之间的输入/输出关系。

为什么TensorFlow很受欢迎?

Tensorflow库结合了不同的API来构建大规模的深度学习架构,如CNN或RNN。 TensorFlow基于图形计算;它允许开发人员用Tensorboad可视化神经网络的构造。Tensorflow易于调试。最后,Tensorflow可以大规模部署。它运行在CPU和GPU上。

与其他深度学习框架相比,Tensorflow在GitHub上吸引了最大的人气。

TensorFlow支持的算法

目前,TensorFlow 1.10内置API支持:

  • 线性回归:tf.estimator.LinearRegressor
  • 分类:tf.estimator.LinearClassifier
  • 深度学习分类:tf.estimator.DNNClassifier
  • 深度学习擦除和深度:tf.estimator.DNNLinearCombinedClassifier
  • Booster 树回归:tf.estimator.BoostedTreesRegressor
  • Boosted树分类:tf.estimator.BoostedTreesClassifier

简单的TensorFlow示例

图片.png

在示例中,我们将X_1和X_2相乘。 Tensorflow将创建节点来连接操作。在我们的例子中,它被称为multiply。确定图形后,Tensorflow计算引擎将X_1和X_2相乘。

最后,我们将运行TensorFlow会话,该会话将运行具有X_1和X_2值的计算图并打印乘法的结果。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# Author:    xurongzhong#126.com wechat:pythontesting qq:37391319
# 技术支持 (可以加钉钉pythontesting邀请加入) 
# qq群:144081101 591302926  567351477
# CreateDate: 2018-11-21
import numpy as np
import tensorflow as tf

X_1 = tf.placeholder(tf.float32, name = "X_1")
X_2 = tf.placeholder(tf.float32, name = "X_2")
multiply = tf.multiply(X_1, X_2, name = "multiply")

with tf.Session() as session:
    result = session.run(multiply, feed_dict={X_1:[1,2,3], X_2:[4,5,6]})
    print(result)

执行结果

[ 4. 10. 18.]

参考资料

将数据加载到TensorFlow

两种公共方式可以加载数据:

1.将数据加载到内存中:这是最简单的方法。您将所有数据作为单个数组加载到内存中。您可以编写Python代码。代码与Tensorflow无关。

  1. Tensorflow数据管道。 Tensorflow具有内置API,可帮助您轻松加载数据,执行操作并提供机器学习算法。此方法非常有效,尤其是当您拥有大型数据集时。

如果您的数据集不是太大,即小于10G,则可以使用第一种方法。用Pandas导入CSV文件。

如果您有一个大型数据集,第二种方法效果最好。例如,如果您有50G的数据集,并且您的计算机只有16G的内存,那么计算机将crash。

在这种情况下,您需要构建Tensorflow管道。管道将以批量或小块的形式加载数据。每批都将被推送到管道并准备好进行培训。构建管道是一个很好的解决方案,因为它允许您使用并行计算。这意味着Tensorflow将在多个CPU上训练模型。它加快计算并允许训练强大的神经网络。

简而言之,小数据集可以使用Pandas库将数据加载到内存中。大型数据集并且想要使用多个CPU,那么使用Tensorflow管道会更加舒适。

创建Tensorflow管道

在之前的示例中,我们手动为X_1和X_2添加三个值。现在我们将看到如何将数据加载到Tensorflow。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# Author:    xurongzhong#126.com wechat:pythontesting qq:37391319
# 技术支持 (可以加钉钉pythontesting邀请加入) 
# qq群:144081101 591302926  567351477
# CreateDate: 2018-11-21
import numpy as np
import tensorflow as tf

x_input = np.random.sample((1,2))
print(x_input)

# using a placeholder
x = tf.placeholder(tf.float32, shape=[1,2], name = 'X')

dataset = tf.data.Dataset.from_tensor_slices(x)
iterator = dataset.make_initializable_iterator() 
get_next = iterator.get_next()

with tf.Session() as sess:
    # feed the placeholder with data
    sess.run(iterator.initializer, feed_dict={ x: x_input }) 
    print(sess.run(get_next)) # output [ 0.52374458  0.71968478]

执行结果

[[0.05395269 0.716471  ]]
[0.05395269 0.716471  ]

参考资料

links