人工智能、大数据与深度学习之间的关系和差异(数据分析 人工智能)

时间:2023-09-11 21:25:14来源:网络整理
导读机器学习与数据挖掘有着复杂的关系。然而,今天,数据挖掘’似乎被划分为机器学习和数据科学之间的概念。深度学习不会取代所有其他机器学习算法和数据科学技术,至少还没有

人工智能、大数据和深度学习的关系与区别

互联网上不乏比较和对比数据科学术语的文章。 各种文学才华的人写了各种各样的文章,向任何愿意倾听的人表达他们的观点。 这几乎是压倒性的。

所以我也会记录一下这篇文章是否和这些问题类似。 是的,这是真的。

为什么又发一个帖子? 我想是这样。 尽管对于这些相关术语的定义和比较可能存在许多分散的意见,但事实是这些术语中的大多数都是流动的并且不完全常规。 谦虚换句话说,接触别人的想法是检验和完善自己想法的最佳方法之一。

因此,即使您可能不完全(或什至最低限度)同意我对这些条款的大部分观点,但仍然可以从中获得一些东西。 数据科学中有一些核心概念需要解释,或者至少在我看来很重要,我将尝试探索它们之间的关系,并回答这些单独概念组合时遇到的麻烦。

在单独思考概念之前,这里有一个不同视角的示例。 KDnuggets 的 Gregory Piatetsky-Shapiro 的维恩图概述了我们将要讨论的数据科学术语之间的关系。 建议读者将此维恩图与当前著名的数据科学维恩图(Drew Conway)进行比较,以及我下面的讨论和帖子顶部的变更过程/关系图。 我认为虽然有差异,但是这个概念有一定的相似性。

人工智能数据报告_人工智能数据解读_数据分析 人工智能

今天,我们将分解上面维恩图中圈出的六个核心概念,并提供一些关于如何将它们纳入数据科学的见解。 我们很快就抛出了过去六年中最热门的一些术语。

大数据

有很多文章定义了大数据,我不会在这个概念上花费太多时间。 简而言之,大数据通常被定义为“超出常用软件工具捕获、管理和处理能力”的数据集。 大数据是一个互联的对象; 这个定义既模糊又精确,足以捕捉其关键特征。

至于其他概念,我们将通过调查来初步了解搜索词和 N-gram 频率模型的流行程度,从而将这一困难与热炒作区分开来。 鉴于这两个概念都比较新,从1980年到2008年,N-gram频率模型作为一个“老”概念如上图所示。

最近的 Google 趋势显示,有 2 个新词出现上升,另外 2 个词保持持续上升,最后一个词逐渐但显着增长。 请注意,上图中不包含“大数据”,因为数据已经经过定量分析。 请继续阅读以了解有关观察结果的更多信息。

机器学习

根据汤姆·米切尔(Tom Mitchell)关于该主题的一本书的作者的说法,机器学习“关注如何创建可以使用经验手动改进的计算机程序的问题”。 机器学习本质上是跨学科的,借鉴了计算机科学、统计学和人工智能的技术。 机器学习研究的主要工作是推广凭经验手动改进的算法,使其可以应用于各个领域。

我认为没有人怀疑机器学习是数据科学的核心组成部分。 如果你觉得在一个特别高的层次上,目标是从数据中获得洞察力,我会在下面详细描述数据科学,尽管机器学习允许这个过程被手动化。 机器学习与经典统计学有很多共同点,因为它使用样本进行推理和概括。 虽然统计学更注重描述性(尽管可以通过外推法进行预测),但机器学习很少关注描述性分析,仅将其用作做出更好预测的中间步骤。 机器学习通常被认为是模式识别的同义词。 它确实与我的想法没有太大偏差,而且我相信“模式识别”一词实际上意味着比机器学习更简单、更简单。 过程,这就是为什么我倾向于回避它。

机器学习和数据挖掘有着复杂的关系。

数据挖掘

Fayyad、Piatetsky-Shapiro 和 Smyth 将数据挖掘定义为“应用特定算法从数据中提取模式”。 这说明在数据挖掘中,重点是算法的应用而不是算法本身。 我们可以将机器学习和数据挖掘之间的关系定义如下:数据挖掘是使用机器学习算法作为工具来提取数据集中潜在有价值的模式的过程。

“数据挖掘”是机器学习的姐妹术语,也是数据科学的关键。 事实上,在数据科学术语激增之前,数据挖掘作为谷歌搜索术语取得了更大的成功。 看看 Google 趋势,比上图显示的要早 5 年,“数​​据挖掘”曾经更受欢迎。 但是,明天,“数据挖掘”似乎被定义为机器学习和数据科学之间的一个概念。 如果同意上述数据挖掘是一个过程的解释,那么将数据科学视为数据挖掘的超集数据分析 人工智能,那么所有后续术语都有意义。

深度学习

尽管“深度学习”早在在线搜索爆发之前就已存在,但它仍然是一个相对较新的术语。 由于学术研究和产业的蓬勃发展,在不同领域取得了巨大的成就。 深度学习是应用深度神经网络技术(即具有多个隐藏层的神经网络架构)来解决问题。 深度学习是一个类似于数据挖掘的过程,它使用深度神经网络架构,是一种特定类型的机器学习算法。

深度学习已经取得了令人瞩目的成果。 鉴于此,至少在我看来,以下几点是没有必要关注的:

深度学习不是灵丹妙药——它不是针对所有问题的简单万能解决方案。

它不是万能药——深度学习不会取代所有其他机器学习算法和数据科学技术,至少目前还不会。

适度的期望是必要的——尽管最近在各种类型的分类问题上取得了巨大进展,特别是在计算机视觉、自然语言处理和强化学习等领域,但当代深度学习并不能扩展到非常复杂的问题,例如“解决世界和平”。

深度学习和人工智能不是同义词。

深度学习可以帮助数据科学以额外的流程和工具的形式解决问题,在这些观察中,深度学习是数据科学领域特别有价值的补充。

人工智能

大多数人发现很难给出人工智能的精确甚至广泛的定义。 我不是人工智能研究人员,所以我的答案可能与其他领域的答案有很大不同。 多年来数据分析 人工智能,通过对人工智能哲学的研究,我得出的结论是,人工智能,至少像我们通常认为的那样,实际上并不存在。

在我看来,人工智能是一个尺度,一个衔接的目标,一个渴望却遥不可及的目标。 每当我们迈向人工智能成就时,不知何故,该成就可能最终会被称为其他东西。

我之前读过以下内容:如果你问 20 世纪 60 年代的人工智能研究人员对人工智能的看法,他们可能会同意人工智能可以帮助我们预测下一步的行动和愿望,并且可以随时访问所有人类知识,装在我们口袋里的大型设备才是真正的人工智能。 明天我们都会携带智能手机,但很少有人会称其为人工智能。

人工智能适合数据科学吗? 嗯,就像我说的,我不认为人工智能是真正有形的,我想很难说它适合任何地方。 然而,在一些数据科学和机器学习相关领域,人工智能可以提供助力,有时与实体一样有价值; 计算机视觉肯定会引起关注,现代深度学习研究也是如此,这要归功于人工智能的灵性智能,如果不是无限期的话。

人工智能可能是一种研发设备,从未在行业中形成任何同名的东西。 我想说,这条从人工智能到数据科学的道路可能不是看待三者之间关系的最佳方式,而且这两个实体之间的许多中间步骤早已由人工智能以某种方式开发和建立。

数据科学

那么,讨论完这个相关概念和数据科学的地位之后,数据科学到底是什么? 对我来说,这是最难准确定义的概念之一。 数据科学是一门多方面的学科,包括机器学习和其他分析过程、统计学和物理学的相关分支,并且越来越多地利用高性能科学估计来最终从数据中发现见解,并使用这些新发现的信息来讲述故事。 这类故事通常附有图片(我们称之为可视化),针对的是行业、研究甚至我们自己,目的是从数据中获得一些新的见解。

数据科学使用相关领域的各种不同工具(请参阅前面的所有部分)。 数据科学既是数据挖掘的同义词,也是数据挖掘概念的超集。

数据科学产生各种不同的结果,但它们都有一个共同的见解。 数据科学就是这一切,但对你来说,可能是别的东西,但这甚至不包括获取、清理、判断和预处理数据! 顺便问一下,什么是数据? 总是很大吗?

我觉得我对数据科学痴迷的观点至少可以通过上图的版本以及本文底部的 Piatetsky-Shapiro Venn 图来体现。 我还建议与 Drew Conway 的数据科学维恩图基本一致,尽管我想补充一点,我认为他非常合理且实用的形象实际上指的是数据科学家,而不是数据科学。 这可能有些吹毛求疵,但我不认为数据科学本身涉及黑技能; 我相信这是科学家为了能够进行数据科学而拥有的一项技能。 诚然,这可能是对语义的讽刺,但在我看来这是有道理的。

事实上,这并不是一幅宏大的全景图,它是在不断演变的。 例如,我记得不久前读到数据挖掘是商业智能的一个子领域。 虽然有不同的意见,但我真的无法想象明天这会是一个有效的意见(说实话,几年前很难接受)。

结束感谢观看

最新文章