如何用子域名做网站,网站建设和安全管理制度,网页美工设计的要点有哪些,小程序开发公司哪里强一、什么是数据驱动#xff1f;
数据驱动#xff08;Data-Driven#xff09;是在管理科学领域经常提到的名词。数据驱动决策#xff08;Data-Driven Decision Making#xff0c;简称DDD#xff09;是一种方法论#xff0c;即在决策过程中主要依赖于数据分析和解释…一、什么是数据驱动
数据驱动Data-Driven是在管理科学领域经常提到的名词。数据驱动决策Data-Driven Decision Making简称DDD是一种方法论即在决策过程中主要依赖于数据分析和解释而不是依赖于直觉或个人经验。它是相对于传统的经验驱动、直觉驱动或者偏见驱动的决策来讲的。 Case1数据驱动的案例 Netflix公司通过收集和分析用户的观看习惯评分搜索和其他行为数据开发出高度个性化的推荐算法以提高用户体验并增加用户观看时间。这种数据驱动的方法也被应用于决定哪些电影和电视节目应该被购买或制作。例如它的原创剧集纸牌屋House of Cards就是基于大量用户数据分析的结果决定制作的。 我们拿到数据经过数据预处理然后用来训练模型利用模型进行决策这就是数据驱动的决策。可以说目前的机器学习方法和深度学习方法大都是这个形式。但是早期的机器学习方法就是经验驱动的偏多了。经验驱动模型的设计和开发基于专家的经验知识目的是将特定领域的专家知识和推理过程编码到计算机程序中。这些系统利用了人工智能中的知识表示和知识推理技术特别是规则基础的推理来模仿人类专家的决策过程。如早期的专家系统 Case2经验驱动的下象棋模型 比如我们想创建一个会下象棋的模型这个模型就需要在博弈中决策每一步的棋子走法。经验驱动的模型是这样设计的首先把每个棋子的规则写进模型如“马走日象飞田”等然后找几个下象棋的高手然后把这些高手的下棋套路写进模型如对方“当头炮”那模型就要“把马跳”把高手的每一步应对策略当做规则写进模型里。 同样的案例数据驱动的决策模型就不依赖专家规则 Case3数据驱动的下象棋模型 我收集大量的博弈数据构建象棋数据集比如根据几百年来的棋谱和高手博弈的数百万场棋局中的每一步走法创建一个如下的数据集 Xy兵1兵2...相炮4,54,54,5-1,-1兵1向右移动1格4,64,54,5-1,-1炮..... 不需要告诉模型“马走日象飞田”这些基本规则只需要把数据输入到模型如逻辑回归当然这个模型很垃圾中进行训练就可以得到一个会下象棋的决策模型。 二、什么是以数据为中心
在上面的Case3中提到我们得到数据后使用逻辑回归来拟合这个分类模型由于逻辑回归的算法很简单效果很差所以大家就会琢磨更多更复杂更厉害的算法来拟合这些数据比如深度学习算法慢慢的随着技术的发展模型能力越来越好。直到2017年谷歌提出Attention is All you Need从此来到了Transformer一统天下的地步直到现在2024.05还没有产生可以挑战Transformer模型架构的新架构出现尤其是大语言模型诞生后Transformer架构的能力给予人们巨大的震撼。
由此可见随着技术的发展算法的复杂性已经不再是限制模型能力的瓶颈。之前人们卷算法、卷模型的时代可以称作“Model-Centric”人们的重点关注对象是模型。而现在模型已经不是限制人工智能的主要方面所以有人提出了“Data-Centric”以数据为中心的人工智能Data-Centric的意思不是说不关注模型而是说把模型和数据看的一样重要毕竟AI领域有句俗语“Garbage in garbage out”——垃圾进垃圾出。意思是垃圾的数据进去无论模型多NB出来的还是垃圾的模型大不了是个过拟合的垃圾模型。
尤其是ChatGPT的训练路径可以看出在数据集上的大量人力标注和筛选保证高质量的数据。
数据降噪、数据去偏、数据增强、数据平衡、数据配比、数据课程这些方法都属于Data-Centric的范畴目前发展还处于初步阶段。 参考文献
什么是数据驱动到底如何驱动数据驱动的内涵、方法、案例、优势和特征分析
专家系统简要介绍 - 乔胤博的文章 - 知乎https://zhuanlan.zhihu.com/p/381896056
目前以数据为中心Data-centric的人工智能发展如何 - 知乎https://www.zhihu.com/question/521096166
Data-Centric AI思考和实践 - 北冥有歌的文章 - 知乎https://zhuanlan.zhihu.com/p/593692636
2023年后AI 还有什么研究方向有前景 - 一堆废纸的回答 - 知乎https://www.zhihu.com/question/591140366/answer/2961915932