事务数据库由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表(如,在商店购买的商品)。事务数据库可能有一些与之相关联的附加表,包含关于销售的其它信息,如事务的日期、顾客的 ID 号、销售者的 ID 号、销售分店,等等。假定你...
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人...
元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。元数据是描述其它数据的数据,或者说是用于提供某种资源的有关信息的结构数据。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查...
空间数据库包含涉及空间的信息。这种数据库包括地理(地图)数据库、VLSI 芯片设计数据库、医疗和卫星图象数据库。空间数据可能以 光栅格式提供,由 n 维位图或象素图构成。例如,一个 2维卫星图象可以用光栅数据表示,每个象素存放一个给定区域的降雨量。地图也可以用 向量格式提供,其中,路、桥、建筑物和湖...
指数化思维,是指将衡量一个问题的多个因素分别量化后,组合成一个综合指数(降维),来持续追踪的方式。把这个放在最后讨论,目的就是强调它的重要性。前文已经说过,许多管理者面临的问题是“数据太多,可用的太少”,这就需要“降维”了,即要把多个指标压缩为单个指标。指数化的好处非常明显,一是减少了指标,使得管理...
数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模...
时间数据库和时间序列数据库都存放与时间有关的数据。 时间数据库通常存放包含时间相关属性的数据。这些属性可能涉及若干时间标签,每个都具有不同的语义。 时间序列数据库存放随时间变化的值序列,如,收集的股票交易数据。数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势。这些信息对于决策和规划是有用的...
逻辑树又称为演绎树或分解树,英文叫做Issue Tree,是一种以树状图形来分析存在的问题及其相互关系的方法。首先将一个已知问题当成树干,然后开始思考这个问题与哪些相关问题或子任务有关,每想到一点就给这个问题(也就是树干)加一个“树枝”,并标明这个“树枝”代表什么问题,一个大的“树枝”上还可以有小的...
数据流通常被定义为不断到达的元组所构成的无限数据集,或是一个连续、无界、顺序、时变的元组序列,对它的应用大多是监控型的,即持续运行在连续数据流上的连续查询。在传统数据库系统中,其处理的对象是持久的关系,接受的是即席的查询,查询计划是固定的,查询执行模式是随机访问数据库并且可以对其多遍扫描,应用没有实...
数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询提取。例如,你可能希望将上一年销售增加 10%的软件产品与同一时期销售至少下降 30%的那些进行比较。用于数据区分的方法与用于数据特征的那些类似。“区分描述如何输出?”输出的形式...
对比思维也是运营最常见的一种思维方法纵向对比:自己和自己比,包括环比(和上一期自己比)、同比(和去年同期自己比)横向对比:自己和他人比,比如IOS和安卓的销售额,女装和男装的销售额等等对比思维经常被错误应用,把不可比的数据放在一起对比,比如A品牌20年同比增长42%,B品牌20年同比增长仅28%,说...
流处理是一种重要的大数据处理手段,其主要特点是其处理的数据是源源不断且实时到来的。分布式流处理是一种面向动态数据的细粒度处理模式,基于分布式内存,对不断产生的动态数据进行处理。其对数据处理的快速,高效,低延迟等特性,在大数据处理中发挥越来越重要的作用。分布式流处理是指基于分布式技术对流数据进行动态处...
星形模式:最常见的模型范例星形模式;其中数据仓库包括(1)一个大的、包含大批数据、不含冗余的中心表( 事实表);(2)一组小的附属表( 维表),每维一个。这种模式图很象星星爆发,维表围绕中心表显示在射线上。在星形模式中,每维只用一个表表示,每个表包含一组属性。例如,location 维表包含属性集{...
细分思维应用的最频繁,几乎每天都在应用,比如应用思维导图对某项任务的细分拆解。细分思维主要是将某个指标层层分解,拆解成最小颗粒度,定位分析问题的一种思维方法。那在数据分析上,细分思维如何应用呢?1. 单一维度细分通过时间、空间、过程等单一维度进行拆解,比如将全年销售分解成12个月,将全国GDP分解成...
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。 非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理...
雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。结果,模式图形成类似于雪花的形状。雪花模式和星形模式的主要不同在于,雪花模式的维表可能是规范化形式,以便减少冗余。这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。然而,与巨大的事实表相...
相关思维是比较复杂的统计学数据思维,相关思维包含正相关、负相关、非线性相关、不相关等多种类型,大部分应用在生物学、科学领域。复杂的相关分析需要应用函数,建模才能完成,而现实工作中,大部分应用不到这么深层复杂的程度。大部分应用主要研究A与B之间的关系,如销售额与UV之间的关系,广告费用成本与获取曝光量...
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与...
数据集市包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定的主题。例如,一个商场的数据集市可能限定其主题为顾客、商品和销售。包括在数据集市中的数据通常是汇总的。通常,数据集市可以在低价格的部门服务器上实现,基于 UNIX 或 Windows/NT。实现数据集市的周期一般是数以周计,而...
这种思维方式已经普及:注册转化、购买流程、销售管道、浏览路径等,太多的分析场景中,能找到这种思维的影子。但是,看上去越是普世越是容易理解的模型,它的应用越得谨慎和小心。在漏斗思维当中,尤其要注意漏斗的长度。漏斗从哪里开始到哪里结束?漏斗的环节不该超过5个,且漏斗中各环节的百分比数值,量级不要超过10...