半结构化数据

发布时间：2023-06-12 作者：admin 来源：文学

半结构化数据

pear的同音词-先妣事略

2023年3月17日发(作者：shawshank)

⼤数据的结构和特征

⼀、⼤数据的结构

1.⼤数据的结构化

⼤数据包括结构化、半结构化和⾮结构化数据，⾮结构化数据越来越成为数据的主要部分。据IDC的调查报告显⽰：企业中80%的数据都是

⾮结构化数据，这些数据每年都按指数增长60%。⼤数据就是互联⽹发展到现今阶段的⼀种表象或特征⽽已，没有必要神话它或对它保持敬

畏之⼼，在以云计算为代表的技术创新⼤幕的衬托下，这些原本看起来很难收集和使⽤的数据开始容易被利⽤起来了，通过各⾏各业的不断

创新，⼤数据会逐步为⼈类创造更多的价值。

其次，想要系统的认知⼤数据，必须要全⾯⽽细致的分解它，从以下三个层⾯来展开：

第⼀层⾯是理论，理论是认知的必经途径，也是被⼴泛认同和传播的基线。在这⾥从⼤数据的特征定义理解⾏业对⼤数据的整体描绘和

定性；从对⼤数据价值的探讨来深⼊解析⼤数据的珍贵所在；洞悉⼤数据的发展趋势；从⼤数据隐私这个特别⽽重要的视⾓审视⼈和数据之

间的长久博弈。

第⼆层⾯是技术，技术是⼤数据价值体现的⼿段和前进的基⽯。在这⾥分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明

⼤数据从采集、处理、存储到形成结果的整个过程。

第三层⾯是实践，实践是⼤数据的最终价值体现。在这⾥分别从互联⽹的⼤数据，政府的⼤数据，企业的⼤数据和个⼈的⼤数据四个⽅⾯来

描绘⼤数据已经展现的美好景象及即将实现的蓝图。

2.结构化数据

结构化数据，简单来说就是数据库。也称作⾏数据，是由⼆维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过

关系型数据库进⾏存储和管理。结构化数据标记，是⼀种能让⽹站以更好的姿态展⽰在搜索结果当中的⽅式，搜索引擎都⽀持标准的结构化

数据标记。

结构化数据可以通过固有键值获取相应信息，且数据的格式固定，如RDBMSdata。

结构化最常见的就是具有模式的数据，结构化就是模式。⼤多数技术应⽤基于结构化数据。

3.半结构化数据

半结构化数据和普通纯⽂本相⽐具有⼀定的结构性，但和具有严格理论模型的关系数据库的数据相⽐更灵活。它是⼀种适于数据库集成的数

据模型，也就是说，适于描述包含在两个或多个数据库（这些数据库含有不同模式的相似数据）中的数据。它是⼀种标记服务的基础模型，

⽤于Web上共享信息。对半结构化数据模型感兴趣的动机主要是它的灵活性。特别的，半结构化数据是“⽆模式”的。更准确地说，其数据

是⾃描述的。它携带了关于其模式的信息，并且这样的模式可以随时间在单⼀数据库内任意改变。

这种灵活性可能使查询处理更加困难，但它给⽤户提供了显著地优势。例如，可以在半结构化模型中维护⼀个电影数据库，并且能如⽤户所

愿地添加类似“我喜欢看此部电影吗？”这样的新属性。这些属性不需要所有电影都有值，或者甚⾄不需要多于⼀个电影有值。同样的，可

以添加类似“homageto”这样的联系⽽不需要改变模式，或者甚⾄表⽰不⽌⼀对的电影间的联系。

因为我们要了解数据的细节，所以不能将数据简单地组织成⼀个⽂件按照⾮结构化数据处理，由于结构变化很⼤也不能够简单的建⽴⼀个表

和他对应。

半结构化数据可以通过灵活的键值调整获取相应信息，且数据的格式不固定，如json，同⼀键值下存储的信息可能是数值型的，可能是⽂本

型的，也可能是字典或者列表。

半结构化数据⽐较有意思，⾸先它的数据是有结构的，但却不⽅便模式化，有可能因为描述不标准，有可能因为描述有伸缩性，总之不能模

式化。XML和json表⽰的数据就有半模式的特点。

半结构化数据中结构模式附着或相融与数据本⾝，数据⾃⾝就描述了其相应结构模式，具有下述特征：

（1）数据结构⾃描述性。结构与数据相交融，在研究和应⽤中不需要区分“元数据”和“⼀般数据”（两者合⼆为⼀）。

（2）数据结构描述的复杂性。结构难以纳⼊现有的各种描述框架，实际应⽤中不易进⾏清晰的理解与把握。

（3）数据结构描述的动态性。数据变化通常会导致结构模式变化，整体上具有动态得结构模式。

常规的数据模型例如E-R模型、关系模型和对象模型恰恰与上述特点相反，因此可以成为结构化数据模型。⽽相对于结构化数据，半结构化

数据的构成更为复杂和不确定，从⽽也具有更⾼的灵活性，能够适应更为⼴泛的应⽤需求。其实⽤半模式化的视⾓看待数据是⾮常合理的。

没有模式的限定，数据可以⾃由地流⼊系统，还可以⾃由的更新。这更便于客观的描述事物。在使⽤时模式才应该起作⽤，使⽤者想获取数

据就应当构建需要的模式来检索数据。由于不同的使⽤者构建不同的模式，数据将最⼤化的被利⽤。这才是最⾃然的使⽤数据的⽅式。

4.⾮结构化数据

⾮结构化数据，是与结构化数据相对的，不适于由数据库⼆维表来表现，包括所有格式的办公⽂档、XML、HTML、各类报表、图⽚和咅

频、视频信息等。⽀持⾮结构化数据的数据库采⽤多值字段、了字段和变长字段机制进⾏数据项的创建和管理，⼴泛应⽤于全⽂检索和各种

多媒体信息处理领域。据IDC的⼀项调查报告中指出：企业中80%的数据都是⾮结构化数据，这些数据每年都按指数增长60%。

⾮结构化数据不可以通过键值获取相应信息。⾮结构化⼀般指⽆法结构化的数据，例如图⽚、⽂件、超媒体等典型信息，在互联⽹上的信息

内容形式中占据了很⼤⽐例。随着“互联⽹+”战略的实施，将会有越来越多的⾮结构化数据产⽣，据预测，⾮结构化数据将占据所有各种

数据的70-80%以上。结构化数据分析挖掘技术经过多年的发展，已经形成了相对⽐较成熟的技术体系。也正是由于⾮结构化数据中没有限

定结构形式，表⽰灵活，蕴含了丰富的信息。因此，综合看来，在⼤数据分析挖掘中，掌握⾮结构化数据处理技术是⾄关重要的。

其挑战性问题在于语⾔表达的灵活性和多样性，具体的⾮结构化数据处理技术包括：

（1）Web页⾯信息内容提取；

（2）结构化处理（含⽂⽂本的词汇切分、词性分析、歧义处理等）；

（3）语义处理（含实体提取、词汇相关度、句⼦相关度、篇章相关度、句法分析等）

（4）⽂本建模（含向量空间模型、主题模型等）

（5）隐私保护（含社交⽹络的连接型数据处理、位置轨迹型数据处理等）

这些技术所涉及的技术较⼴，在情感分类、客户语⾳挖掘、法律⽂书分析等等许多领域都有⼴泛的应⽤价值。

⼆、⼤数据的特征

1.⼤数据的4V特点

“⼤数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《⼤数据时代》中提出，指不⽤随机分析法（抽样调查）的捷径，

⽽是采⽤所有数据进⾏分析处理。

⼤数据具有4V特点，即Volume(⼤量)、Velocity(⾼速)、Variety(多样)和Veracity(精确)，其核⼼在于对这些含有意义的数据进⾏专业化

处理。

（1）数据体量巨⼤(volumes)

指代⼤型数据集，⼀般在10TB规模左右，但在实际应⽤中，很多企业⽤户把多个数据集放在⼀起，已经形成了PB级的数据量;百度资料表

明，其新⾸页导航每天需要提供的数据超过1.5PB(1PB=1024TB)，这些数据如果打印出来将超过5千亿张A4纸。有资料证实，到⽬前为

⽌，⼈类⽣产的所有印刷材料的数据量仅为200PB。

例如，IDC最近的报告预测称，到2020年，全球数据量将扩⼤50倍。⽬前，⼤数据的规模尚是⼀个不断变化的指标，单⼀数据集的规模

范围从⼏⼗TB到数PB不等。简⽽⾔之，存储1PB数据将需要两万台配备50GB硬盘的个⼈电脑。此外，各种意想不到的来源都能产⽣数

据。

在2003年，⼈类第⼀次破译⼈体基因密码时，⽤了10年才完成了30亿对碱基对的排序；⽽在10年之后，世界范围内的基因仪15分钟就可

以完成同样的⼯作量。伴随着各种随⾝设备、物联⽹和云计算、云存储等技术的发展，⼈和物的所有轨迹都可以被记录，数据因此被⼤量⽣

产出来。

移动互联⽹的核⼼⽹络节点是⼈，不再是⽹页，⼈⼈都成为数据制造者，短信、微博、照⽚、录像都是其数据产品；数据来⾃⽆数⾃动化传

感器、⾃动记录设施、⽣产监测、环境监测、交通监测、安防监测等；来⾃⾃动流程记录，刷卡机、收款机、电⼦不停车收费系统，互联⽹

点击、电话拨号等设施以及各种办事流程登记等。

（2）数据类别⼤和类型多样(variety)

数据来⾃多种数据源，数据种类和格式⽇渐丰富，已冲破了以前所限定的结构化。数据范畴，囊括了半结构化和⾮结构化数据。现在的数据

类型不仅是⽂本形式，更多的是图⽚、视频、⾳频、地理位置信息等多类型的数据，个性化数据占绝对多数。

数据多样性的增加主要是由于新型多结构数据，以及包括⽹络⽇志、社交媒体、互联⽹搜索、⼿机通话记录及传感器⽹络等数据类型造成。

⼤数据具有多层结构，这意味着⼤数据会呈现出多变的形式和类型。相较传统的业务数据，⼤数据存在不规则和模糊不清的特性，造成很难

甚⾄⽆法使⽤传统的应⽤软件进⾏分析。传统业务数据随时间演变已拥有标准的格式，能够被标准的商务智能软件识别。⽬前，企业⾯临的

挑战是处理并从各种形式呈现的复杂数据中挖掘价值。

多样化的数据来源正是⼤数据的威⼒所在，例如交通状况与其他领域的数据都存在较强的关联性。⼤数据不仅是处理巨量数据的利器，更为

处理不同来源、不同格式的多元化数据提供了可能。

（3）处理速度快(Velocity)

⾼速描述的是数据被创建和移动的速度。在⾼速⽹络时代，通过基于实现软件性能优化的⾼速电脑处理器和服务器，创建实时数据流已成为

流⾏趋势。企业不仅需要了解如何快速创建数据，还必须知道如何快速处理、分析并返回给⽤户，以满⾜他们的实时需求。

在数据量⾮常庞⼤的情况下，也能够做到数据的实时处理。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得⾼价值的信息。

在未来，越来越多的数据挖掘趋于前端化，即提前感知预测并直接提供服务给所需要的对象，这也需要⼤数据具有迅速的处理速度。

（4）价值真实性(Value)⾼和密度低

数据真实性⾼，随着社交数据、企业内容、交易与应⽤数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之⼒以

确保其真实性及安全性。以视频为例，⼀⼩时的视频，在不间断的监控过程中，可能有⽤的数据仅仅只有⼀两秒。

数据的真实性和质量是获得真知和思路最重要的因素，是制定成功决策最坚实的基础。

##2.⼤数据的3S或3I特点

3S指的是：⼤⼩（Size）、速度（Speed）和结构（Structure）。

3I指的是：

（1）、定义不明确的（）：多个主流的⼤数据定义都强调了数据规模需要超过传统⽅法处理数据的规模，⽽随着技术的进步，数

据分析的效率不断提⾼，符合⼤数据定义的数据规模也会相应不断变⼤，因⽽并没有⼀个明确的标准。

（2）、令⼈⽣畏的（Intimidating）：从管理⼤数据到使⽤正确的⼯具获取它的价值，利⽤⼤数据的过程中充满了各种挑战。

（3）、即时的（Immediate）：数据的价值会随着时间快速衰减，因此为了保证⼤数据的可控性，需要缩短数据搜集到获得数据洞察之间

的时间，使得⼤数据成为真正的即时⼤数据，这意味着能尽快地分析数据对获得竞争优势⾄关重要。

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章