数据思维01：数据迷阵 Data Matrix

本文主要是介绍数据思维01：数据迷阵 Data Matrix，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

【专栏】数据思维01：数据迷阵 Data Matrix

1. 引言

电屏能同时接收和发送温斯顿所发出的任何声音，只要高于极低的细语，就能被它拾音。而且不仅如此，只要他待在那块金属板的视域之内，他就不仅能被听到，而且也能被看到。当然，在具体的某一时刻，你没办法知道自己是否正在被监视。思想警察接进某条电线的频度如何以及按照何种规定进行，都只能靠臆测，甚至有可能他们每时每刻都在监视着每个人。无论如何，他们可以随时接上你那条电线。你只能生活——确实是生活，一开始是习惯，后来变成了本能——在一个设想之下，即除非你处在黑暗中，否则你所发出的每个声音都会被偷听，每个举动都会被细察。

—— 《1984》乔治·奥威尔

数据行业的进程经历了缓慢的发展阶段。尽管数据的重要性已被广泛认可，但并非所有公司都具备处理和解读大量数据的能力。大多数公司依然重视传统的业务运行方式，而没有充分利用数据来优化业务决策。

商业智能领域出现后，数据层架构快速从数据库拓宽到了数据仓库。在商业级工具的辅助下，数据实施简单地区分为前端与后端。前端负责整理需求，把要做的报表及其图形定义好；后端则负责把数据拿回来，并保证正确且迅速。那时的数据依赖于企业应用系统，而重点使用数据的业务也通常是金融、电信一类公司。

在大数据逐渐融入主流之前，数据行业在国内的发展面临了重重挑战。既有缺乏数据技术专业知识的问题，又有公众对大数据的误解和恐惧。但是，随着技术的进步和公众认识的提高，大数据逐渐从一个陌生的概念发展成为各行各业的重要工具。我的职业标签也渐渐从“搞数据库的”，变成了“搞大数据的”。

那么，从如今的大数据技术框架来看，到底什么是数据？为什么数据思维变得越来越重要？我们又要如何做到与“数”共生？

2. 无处可躲–什么是数据

徐子沛在他的《数文明》中提出两种类型的数据。一是量数：

对事物进行测量的结果，通常是数值；

二是据数：

对周围环境的记录，比如图片，音视频等。

在社会学语境下，通常有量化研究和质化（质性）研究的区分：

量化研究是指着重探讨研究对象的数量特征、关系和变化，并以此预测社会现象的发展趋势的研究方法。典型的量化研究方法包括实验方法、统计方法等。

质性研究主要是通过对社会现象发展过程及其特征的深入分析．以及对社会现象的详细考察，解释社会现象的本质和变化发展的规律的方法。典型的质性研究方法包括实地研究、文献研究等。

由于量化研究和质性研究在研究的出发点、侧重点和归宿等方面存在着明显的不同，因此，如何正确对待和处理二者的关系一直是社会学研究方法的重大问题。

——百度百科

在数据分析统计工作中，描述型数据与数值型数据也早有定义。

数值型数据对应“量数”，直观易理解。而描述型数据则是对连续或离散的数据进行归类，就是我们常说的“打标签”动作。比如图片中的实体识别，你可以对图片打上诸如：汽车，自行车，火车，又或猫，狗，马，人类等等。算法生成的标签为有限个数的分类，即可供使用的描述性数据。可以说描述型数据可以使用算法从“据数”中提取出来，所谓“据数”指的是数据未经处理的原始状态，对“据数”加以处理后，才能用以描述事物。 “据数”的定义更多是站在技术角度提出，而对“据数”处理后的描述型数据则更具备业务含义，因为描述是人加上去的，不同视角会有不同描述。

例如你可以将一个视频描述为“猫”，也可以描述为“搞笑”，或者是将“猫”和“搞笑”作为描述同时打上，这些都要根据数据实际应用场景而定。从香农信息论的角度来看待数据，数据则是信息的其中一种，因此数据本身不会超出信息所具有的特点，对数据中蕴含信息量的衡量，仍然可以使用信息论的方法进行。

用自然语言处理中的一个经典编程练习来说明信息量的衡量会相对更直观：

假设你现在拿到一份周杰伦所有歌词的数据，作为算法训练的基础语料库。你可以把每一个汉字后面可能出现的汉字做一遍概率统计。这时你会得到一份很长的表单，上面的第一列是汉字A，第二列是所有A后面的汉字列表：B,C,D,E…，第三列则是第二列汉字出现的次数，比如B出现了10次，往后依次是8,6,3,1等等。有了这份表单之后，你就可以让机器自动写出像是周杰伦某一首歌的歌词，原理就是每次从概率最高的三个汉字里面随机挑一个，然后不断地递归这个过程。现在我们就拥有了一个可以模仿周杰伦写词的机器人，但它所能产生的信息量对于其自身而言是极小的。因为信息量指的是负熵，是信息的不确定性，所以越是机器人猜不准的歌词，信息量越大。

举一个不太恰当的例子来说，一份黄霑写的歌词，对于这个机器人来说信息量就很高。那香农信息论对数据分类而言又有什么启发呢？ 这时量数，据数这样的分类就变得不重要了，更重要的是如何知道数与数之间的关系，信息与信息之间的概率分布。

更进一步，洛根在他的书《什么是信息》中从信息角度入手，将其分到了生物域、符号域、技术域和经济域四个领域。

在生物域，信息被认为是生物体中遗传物质的基础，包括DNA、RNA等，它们之间的相互作用和变化构成了生命的本质。

符号域则是我们常见的语言、图像、符号等非物质形式的信息，它们通过抽象的符号系统传递和解读意义。

技术域的信息则主要是通过科技工具，如电脑、手机、互联网等来储存、处理和传递信息。

经济域的信息则是在商业环境中流动的各种数据和报告，为决策提供依据。

每一个领域都有其独特的信息特性和处理方式，但它们之间又存在着紧密的联系。例如，生物域的信息通过生物技术的发展，可以被转化为技术域的信息，用于疾病诊断、药物研发等。符号域的信息，则通过互联网技术，可以迅速传播到全世界。技术域的信息通过大数据和人工智能的分析，可以转化为经济域的信息，指导企业的决策。

对于数据工作者来说，理解这四个领域的信息特性和转化关系，不仅有助于更好的处理和分析数据，还能推动跨领域的数据应用，挖掘数据的更深层次价值。

3. 数非数–为什么数据思维很重要

如果你尝试将软件项目类型做个归类，你会发现涉及数据的工作无所不在。

比如数字孪生：从测绘到倾斜摄影，从规划到BIM再到CIM，处处皆是数据获取、融合乃至集成分析；商业智能：从业务系统三范式数据结构，到数据仓库经典星型结构，原来以支撑应用为主变为了支撑快速分析为主；实时数仓：从大数据量批处理，变为小数据量微批处理，再进化到信息管道实时处理；地理信息：以海量点线面数据为基础，通过空间算法产出诸如大数据选址、点位评估、路径规划等等系列应用……

而随着各行各业数据项目的落地，也催生了数据库领域的不断创新。为什么会有如此多不同的数据库？从系统论的角度有一条重要的原则：结构决定功能。

比如关系型数据库的数据结构可理解为如Excel一般的行列结构，其优点是便于找到列(维度)与行(实例)之间的关系。而KV键值数据库的结构则更为简单，更适合需要快速读写的场景，比如接口数据传输的Json。时序数据库以时间为索引，串联数据点、标签、系列数据点集合等，对于总是带有时间戳的数据处理更有优势。图数据库以知识图谱三元组为基本存储单元，用于支持知识图谱应用；而向量数据库更是如今人工智能的“长时记忆”库，在开发各种人工智能应用时必不可少。（数据结构详述请参考后续章节）

数据作为底层基础设施的建设，是数字世界中的水源，如果再泛化一些，你可以将所有可数字化的信息视作数据，那更是一天24小时不间断地跟数据打交道。

因此，如何看待数据，如何整理数据，如何使用数据，如何分享数据，这些都变得越来越重要，甚至是一个人在数字时代生存的基本素养。

4. 与数共生–如何与“数”共生

当你要跟数据打交道时，会涉及到哪些环节，如何才能做到真正地与“数”共生？

从工信部发布的《大数据产业人才岗位能力要求》来看，数据相关的主要岗位有十种：

数据预处理：采集、清洗、存储
数据标注：标注采集、数据标注、标注质检、标注管理
数据分析：算法研发、数据挖掘（算法应用）、数据分析、数据可视化
产品开发：产品架构、应用开发、软件测试、产品设计
项目实施与运维：解决方案、数据实施、数据运维
平台建设：平台架构、平台开发、平台运维
数据安全：安全架构、安全评估、安全运维
数据管理：数据治理，数据管理
运营与应用：数据运营，数据应用
咨询服务：咨询、培训、社群管理

假设从“业务”和“技术”两个维度对以上分类进行整合，那么业务原点与技术原点的交集在目前来说就是一个经典数据仓库+数据看板的项目，以此为基础，我们将以上分类整合到以下矩阵中来：

从技术路径来看，从预处理与标注等脏活累活开始，要么走向平台建设或是跟业务结合度更高的产品和分析线。而缺少技术的发展路线，则是从运营或项目入手，可以逐渐走向产品或治理方面的咨询工作。

如果我们再进一步将以上内容跟个人工作生活中的场景关联到一起，会发生什么？

预处理代表了所有的输入，包括你的阅读、对话、财务记录、购物记录等等；
标注是你输入后信息整理的第一步，最好可通过机器自动归集到你想要的一套分类中去；
分析也是期望中要自动化的功能，把现成好用的算法复用过来；
产品是你的个人大数据系统；
项目是你个人大数据系统中可迭代的功能项；
安全考虑的是如何保证你的个人数据不外泄；
运营是你对外输出的内容，如何让你创作的作品更有价值；
咨询则是你的数据思维本身。

至此，我们已可以将数据思维与市面上有的产品对应起来了。比如：

工作场景：企微、钉钉、飞书
财务场景：记账应用、证券投资类应用
购物消费场景：电商、支付、银行应用
信息场景：大纲笔记、一体化笔记、多模态信息整理系统
超级应用：某信、各种社交媒体

因为科斯定律的存在，数据所有权总会从个人转移到企业或政府手里。这是因为数据的收集、管理和分析都需要投入一定的资源，包括技术、人力、时间等，这就是数据的交易成本。个人往往难以承担这种成本，并且个人对数据的利用效率和价值提取能力通常也低于专门的组织。因此，数据的所有权往往会从个人转移到能更有效利用数据、提取数据价值的组织，如科技公司、政府部门等。这种转移不仅有利于更高效的数据利用，提高数据价值，也有利于个人。因为个人可以通过这种方式获得更好的服务和产品，例如更精准的推荐、更优质的用户体验等。

那么，除了把数据思维让道给各种“服务”，你就是“服务”付费就好了。还有没有一些我们希望握在自己手里的数据呢？我们又该如何让这些数据产生价值？产生的价值又应如何帮助我们更好地生活？这正是本专栏想要尝试解决的问题。