数据思维01:数据迷阵 Data Matrix

2023-10-09 05:30
文章标签 数据 思维 01 data matrix 迷阵

本文主要是介绍数据思维01:数据迷阵 Data Matrix,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【专栏】数据思维01:数据迷阵 Data Matrix

1. 引言

电屏能同时接收和发送温斯顿所发出的任何声音,只要高于极低的细语,就能被它拾音。而且不仅如此,只要他待在那块金属板的视域之内,他就不仅能被听到,而且也能被看到。当然,在具体的某一时刻,你没办法知道自己是否正在被监视。思想警察接进某条电线的频度如何以及按照何种规定进行,都只能靠臆测,甚至有可能他们每时每刻都在监视着每个人。无论如何,他们可以随时接上你那条电线。你只能生活——确实是生活,一开始是习惯,后来变成了本能——在一个设想之下,即除非你处在黑暗中,否则你所发出的每个声音都会被偷听,每个举动都会被细察。

—— 《1984》乔治·奥威尔

数据行业的进程经历了缓慢的发展阶段。尽管数据的重要性已被广泛认可,但并非所有公司都具备处理和解读大量数据的能力。大多数公司依然重视传统的业务运行方式,而没有充分利用数据来优化业务决策。

商业智能领域出现后,数据层架构快速从数据库拓宽到了数据仓库。在商业级工具的辅助下,数据实施简单地区分为前端与后端。前端负责整理需求,把要做的报表及其图形定义好;后端则负责把数据拿回来,并保证正确且迅速。那时的数据依赖于企业应用系统,而重点使用数据的业务也通常是金融、电信一类公司。

在大数据逐渐融入主流之前,数据行业在国内的发展面临了重重挑战。既有缺乏数据技术专业知识的问题,又有公众对大数据的误解和恐惧。但是,随着技术的进步和公众认识的提高,大数据逐渐从一个陌生的概念发展成为各行各业的重要工具。我的职业标签也渐渐从“搞数据库的”,变成了“搞大数据的”。

那么,从如今的大数据技术框架来看,到底什么是数据?为什么数据思维变得越来越重要?我们又要如何做到与“数”共生?

2. 无处可躲–什么是数据

徐子沛在他的《数文明》中提出两种类型的数据。一是量数:

对事物进行测量的结果,通常是数值;

二是据数:

对周围环境的记录,比如图片,音视频等。

在社会学语境下,通常有量化研究和质化(质性)研究的区分:

量化研究是指着重探讨研究对象的数量特征、关系和变化,并以此预测社会现象的发展趋势的研究方法。典型的量化研究方法包括实验方法、统计方法等。

质性研究主要是通过对社会现象发展过程及其特征的深入分析.以及对社会现象的详细考察,解释社会现象的本质和变化发展的规律的方法。典型的质性研究方法包括实地研究、文献研究等。

由于量化研究和质性研究在研究的出发点、侧重点和归宿等方面存在着明显的不同,因此,如何正确对待和处理二者的关系一直是社会学研究方法的重大问题。

——百度百科

在数据分析统计工作中,描述型数据与数值型数据也早有定义。

数值型数据对应“量数”,直观易理解。而描述型数据则是对连续或离散的数据进行归类,就是我们常说的“打标签”动作。比如图片中的实体识别,你可以对图片打上诸如:汽车,自行车,火车,又或猫,狗,马,人类等等。算法生成的标签为有限个数的分类,即可供使用的描述性数据。 可以说描述型数据可以使用算法从“据数”中提取出来,所谓“据数”指的是数据未经处理的原始状态,对“据数”加以处理后,才能用以描述事物。 “据数”的定义更多是站在技术角度提出,而对“据数”处理后的描述型数据则更具备业务含义,因为描述是人加上去的,不同视角会有不同描述。

例如你可以将一个视频描述为“猫”,也可以描述为“搞笑”,或者是将“猫”和“搞笑”作为描述同时打上,这些都要根据数据实际应用场景而定。 从香农信息论的角度来看待数据,数据则是信息的其中一种,因此数据本身不会超出信息所具有的特点,对数据中蕴含信息量的衡量,仍然可以使用信息论的方法进行。

用自然语言处理中的一个经典编程练习来说明信息量的衡量会相对更直观:

假设你现在拿到一份周杰伦所有歌词的数据,作为算法训练的基础语料库。你可以把每一个汉字后面可能出现的汉字做一遍概率统计。这时你会得到一份很长的表单,上面的第一列是汉字A,第二列是所有A后面的汉字列表:B,C,D,E…,第三列则是第二列汉字出现的次数,比如B出现了10次,往后依次是8,6,3,1等等。 有了这份表单之后,你就可以让机器自动写出像是周杰伦某一首歌的歌词,原理就是每次从概率最高的三个汉字里面随机挑一个,然后不断地递归这个过程。 现在我们就拥有了一个可以模仿周杰伦写词的机器人,但它所能产生的信息量对于其自身而言是极小的。因为信息量指的是负熵,是信息的不确定性,所以越是机器人猜不准的歌词,信息量越大。

举一个不太恰当的例子来说,一份黄霑写的歌词,对于这个机器人来说信息量就很高。 那香农信息论对数据分类而言又有什么启发呢? 这时量数,据数这样的分类就变得不重要了,更重要的是如何知道数与数之间的关系,信息与信息之间的概率分布。

更进一步,洛根在他的书《什么是信息》中从信息角度入手,将其分到了生物域、符号域、技术域和经济域四个领域。

在生物域,信息被认为是生物体中遗传物质的基础,包括DNA、RNA等,它们之间的相互作用和变化构成了生命的本质。

符号域则是我们常见的语言、图像、符号等非物质形式的信息,它们通过抽象的符号系统传递和解读意义。

技术域的信息则主要是通过科技工具,如电脑、手机、互联网等来储存、处理和传递信息。

经济域的信息则是在商业环境中流动的各种数据和报告,为决策提供依据。

每一个领域都有其独特的信息特性和处理方式,但它们之间又存在着紧密的联系。例如,生物域的信息通过生物技术的发展,可以被转化为技术域的信息,用于疾病诊断、药物研发等。符号域的信息,则通过互联网技术,可以迅速传播到全世界。技术域的信息通过大数据和人工智能的分析,可以转化为经济域的信息,指导企业的决策。

对于数据工作者来说,理解这四个领域的信息特性和转化关系,不仅有助于更好的处理和分析数据,还能推动跨领域的数据应用,挖掘数据的更深层次价值。

3. 数非数–为什么数据思维很重要

如果你尝试将软件项目类型做个归类,你会发现涉及数据的工作无所不在。

比如数字孪生:从测绘到倾斜摄影,从规划到BIM再到CIM,处处皆是数据获取、融合乃至集成分析;商业智能:从业务系统三范式数据结构,到数据仓库经典星型结构,原来以支撑应用为主变为了支撑快速分析为主;实时数仓:从大数据量批处理,变为小数据量微批处理,再进化到信息管道实时处理;地理信息:以海量点线面数据为基础,通过空间算法产出诸如大数据选址、点位评估、路径规划等等系列应用……

而随着各行各业数据项目的落地,也催生了数据库领域的不断创新。为什么会有如此多不同的数据库?从系统论的角度有一条重要的原则:结构决定功能

比如关系型数据库的数据结构可理解为如Excel一般的行列结构,其优点是便于找到列(维度)与行(实例)之间的关系。而KV键值数据库的结构则更为简单,更适合需要快速读写的场景,比如接口数据传输的Json。时序数据库以时间为索引,串联数据点、标签、系列数据点集合等,对于总是带有时间戳的数据处理更有优势。图数据库以知识图谱三元组为基本存储单元,用于支持知识图谱应用;而向量数据库更是如今人工智能的“长时记忆”库,在开发各种人工智能应用时必不可少。(数据结构详述请参考后续章节)

数据作为底层基础设施的建设,是数字世界中的水源,如果再泛化一些,你可以将所有可数字化的信息视作数据,那更是一天24小时不间断地跟数据打交道。

因此,如何看待数据,如何整理数据,如何使用数据,如何分享数据,这些都变得越来越重要,甚至是一个人在数字时代生存的基本素养。

4. 与数共生–如何与“数”共生

当你要跟数据打交道时,会涉及到哪些环节,如何才能做到真正地与“数”共生?

从工信部发布的《大数据产业人才岗位能力要求》来看,数据相关的主要岗位有十种:

  • 数据预处理:采集、清洗、存储
  • 数据标注:标注采集、数据标注、标注质检、标注管理
  • 数据分析:算法研发、数据挖掘(算法应用)、数据分析、数据可视化
  • 产品开发:产品架构、应用开发、软件测试、产品设计
  • 项目实施与运维:解决方案、数据实施、数据运维
  • 平台建设:平台架构、平台开发、平台运维
  • 数据安全:安全架构、安全评估、安全运维
  • 数据管理:数据治理,数据管理
  • 运营与应用:数据运营,数据应用
  • 咨询服务:咨询、培训、社群管理

假设从“业务”和“技术”两个维度对以上分类进行整合,那么业务原点与技术原点的交集在目前来说就是一个经典数据仓库+数据看板的项目,以此为基础,我们将以上分类整合到以下矩阵中来:

从技术路径来看,从预处理与标注等脏活累活开始,要么走向平台建设或是跟业务结合度更高的产品和分析线。而缺少技术的发展路线,则是从运营或项目入手,可以逐渐走向产品或治理方面的咨询工作。

如果我们再进一步将以上内容跟个人工作生活中的场景关联到一起,会发生什么?

预处理代表了所有的输入,包括你的阅读、对话、财务记录、购物记录等等;
标注是你输入后信息整理的第一步,最好可通过机器自动归集到你想要的一套分类中去;
分析也是期望中要自动化的功能,把现成好用的算法复用过来;
产品是你的个人大数据系统;
项目是你个人大数据系统中可迭代的功能项;
安全考虑的是如何保证你的个人数据不外泄;
运营是你对外输出的内容,如何让你创作的作品更有价值;
咨询则是你的数据思维本身。

至此,我们已可以将数据思维与市面上有的产品对应起来了。比如:

工作场景:企微、钉钉、飞书
财务场景:记账应用、证券投资类应用
购物消费场景:电商、支付、银行应用
信息场景:大纲笔记、一体化笔记、多模态信息整理系统
超级应用:某信、各种社交媒体

因为科斯定律的存在,数据所有权总会从个人转移到企业或政府手里。这是因为数据的收集、管理和分析都需要投入一定的资源,包括技术、人力、时间等,这就是数据的交易成本。个人往往难以承担这种成本,并且个人对数据的利用效率和价值提取能力通常也低于专门的组织。因此,数据的所有权往往会从个人转移到能更有效利用数据、提取数据价值的组织,如科技公司、政府部门等。这种转移不仅有利于更高效的数据利用,提高数据价值,也有利于个人。因为个人可以通过这种方式获得更好的服务和产品,例如更精准的推荐、更优质的用户体验等。

那么,除了把数据思维让道给各种“服务”,你就是“服务”付费就好了。还有没有一些我们希望握在自己手里的数据呢?我们又该如何让这些数据产生价值?产生的价值又应如何帮助我们更好地生活?这正是本专栏想要尝试解决的问题。

5. 心中有“数”–专栏初拟大纲

假设将数据思维分成十讲来进行,那我会将其分成四个模块:

1.从目标出发,你要解决什么问题

  • 第一讲(本篇):数据迷阵(Data Matrix)
  • 第二讲:为什么需要数据,数据真的无所不在吗
  • 第三讲:与数据相关的关联学科及其应用

2.拆解问题,你需要哪些数据

  • 第四讲:量化思维的优势与局限
  • 第五讲:深化理解数据要素及数据结构
  • 第六讲:大数据技术的结合应用

3.分析数据,如何从数据中获取洞见

  • 第七讲:如何对要分析的数据进行建模
  • 第八讲:先验与后验,如何评估结论的有效性
  • 第九讲:数据挖掘很难吗?如何不依赖技术去“挖掘”数据价值?

4.总结

  • 第十讲:数据能为你的工作生活带来什么,个人数据系统搭建指南

这篇关于数据思维01:数据迷阵 Data Matrix的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/170670

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

hdu 2602 and poj 3624(01背包)

01背包的模板题。 hdu2602代码: #include<stdio.h>#include<string.h>const int MaxN = 1001;int max(int a, int b){return a > b ? a : b;}int w[MaxN];int v[MaxN];int dp[MaxN];int main(){int T;int N, V;s

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav