R语言机器学习与大数据可视化暨Python文本挖掘与自然语言处理核心技术研修

本文主要是介绍R语言机器学习与大数据可视化暨Python文本挖掘与自然语言处理核心技术研修,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

中国通信工业协会通信和信息技术创新人才培养工程项目办公室

通人办〔2017〕 第45号


“R语言机器学习与大数据可视化”暨“Python文本挖掘与自然语言处理”核心技术高级研修班的通知

各有关单位:

为了响应国家大数据战略加快建设数字中国,加强数据科学的创新发展和技术应用,打造大数据专业技术人才队伍,满足行业对人工智能、机器学习、深度学习等相关领域高端人才的迫切需求,我单位将于2018年1月23日至26日在上海、1月25日至28日在厦门分别举办“R语言机器学习与大数据可视化”、“Python文本挖掘与自然语言处理”核心技术高级研修班;课程目标、特点、教学大纲及师资安排等具体内容详见附件。 


 

附件:

一、课程对象

各高等院校大数据相关学科、计算机、软件、信息管理、统计、电子商务、金融、工商管理、数理统计专业等科研、教学带头人,骨干教师、博士生、硕士生,机器学习、数据挖掘、文本挖掘及自然语言处理技术的爱好者与潜在研究者。


二、时间与地点

2018年1月23日~26日  上  海

2018年1月25日~28日   厦  门


三、课程目标及特点   

  1. 通过实际的案例分析与流程演示,熟悉机器学习、大数据可视化、文本挖掘与自然语言处理等核心技术并学会如何将相应的技术运用到自己的实际工作中;

  2. 学会将数据挖掘的能力从有限的结构化数据延伸到非结构化的海量文字材料,全面提升个人的数据挖掘与分析应用能力;

  3. 通过紧密结合应用实例,针对工作中存在的疑难问题进行分析讲解和专题讨论,进而有效提升学员解决科研及教学中实际问题的能力同时提升其从数据角度去思考的能力;

  4. 采用理论知识+案例示范+练习讨论的workshop教学模式,从典型案例入手;既适合零基础的初学者,也适合经验丰富的操作者;

  5. 全栈式的数据科学及大数据人才培养体系,额外提供价值4000元共350G、75课时的python机器学习、数据挖掘、网络爬虫与文本挖掘最新教学视频及课件PPT,以协助高校开展数据科学与大数据专业建设,协助教师开展相关课程教学与科研;

  6. 通过流微信平台建立与授课专家的长期的答疑联系,提供即时的在线技术咨询;


四、课程内容

模块一:R语言机器学习与大数据可视化技术

第一天

第1讲:数据可视化(统计图形)

1.  数据可视化简介

2.  R语言基础作图

3.  ggplot2简介

4.  常见统计图形

第2讲:数据可视化(动态可视化)

1.  R的动态可视化框架

2.  Echarts简介

3.  Shiny与动态报告

4.  案例1:做一个动态可视化的小系统

第二天

第3讲:数据挖掘(数据处理与关联规则)

1.  数据处理与dplyr

2.  数据的清洗与转换

3.  关联规则简介

4.  案例2:零售店数据的挖掘

第4讲:数据挖掘(聚类和分类)

1.  数据挖掘与机器学习

2.  聚类和分类简介

3.  层次聚类分析

4.  K-Means 聚类分析

5.  基于密度的聚类

6.  案例3:互联网行为分析

第三天

第5讲:数据挖掘(分类算法)

1.  逻辑斯蒂回归

2.  混淆矩阵与交叉验证

3.  决策树

4.  随机森林

5.  Boosting

6.  案例4:足球比赛数据的机器学习

7.  分析与讨论

第6讲:数据挖掘(神经网络和深度学习)

1.  人工智能简介

2.  感知机和神经网络

3.  图像分析简介

4.  深度学习与卷积神经网络

5.  案例5:训练图像识别模型

6.  课程总结与讨论

模块二:Python文本挖掘与自然语言处理技术

第一天

第1讲:自然语言处理及文本挖掘介绍

1.自然语言处理简介

2.文本挖掘简介

3.自然语言处理与python

4.自然语言处理相关工具概述及对比

第2讲:python自然语言处理环境及基础语法

1.Anaconda套件

2.基本数据结构(列表/字符串/字典)

3.基本语法(条件/循环/函数/类/模块)

4.Jupyter  Notebook基本使用

5.python在自然语言处理中的应用

第3讲:文本数据处理

1.  基础包 numpy

2.  绘图与可视化 matplotlib与 seaborn

3.  自然语言处理包NLTK

4.  文本语料与词汇资源

5.  文本数据获取之爬虫

6.  文本预处理

第二天

第4讲:文本分类

1.  分类与标注词汇

2.  文本分类简介

3.  各类文本分类模型

4.  为语言模式建模

5.  案例分析

第5讲:文本信息提取

1.  信息提取

2.  分块

3.  开发和评估分块器

4.  语言结构中的递归

5.  命名实体识别

6.  关系抽取

7,  案例演示

第6讲:文法分析

1.  句子结构分析

2.  文法特征

3.  处理特征结构

4.  扩展基于特征的文法

第三天

第7讲:基于传统机器学习模型的文本分析技术基础

1.  文本挖掘全流程概述

2.  TextBlob文本处理库介绍

3.  中文分词介绍(jieba)

4.  词云介绍

5.  案例演示

第8讲:基于传统机器学习模型的文本分析技术应用

1.  文本挖掘预处理技术

2.  文本特征处理

3.  文本聚类

4.  主题模型

5.  案例演示

第9讲:基于深度学习的文本处理技术

1.  深度学习简介

2.  词向量技术

3.  RNN基本概念

4.  LSTM简介

5.  LSTM语言模型的实现

6.  案例:利用LSTM实现文本分类

第10讲:基于seq2seq模型的自然语言处理应用(选修)

1.  seq2seq模型简介

2.  Encoder-Decoder  结构

3.  seq2seq模型原理

4.  seq2seq模型的应用

5.  案例:基于seq2seq模型的机器翻译


五、颁发证书

学员经考核合格可获得国家工信部全国通信和信息技术创新人才培养工程《大数据挖掘与分析应用高级工程师》职业技术水平证书。该证表明持有者已通过相关考核,具备相应的专业知识和专业技能,并作为聘用、任职、定级和晋升的重要参考依据,全国通用。


六、拟邀师资

尹老师,数据科学家,浙江大学物理学博士,浙江某高校深度学习研究中心负责人,深度学习领域一线实战专家,兼任某网络科技上市公司大数据总监,承担30多个企业数据挖掘项目,受聘担任多家大数据教学机构主讲教师,开发多套python机器学习、网络爬虫与文本挖掘系列课程,10+年软件开发数据产品经验,熟悉R\Python\Javascript等多种编程语言,目前研究集中在推荐系统、文本挖掘、神经网络等深度学习领域,具有丰富的统计建模、数据挖掘、大数据技术教学经验,先后为中国交通银行,平安保险公司等数十家知名机构主讲python机器学习课程。


李老师,博士,毕业于北京大学,浙江大学软件学院兼职教授、华东师范大学硕士研究生导师,台北商业大学业界专业教师,曾任Mango Solutions中国区数据总监,主导数十个R语言数据挖掘与分析应用工程项目, 2003年从事R语言相关研究,擅长R语言的工程开发与分析建模,是 Rweibo、Rwordseg、tmcn等 R 包的作者,著有《数据科学中的R语言》,翻译了《R语言核心技术手册》、《机器学习与R语言》,撰写过大量R语言的基础和高级应用类文章,从事R语言数据挖掘分析培训多年,为国内多所科研院所及知名企业主讲R语言机器学习内训课程,探索出一套以案例讲解带动理论理解和软件操作熟悉的方法。


七、费用标准

每个模块参会费均为3980元/人(含专家授课费、教材考试费、证书申报、场地等),食宿统一安排,费用自理。


八、联系方式

联系电话: 18611038557         微  信: 18611038557

联 系 人: 宋 老 师            邮  箱: 1843626486@qq.com

(扫码咨询)


全国R语言与python数据科学高级研修班报名回执表

(经研究我单位选派以下同志参加此次学习)

单位名称


发票抬头


发票税号


发票内容

□1、培训费          □2、会议费         □3、会 务  费

缴款方式

□1、现  金          □2、刷  卡         □3、对公转账   

参会人数:_    ___      人

参会费用: _      ____元

 

参会

人员

名单

 

 

 

姓 名

职 务

手 机

电 子 邮 箱

















住宿安排

□1、住          □2、不住         □3、待定

住宿标准

□1、双人标间    □2、单间         □3、待定







注:请确定参加人员从速报名,培训报到前7日我们将以电子邮件的方式给您发送《报到通知》,告知具体培训地点、乘车路线等事宜。

这篇关于R语言机器学习与大数据可视化暨Python文本挖掘与自然语言处理核心技术研修的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/943438

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd