实证分析 | STATA入门数据处理

2023-10-12 21:30

本文主要是介绍实证分析 | STATA入门数据处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

STATA十八讲1-7讲

1. 常用命令

*--- 需求帮助 ---*
help
search
*--- 进入某路径 ---*
cd
*--- 设定内存 ---*
set memory 20m
*--- 打开和保存数据 ---*
clear
ues
save
*--- 导入数据 ---*
input
edit
import
*--- 重整数据 ---*
append
merge
xpose
reshape
gen
egen
rename
drop
keep
sort
encode
decode
order
by

2.命令语句

  1. 命令语句的格式

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

  1. 命令 command

只要不引起歧义,命令可以尽量只写前几个字母,如summarize可以写成sum

  1. 变量varlist

varlist表示一个变量,或者多个变量,多个变量之间用空格隔开

  1. 分类操作 by varlist

by varlist在执行时要求内存中的数据是按照by后面的变量排序的,当未排序正确时就会提示not sorted错误

sort foreign              //按国产车和进口车排序
by foreign: sum price weight
  1. 赋值及运算 = exp

该选项主要用于给新变量负值或替换原变量的值

gen nprice = price + 10
replace nprice = nprice - 10
  1. 条件表达式 if exp
*只查看价格超过1 万元的进口车(同时满足两个条件)
list make price if foreign==1 & price>10000
*查看价格超过1 万元或者进口车(两个条件任满足一个)
list make price if foreign==1 | price>10000
*分类型查看价格超过1 万元的汽车的品牌和价格
by foreign, sort: list make price if price>10000
  1. 范围筛选 in range

如果要计算较低的前10 台车的平均价格

sort price
sum price in 1/10
  1. 加权 weight
sum score [weight = num] //求分数的均值,num为不同分值的人数变量,以人数进行加权
  1. 其他可选项 , options

不同命令有不同可选项,实现不同的功能

3. 数据

  1. 打开数据
use xxx.dta, clear
  1. 数据类型
  • 数值型变量按精度区分:byte,int,long,float,double

  • 字符串变量,最多可以达244个字符,一般用str#表示字符的多少,例如str#20表示有20个字符

  • 日期型变量,在STATA中,1960年1月1日被认为是第0天

  • 缺失值

  1. 数据类型的转化

字符型变量转化成数值型变量:destring

destring date, replace   //把date转换成数值型* 把字符型变量中含有非数值型字符时不能进行转换
destring date, replace ignore(" ")  //忽略空格,然后转换
destring price percent, gen(price2 percent2) ignore(“$ ,%”) //忽略$空格,%,并生成新变量

数值型转变量换为字符型变量:tostring

tostring year, replace
  1. 数据显示格式:format
  2. 在STATA中直接录入数据:input
clear
input id str10 name economy
1 john 40
2 chris 80
3 jack 90
end
save economy.dta, replace
  1. 标签数据

label给数据/变量/变量值增加标签说明

label data "上市公司基本信息表"    //给数据集设置标签
label var code "证券代码"         //给变量设置标签
label define statelb 1 "国有企业" 0 "非国有企业"
label values state statelb       //给变量值设置标签
  1. 删除数据
erase mydata.dta    //删除文件时一定要带上后缀名

4. 数据整理

  1. 连接数据

纵向合并数据

use male, clear
append using female.dta

横向合并数据

merge 1:1 code year using mydata.dta, nogen keep(1 3)  //1对1横向合并
  1. 数据重整

*--- 数据重整,宽变长 ---*
use mywide.dta, clear
reshape long math economy, i(id name) j(year)
save mylong.dta, replace*--- 数据重整,长变宽 ---*
use mylong.dta, clear
reshape wide math economy, i(id name) j(year)
save mywide.dta, replace

将多列数据变一列:stack

stack var1-var6, into(x) clear
drop _stack
  1. 数据转置

行列互换

use math.dta, clear
xpose, clear

5. 函数与运算符

  1. 运算符

  1. 函数概览

  1. 数学函数
  • 三角函数、指数和对数函数
gen y1 = sin(x)
gen y2 = exp(x)
gen y3 = ln(x)
  • 取整和四舍五入
*--- 取整 ---*
int(x) //取整,不论后面的小数是什么,只取小数点前的数值*--- 四舍五入 ---*
round(x) // 四舍五入取整
round(x, .01) //保留两位小数四舍五入
  • 求和及求均值gen和egen
gen y = sum(x)  //求列累积和
egen y = sum(x) //求列总和
egen y = rsum(x y z) //求x+y+z总和
egen y = rowmean(x y z) //求(x+y+z)/3
egen y = rowsd(x y z) //求x y z的方差
egen y = rowmim(x y z) //求x y z的最小值
egen y = rowmax(x y z) //求x y z的最大值
egen y = mean(x)      //求列均值
egen y = median(x)    //求列中位数
egen y = std(x)       //求变异系数,与方差不同
  1. 字符函数
gen year = substr(enddate,1,4)  //从enddate字符1开始取,取4个字符赋给year
gen y = strpos(s1, s2) != 0    //strpos(s1, s2)返回字符s2在s1中的位置,如果s1中找不到s2,则返回0,将该判断再赋给y
  1. 分类操作
by x, sort: gen z = y[1]  //按照x分组,生成一个新变量z=y的第一个观察值
bysort x: gen z = y[1]
bysort x(y): gen z = y[1] //按照x分组,分组后按照y排序,生成一个新变量z=y的第一个观察值

6. 程序

  1. 暂元

暂元是程序中的临时变量,分为暂元名和暂元内容两部分,类似于变量名和变量值

local v3 "price length weight"  // 将price length weight 这组字符赋给暂元名v3
list `v3' in 1/5glocal v3 "price length weight"  // 将price length weight 这组字符赋给暂元名v3
list $v3 in 1/5

global与local的区别

global为全局暂元,local为局域暂元

7. 流程语句

  1. 循环语句:forvalues
forvalues i = 1/5 {
display `i'
}forvalues i = 4 (-0.2) 0 {
display `i'
}
  1. 循环语句:foreach

按照变量循环

foreach v of varlist var1-var6 {
replace `v' = 0 if `v' == .
}

这篇关于实证分析 | STATA入门数据处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/198588

相关文章

Spring Boot Interceptor的原理、配置、顺序控制及与Filter的关键区别对比分析

《SpringBootInterceptor的原理、配置、顺序控制及与Filter的关键区别对比分析》本文主要介绍了SpringBoot中的拦截器(Interceptor)及其与过滤器(Filt... 目录前言一、核心功能二、拦截器的实现2.1 定义自定义拦截器2.2 注册拦截器三、多拦截器的执行顺序四、过

C++ scoped_ptr 和 unique_ptr对比分析

《C++scoped_ptr和unique_ptr对比分析》本文介绍了C++中的`scoped_ptr`和`unique_ptr`,详细比较了它们的特性、使用场景以及现代C++推荐的使用`uni... 目录1. scoped_ptr基本特性主要特点2. unique_ptr基本用法3. 主要区别对比4. u

SpringCloud Stream 快速入门实例教程

《SpringCloudStream快速入门实例教程》本文介绍了SpringCloudStream(SCS)组件在分布式系统中的作用,以及如何集成到SpringBoot项目中,通过SCS,可... 目录1.SCS 组件的出现的背景和作用2.SCS 集成srping Boot项目3.Yml 配置4.Sprin

Nginx内置变量应用场景分析

《Nginx内置变量应用场景分析》Nginx内置变量速查表,涵盖请求URI、客户端信息、服务器信息、文件路径、响应与性能等类别,这篇文章给大家介绍Nginx内置变量应用场景分析,感兴趣的朋友跟随小编一... 目录1. Nginx 内置变量速查表2. 核心变量详解与应用场景3. 实际应用举例4. 注意事项Ng

Java多种文件复制方式以及效率对比分析

《Java多种文件复制方式以及效率对比分析》本文总结了Java复制文件的多种方式,包括传统的字节流、字符流、NIO系列、第三方包中的FileUtils等,并提供了不同方式的效率比较,同时,还介绍了遍历... 目录1 背景2 概述3 遍历3.1listFiles()3.2list()3.3org.codeha

SpringMVC配置、映射与参数处理​入门案例详解

《SpringMVC配置、映射与参数处理​入门案例详解》文章介绍了SpringMVC框架的基本概念和使用方法,包括如何配置和编写Controller、设置请求映射规则、使用RestFul风格、获取请求... 目录1.SpringMVC概述2.入门案例①导入相关依赖②配置web.XML③配置SpringMVC

MySQL索引踩坑合集从入门到精通

《MySQL索引踩坑合集从入门到精通》本文详细介绍了MySQL索引的使用,包括索引的类型、创建、使用、优化技巧及最佳实践,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录mysql索引完整教程:从入门到入土(附实战踩坑指南)一、索引是什么?为什么需要它?1.1 什么

Java Lettuce 客户端入门到生产的实现步骤

《JavaLettuce客户端入门到生产的实现步骤》本文主要介绍了JavaLettuce客户端入门到生产的实现步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 目录1 安装依赖MavenGradle2 最小化连接示例3 核心特性速览4 生产环境配置建议5 常见问题

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

Redis中的有序集合zset从使用到原理分析

《Redis中的有序集合zset从使用到原理分析》Redis有序集合(zset)是字符串与分值的有序映射,通过跳跃表和哈希表结合实现高效有序性管理,适用于排行榜、延迟队列等场景,其时间复杂度低,内存占... 目录开篇:排行榜背后的秘密一、zset的基本使用1.1 常用命令1.2 Java客户端示例二、zse