本文主要是介绍rust语法细节讨论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
语法
入门中文教程链接:
https://kaisery.github.io/trpl-zh-cn/ch02-00-guessing-game-tutorial.html
字符串的字节与字符
字节是u8,一个字节;字符是unicode编码,占4个字节。
字符串的字节序列用as_bytes()返回,字符序列用chars()返回。
字符串的len()返回的是字节数,而非字符数。字符数用s.chars().count()来获得。
字符串拼接
用+可以,但推荐使用format!宏。例如:
let s = format!("position:{} not recognized", pos)
常量
常量在编译时被求值,它们的值会在使用的地方被内联。
常量初始化时不能调用非const方法,否则报错:
calls in constants are limited to constant functions, tuple structs and tuple variants
原因也是因为const是编译期求值,当然只能调用编译期的const函数了。
const函数
与C++的const方法含义完全不同,C++里const函数的意思是,不修改其成员变量。
但rust里const方法指的是编译时执行的函数 ,所以里面是不能有for循环的。
全局静态变量
当我们用非const函数初始化全局static变量时,也会报与const类似的错误:
calls in statics are limited to constant functions, tuple structs and tuple variants
可见,static与const一样,也是一个编译期的概念,区别仅在于前者会在编译期分配存储空间,而后者不会。
但这种行为就跟C++或java里的全局静态变量区别很大了,后者实际是在运行期初始化的(确切的说,是在程序启动时)。因为实际使用中,很多全局static变量的初始化难以做到编译期就确定、也很难不依赖非const函数。
所以,rust里的全局static变量根本就不是我们想要的。那么,有没有等价替代物呢?
有,用lazy_static!宏:
lazy_static! {static ref RESERVED: Mutex<HashMap<String, TokenKind>> = Mutex::new(HashMap::from([("and".to_string(), TokenKind::AND),("or".to_string(), TokenKind::OR),("div".to_string(), TokenKind::DIV),...]));}
加锁是防止多线程并发访问出错。我们要这样访问:
RESERVED.lock().unwrap()
.get(m.to_lowercase().as_str())
.copied()
.unwrap_or(TokenKind::ID)
数组与Vec
跟C++一样,数组长度编译期指定,所以必须要指定常量长度。
Vec类似于C++的vector,可以自动扩展。而且有vec!宏,写起来跟数组很类似。
hashmap
字面量初始化
hashmap的字面量初始化,使用HashMap::from方法,入参是个数组:
let reserved: HashMap<&str, TokenKind> = HashMap::from([("and", TokenKind::AND),("or", TokenKind::OR),("div", TokenKind::DIV),...]);
不用一个个insert的调用。
带默认值的键查询
get with default的写法:
reserved.get(m.to_lowercase().as_str()).copied().unwrap_or(TokenKind::ID)
get返回的是一个Option<&V>,所以,需要用copied转出Option<V>,最后再用unwrap_or获取键不在时的默认值。
正则表达式
find和capture区别
像python里,提供了几种能力:match从头开始匹配,search从任意位置开始匹配,两者都只匹配一次;findall、finditer则找到所有匹配。且,python并不区分是普通模式还是分组捕获模式(capture),后者仅仅是返回的MatchObject对象支持group(1)、group(2)…方法来获取捕获的分组值。
rust里则无此种能力,find等价于python的search,从任意位置开始匹配,且只匹配一次;find_iter找到所有匹配。但find和find_iter都只对应于普通模式,要做分组捕获,得使用captures方法。
样例如下:
#[test]
fn test_reg_find() {let reg = Regex::new("create\\s+table\\s+(\\w+)");let mo = reg.unwrap().find_at("create table t_a", 0).unwrap();assert_eq!(mo.as_str(), "create table t_a");
}fn test_reg_capture() {let reg = Regex::new("create\\s+table\\s+(\\w+)");let co = reg.unwrap().captures_at("create table t_a", 0).unwrap();assert_eq!(co.get(0).unwrap().as_str(), "create table t_a");assert_eq!(co.get(1).unwrap().as_str(), "t_a");assert_eq!(co.len(), 2);
}
find与find_at
我一开始使用的时候,对find_at的理解错误了,我以为find_at(str, n)等价于find(str[n…]),但实际不是的,看看下面例子:
let s = " # ";
let pat = Regex::new("^#").unwrap();
assert_eq!(pat.find(&s[2..]).unwrap().as_str(), "#");
assert_eq!(pat.find_at(s, 2), None);
find_at正如它注释里讲的,它会考虑正则表达式的上下文,这里的上下文就是^,它表示要从整个字符串s的最开始处匹配,即使我们指定了偏移量=2,事实上,它是无效的。
所以,我个人对于提供find_at的动机不太理解,作为API来讲,感觉很容易被误解。
null
rust没有空指针的概念,只能用Option的枚举None。
判断一个对象是否None有两种写法:==或is_none
#[test]
fn test_none() {let tk: Option<TokenKind> = None;assert!(tk == None);assert!(tk.is_none());
}
异常
rust没有异常,只有panic。像unwrap方法一般都会触发panic,panic会导致程序coredump,所以,除了在UT里,一般不建议使用unwrap,而要用match或if let的替代写法,当然,后者写起来比unwrap繁琐多了。
赋值语句
rust里的对象,用引用传递(rust术语叫borrow)没问题,用值传递会导致所有权转移,本质上就是C++里的auto_ptr。所以,看似普通的赋值语句也会像auto_ptr那样带来销毁式拷贝(destruction copy)的效果:
#[test]
fn test_assign() {let r1 = Rectangle {width: 1,height: 2};// value moved herelet r2 = r1; // value borrowed here after moveprintln!("{}", r1.width);println!("{}", r2.width);
}
对于enum类型,也是这个结论,因为enum本质上也是一个对象。
但对于基本类型(如数字)及字符串字面量(&str)类型,赋值语句并不触发所有权转移,是没有问题的。比如下面代码可以正常执行:
#[test]
fn test_assign() {let i = 1;let j = i;println!("{}", i);println!("{}", j);// 这里一旦写成 let s = "abc".to_String();就会编译报错了let s = "abc";let s1 = s;println!("{}", s);println!("{}", s1);
}
Option::unwrap
注意Option::unwrap的定义:
pub const fn unwrap(self) -> T {match self {Some(val) => val,None => unwrap_failed(),}}
传入的是值self,而不是通常的引用&self。所以,unwarp调用完之后,原本的Option对象就消失了,不能再被访问了。亦即unwrap是一次性的调用方法。
闭包与函数指针
闭包就是匿名函数,可以捕获上下文。类似于其它语言的lambda。它有三个trait(Fn
、FnMut
和 FnOnce
)。
函数指针(fn,注意f小写)实现了所有三个闭包 trait(Fn
、FnMut
和 FnOnce
),所以总是可以在调用期望闭包的函数时传递函数指针作为参数。
亦即,函数指针就是闭包。
但,闭包不一定是函数指针。闭包只有在不引用upvalue的时候,才可以被自动转型为函数指针,否则会报错:
closures can only be coerced to `fn` types if they do not capture any variables
注意
:fn是类型,Fn是trait,fn可以用作泛型参数,而Fn则必须加上dyn关键字才可用作泛型参数
闭包作为Vec元素
由前可知,Fn是trait,所以Vec类型参数里不能直接写Fn,但可以写fn。此时只要传入的闭包元素不引用upvalue,编译器会自动将fn强转Fn的。但若引用了upvalue,指定Vec类型参数为Fn,像这样:
let v: Vec<dyn Fn(&str) -> usize> = vec![|s| s.len(), |s| s.len()+x];
就会报错:
the size for values of type `dyn for<'a> Fn(&'a str) -> usize` cannot be known at compilation time
此时只能使用Box来解决trait object作为Vec类型参数无法计算size的问题,这么写即可:
let v: Vec<Box<dyn Fn(&str) -> usize> > = vec![Box::new(|s| s.len()), Box::new(|s| s.len()+x)];
for item in v {println!("{}", item("abc"));
}
这里特别说明一点:声明时必须明确指定Box<dyn Fn(&str) -> usize>类型作为Vec元素,否则依赖rust的自动类型推断,又会报错:
let v: Vec<_> = vec![Box::new(|s:&str| s.len()), Box::new(|s:&str| s.len()+x)];
这里未强制指定Vec元素类型,rust会报错:
expected closure, found a different closure
因为rust认为
|s:&str| s.len()
|s:&str| s.len()+x)
是两种类型的闭包,尽管两者的入参和返回值是一样的。
或者这样写也是可以的,就是难看点:
let v: Vec<_> = vec![Box::new(|s:&str| s.len()) as Box<dyn Fn(&str) -> usize>, Box::new(|s:&str| s.len()+x)];
这里把第一个闭包强转为Box<dyn Fn(&str) -> usize>,给rust类型推断一个指引,让它知道Vec的元素到底是啥,后面的闭包就不用再强转了。
struct构造
struct的构造器写起来有点麻烦,正常是要带字段名。不过,如果入参同字段名相同,也是可以省略掉字段名的。
我们一般会封装静态构造方法来简化struct的构造。不过rust不支持函数重载,所以不同参数个数的静态构造器得起不同的名字,这点比较麻烦(或者用builder模式?)。
这篇关于rust语法细节讨论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!