本文主要是介绍数值代数及方程数值解:预备知识——二进制及浮点数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 二进制
- IEEE浮点数
本篇文章的前置知识:数学分析
二进制
命题:二进制转化为十进制
二进制的数字表示为 ⋯ b 2 b 1 b 0 . b − 1 b − 2 ⋯ \cdots b_2b_1b_0.b_{-1}b_{-2}\cdots ⋯b2b1b0.b−1b−2⋯这等价于十进制下的
⋯ b 2 × 2 2 + b 1 × 2 1 + b 0 × 2 0 + b − 1 × 2 − 1 + b − 2 × 2 − 2 + ⋯ \cdots b_2\times 2^{2}+b_1\times 2^{1}+b_0\times 2^0+b_{-1}\times 2^{-1}+b_{-2}\times 2^{-2}+\cdots ⋯b2×22+b1×21+b0×20+b−1×2−1+b−2×2−2+⋯
命题:十进制转化为二进制
整数部分:十进制整数不断除2,记录除数及余数,直至除数为0,从后往前依次写下余数即为二进制下的数字,如下例 ( 53 ) 10 (53)_{10} (53)10
53 ÷ 2 = 26 余 1 26 ÷ 2 = 13 余 0 13 ÷ 2 = 6 余 1 6 ÷ 2 = 3 余 0 3 ÷ 2 = 1 余 1 1 ÷ 2 = 0 余 1 53\div 2= 26 \text{余} 1\\ 26\div 2=13 \text{余} 0\\ 13\div 2=6 \text{余} 1\\ 6\div 2=3 \text{余} 0\\ 3\div 2=1 \text{余} 1\\ 1\div 2=0 \text{余} 1 53÷2=26余126÷2=13余013÷2=6余16÷2=3余03÷2=1余11÷2=0余1则得 ( 53 ) 10 = ( 110101. ) 2 (53)_{10}=(110101.)_2 (53)10=(110101.)2
小数部分:十进制小数不断乘2,记录整数部分,从前往后依次写下整数部分,如下例 ( 0.7 ) 10 (0.7)_{10} (0.7)10
0.7 × 2 = 0.4 + 1 0.4 × 2 = 0.8 + 0 0.8 × 2 = 0.6 + 1 0.6 × 2 = 0.2 + 1 0.2 × 2 = 0.4 + 0 ⋯ 0.7\times 2=0.4+1\\ 0.4\times 2=0.8+0\\ 0.8\times 2=0.6+1\\ 0.6\times 2=0.2+1\\ 0.2\times 2=0.4 +0\\ \cdots 0.7×2=0.4+10.4×2=0.8+00.8×2=0.6+10.6×2=0.2+10.2×2=0.4+0⋯发现计算过程开始循环,故 ( 0.7 ) 10 = ( 0.1 0110 ‾ ) 2 (0.7)_{10}=(0.1\overline{0110})_2 (0.7)10=(0.10110)2
IEEE浮点数
定义:IEEE浮点数
标准的IEEE浮点数为 ± 1. a b c d e f g … z × 2 p \pm 1.abcdefg\dots z \times 2^p ±1.abcdefg…z×2p其中 a b c d e f g … z abcdefg\dots z abcdefg…z 取值只有 0 或 1
该浮点数在计算机中的储存方式为 1 a b c d e f g … z p 1\hspace{1ex} abcdefg\dots z\hspace{1ex}p 1abcdefg…zp
其中
- 首位表示正负号,0代表正数,1代表负数
- 后面部分称为尾数,是有效数字
- 中间部分称为指数,指明小数点的位置
例如:9的2进制表示为1001,浮点数表示为0 11 001,第一个数 0 表示该数为正数,尾数001表示这个数的有效数字为 ( 1.001 ) 2 (1.001)_2 (1.001)2(默认首位为1),第二个数 ( 11 ) 2 = 3 (11)_2=3 (11)2=3表示这个数的指数为3,即把小数点向右移动3位
定义:一般的浮点数系统(描述性定义)
考虑 R \mathbb{R} R 的某离散子集 F \mathrm{F} F, F \mathrm{F} F的元素形如 0 或 x = ± m β t β e x=\pm \dfrac{m}{\beta^t}\beta^e x=±βtmβe,其中
- β \beta β 为不小于2的整数,称为基数;(即 β \beta β 进制)
- t t t 为不大于1的整数,称为精度;(即该系统能表示的最大位数尾数)
- m ∈ [ 1 , β t ] m\in[1,\beta^t] m∈[1,βt]是整数,e为任意整数(即指数);
- 若限制 m m m 的范围为 [ β t − 1 , β t − 1 ] [\beta^{t-1},\beta^t-1] [βt−1,βt−1],则可使 m m m 唯一;此时 ± ( m β t ) \pm(\dfrac{m}{\beta^t}) ±(βtm) 称为 x x x 的尾数;
注:对于那些位数超过精度的数字,必须进行截断并舍入(零舍一入),才能保存在计算机中,故浮点数集 F F F 在实数 R \mathbb{R} R 中是离散的
定义:机器 ϵ \epsilon ϵ
ε m a c h i n e = 1 2 β 1 − t \varepsilon_{machine}=\dfrac{1}{2}\beta^{1-t} εmachine=21β1−t表示两个相邻的浮点数之间的距离的一半
注:有的书上也定义为两个相邻的浮点数之间的距离
定义:单精度、双精度浮点数
单精度浮点数:1位符号,8位指数,23位尾数, ε m a c h i n e = 2 − 24 \varepsilon_{machine}=2^{-24} εmachine=2−24
双精度浮点数:1位符号,11位指数,52位尾数, ε m a c h i n e = 2 − 53 \varepsilon_{machine}=2^{-53} εmachine=2−53
注:
单精度浮点数也称 32 位浮点数 1 + 8 + 23 = 32 1+8+23=32 1+8+23=32
双精度浮点数也称 64 位浮点数 1 + 11 + 52 = 64 1+11+52=64 1+11+52=64
定义:浮点数函数
令 f l : R → F fl:\mathbb{R}\to F fl:R→F 表示将实数映射为离它最近的浮点数的函数
命题:用浮点数保存实数的舍入误差
∀ x ∈ R , ∣ x − f l ( x ) ∣ ∣ x ∣ ≤ ε m a c h i n e \forall x\in\mathbb{R},\dfrac{|x-fl(x)|}{|x|}\leq \varepsilon_{machine} ∀x∈R,∣x∣∣x−fl(x)∣≤εmachine或等价地说,
∀ x ∈ R , ∃ ϵ , ∣ ϵ ∣ ≤ ε m a c h i n e , s . t . f l ( x ) = x ( 1 + ϵ ) \forall x\in\mathbb{R},\exists \epsilon,|\epsilon|\leq\varepsilon_{machine},s.t.fl(x)=x(1+\epsilon) ∀x∈R,∃ϵ,∣ϵ∣≤εmachine,s.t.fl(x)=x(1+ϵ)
浮点数运算的基本公理
任取 x , y ∈ F x,y\in F x,y∈F,令 ∗ \ast ∗ 表示四则运算的任一个, ⊛ \circledast ⊛ 表示相应的浮点数的四则运算,则 x ⊛ y = f l ( x + y ) x\circledast y=fl(x+y) x⊛y=fl(x+y)
等价地,有如下的浮点数运算公理:
∀ x , y ∈ F , ∃ ϵ , ∣ ϵ ∣ ≤ ε m a c h i n e , s . t . x ⊛ y = ( x ∗ y ) ( 1 + ϵ ) \forall x,y\in F,\exists \epsilon,|\epsilon|\leq\varepsilon_{machine},s.t.x\circledast y=(x\ast y)(1+\epsilon) ∀x,y∈F,∃ϵ,∣ϵ∣≤εmachine,s.t.x⊛y=(x∗y)(1+ϵ)
注: ε m a c h i n e \varepsilon_{machine} εmachine定义的修正:将 ε m a c h i n e \varepsilon_{machine} εmachine定义为满足上述公理的最小值,这样定义不会对运算产生显著影响
一般来说,我们使用的计算机是符合浮点数运算的基本公理的
参考书籍
《数值分析》Timothy Sauer 著,裴玉茹,马赓宇 译
《Numerical Linear Algebra》Lloyd N.Trefethen , David Bau 著
这篇关于数值代数及方程数值解:预备知识——二进制及浮点数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!