数值代数及方程数值解：预备知识—

数值代数及方程数值解：预备知识——二进制及浮点数

本文主要是介绍数值代数及方程数值解：预备知识——二进制及浮点数，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

- 二进制
- IEEE浮点数

本篇文章的前置知识：数学分析

二进制

命题：二进制转化为十进制
二进制的数字表示为 $b_2b_1b_0.b_{-1}b_{-2}\cdots$ 这等价于十进制下的
$\cdots b_2\times 2^{2}+b_1\times 2^{1}+b_0\times 2^0+b_{-1}\times 2^{-1}+b_{-2}\times 2^{-2}+\cdots$

命题：十进制转化为二进制
整数部分：十进制整数不断除2，记录除数及余数，直至除数为0，从后往前依次写下余数即为二进制下的数字，如下例 $53)_{10}$
$53\div 2= 26 \text{余} 1\\ 26\div 2=13 \text{余} 0\\ 13\div 2=6 \text{余} 1\\ 6\div 2=3 \text{余} 0\\ 3\div 2=1 \text{余} 1\\ 1\div 2=0 \text{余} 1$ 则得 $53)_{10}=(110101.)_2$

小数部分：十进制小数不断乘2，记录整数部分，从前往后依次写下整数部分，如下例 $0.7)_{10}$
$0.7\times 2=0.4+1\\ 0.4\times 2=0.8+0\\ 0.8\times 2=0.6+1\\ 0.6\times 2=0.2+1\\ 0.2\times 2=0.4 +0\\ \cdots$ 发现计算过程开始循环，故 $(0.7)_{10}=(0.1\overline{0110})_2$

IEEE浮点数

定义：IEEE浮点数
标准的IEEE浮点数为 $\pm 1.abcdefg\dots z \times 2^p$ 其中 $abcdefg\dots z$ 取值只有 0 或 1
该浮点数在计算机中的储存方式为 $1\hspace{1ex} abcdefg\dots z\hspace{1ex}p$
其中

首位表示正负号，0代表正数，1代表负数
后面部分称为尾数，是有效数字
中间部分称为指数，指明小数点的位置

例如：9的2进制表示为1001，浮点数表示为0 11 001，第一个数 0 表示该数为正数，尾数001表示这个数的有效数字为 $1.001)_2$ （默认首位为1），第二个数 $11)_2=3$ 表示这个数的指数为3，即把小数点向右移动3位

定义：一般的浮点数系统（描述性定义）
考虑 $\mathbb{R}$ 的某离散子集 $\mathrm{F}$ ， $\mathrm{F}$ 的元素形如 0 或 $x=\pm \dfrac{m}{\beta^t}\beta^e$ ，其中

$\beta$ 为不小于2的整数，称为基数；（即 $\beta$ 进制）
$t$ 为不大于1的整数，称为精度；（即该系统能表示的最大位数尾数）
$m\in[1,\beta^t]$ 是整数，e为任意整数（即指数）；
若限制 $m$ 的范围为 $[\beta^{t-1},\beta^t-1]$ ，则可使 $m$ 唯一；此时 $\pm(\dfrac{m}{\beta^t})$ 称为 $x$ 的尾数；

注：对于那些位数超过精度的数字，必须进行截断并舍入（零舍一入），才能保存在计算机中，故浮点数集 $F$ 在实数 $\mathbb{R}$ 中是离散的

定义：机器 $\epsilon$
$\varepsilon_{machine}=\dfrac{1}{2}\beta^{1-t}$ 表示两个相邻的浮点数之间的距离的一半

注：有的书上也定义为两个相邻的浮点数之间的距离

定义：单精度、双精度浮点数

单精度浮点数：1位符号，8位指数，23位尾数， $\varepsilon_{machine}=2^{-24}$

双精度浮点数：1位符号，11位指数，52位尾数， $\varepsilon_{machine}=2^{-53}$

注：
单精度浮点数也称 32 位浮点数 $1 + 8 + 23 = 32$
双精度浮点数也称 64 位浮点数 $1 + 11 + 52 = 64$

定义：浮点数函数
令 $fl:\mathbb{R}\to F$ 表示将实数映射为离它最近的浮点数的函数

命题：用浮点数保存实数的舍入误差
$\forall x\in\mathbb{R},\dfrac{|x-fl(x)|}{|x|}\leq \varepsilon_{machine}$ 或等价地说，
$\forall x\in\mathbb{R},\exists \epsilon,|\epsilon|\leq\varepsilon_{machine},s.t.fl(x)=x(1+\epsilon)$