十四、组合数学

本文主要是介绍十四、组合数学，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

人们在生活中经常会遇到排列组合问题。比如说：在 $5$ 个礼物中选 $2$ 个，问有多少种选取方法？
组合数学就是研究一个集合内满足一定规则的排列问题。这类问题如下：

存在问题：即判断这些排列是否存在
计数问题：计算出有多少种排列，并构造出来
优化问题：如果有最优解，给出最优解
组合数学涉及的内容很多，包括：
基本计数规则：乘法规则、加法规则、生成排列组合、多项式系数、鸽巢原理等。
计数问题：二项式定理、递推关系、容斥定理、Polya定理等。
存在问题：编码、组合设计、图论中的存在问题等。
组合优化：如匹配和覆盖、图和网络的优化问题。
这部分之讲解一些简单的类型。

鸽巢原理(抽屉原理)

内容非常简单：把 $n + 1$ 个物体放进 $n$ 个盒子，至少有一个盒子包含两个或更多的物体。
例如：在 $1500$ 人中，至少有 $5$ 人生日相同； $n$ 个人互相握手，一定有两个人握手的次数相同。

比如说：小A有 $K$ 种糖果，每种数量已知，小A不喜欢连续两次吃同样的糖果，问有没有可行的吃糖方案。
该题是非常典型的鸽巢原理问题，可以用“隔板法”求解。找出最多的一种糖果，把它的数量 $N$ 看成 $N$ 个隔板，隔成 $N$ 个空间(把每个隔板的右边看成一个空间)；其他所有糖果的数量为 $S$ 。

如果 $S < N - 1$ ，把 $S$ 个糖果放到隔板之间，这 $N$ 个隔板不够放，必然至少有两个隔板之间没有糖果，由于这两个隔板是同一种糖果，所以无解。
当 $S \geq N - 1$ 时，肯定有解。其中一个解是把 $S$ 个糖果排成一个长队，注意同种类的糖果是挨在一起的，然后每次取 $N$ 个糖果，按顺序一个一个地放进 $N$ 个空间。由于隔板的数量比每一种糖果的数量都多，所以不可能有两个同样的糖果被放进一个空间里。把 $S$ 个糖果放完，就是一个解，一些隔板里面可能放几种糖果。

杨辉三角和二项式定理

读者一定非常熟悉排列和组合公式。
排列： $A^k_n=\displaystyle \frac{n!}{(n-k)!}$
组合： $C^k_n=\begin{pmatrix}n\\k \end{pmatrix}=\displaystyle \frac{A^k_n}{k!}=\displaystyle \frac{n!}{k!(n-k)!}$
这里把组合数 $C^k_n$ 用符号 $\begin{pmatrix}n\\k \end{pmatrix}$ 表示，称为二项式系数。杨辉三角是二项式系数 $\begin{pmatrix}n\\r\end{pmatrix}$ 的典型应用。杨辉三角是排列成如下三角形的数字：

						    11 11 2 11 3 3 11 4 6 4 1

每一行从上一行推导而来。如果编程求杨辉三角第 $n$ 行的数字，可以模拟这个推导过程，逐级递推，复杂度是 $O (n^{2})$ 。不过，若改用数学公式计算，则可以直接得到结果，比用递推快多了，这个公式就是 $1+x)^n$ 。观察 $1+x)^n$ 的展开：
$1+x)^0=1$
$1+x)^1=1+x$
$1+x)^2=1+2x+x^2$
( $1+x)^3=1+3x+3x^2+x^3$
每行展开的系数刚好对应杨辉三角每一行的数字。即:杨辉三角可以用 $1+x)^n$ 来定义和计算。
那么如何计算 $1+x)^n$ ？二项式系数 $\begin{pmatrix}n\\k \end{pmatrix}=\displaystyle \frac{n!}{k!(n-k)!}$ 就是 $1+x)^n$ 展开后的系数。它们的关系可以这样理解： $1+x)^n$ 的第 $k$ 项，实际上就是从 $n$ 个 $x$ 中选出 $k$ 个，这就是组合数 $\begin{pmatrix}n\\k \end{pmatrix}$ 的定义。所以：
$(1+x)^n=\sum_{k = 1}^{n}\begin{pmatrix}n\\k \end{pmatrix}k^n$
这个公式称为二项式定理。
有了这个公式，在求杨辉三角第n行的数字时就可以用公式直接计算了，复杂度为
$O (1)$ 。不过，该公式中有 $n!$ ，如果直接计算 $n!$ ，由于太大，有可能溢出。例如 $n = 30$ ， $30!$ 超过了 $long\ long$ 的范围。此时可以利用 $\begin{pmatrix}n\\k-1 \end{pmatrix}$ 和 $\begin{pmatrix}n\\{k} \end{pmatrix}$ 的递推关系 $\displaystyle\frac{\begin{pmatrix}n\\{k} \end{pmatrix}}{\begin{pmatrix}n\\{k-1} \end{pmatrix}}=\displaystyle\frac{n-k+1}{k}$ 逐个推导，避免计算阶乘。

容斥原理

在计数时，有时情况比较多，相互有重叠。为了使重叠部分不被重复计算，可以这样处理：先不考虑重叠的情况，把所有对象的数目计算出来，然后减去重复计算的数目。这种计数方法称为容斥原理。例如一根长为 $60 m$ 的绳子，每隔 $3 m$ 做一个记号，每隔 $4 m$ 也做一个记号，然后把有记号的地方剪断，问绳子共被剪成了多少段？
容斥原理的解题思路是：

$3$ 的倍数有 $20$ 个，不算绳子两头，有： $20 - 1 = 19$ 个记号；
$4$ 的倍数有 $15$ 个；
既是 $3$ 的倍数又是 $4$ 的倍数的，有： $60 \div (3 \times 4) = 5$ 个。
所以记号的总数量是： $(20 - 1) + (15 - 1) - (5 - 1) = 29$ ，绳子被剪成 $29$ 段。

概率与期望

概率和数学期望是概率论和统计学中的数学概念。
设有随机变量 $X$ ，出现取值 $x_i$ 的概率是 $p_i$ ，把它们的乘积之和称为数学期望(均值)，记为 $E (X) :$
$E(X)=\sum_{i = 1}^{n}x_ip_i$

$E (X)$ 是基本的数学特征之一，它反映了随机变量平均值的大小。
以妇女的生育率为例，假设某国有 $2000$ 万个育龄妇女，不生育妇女有 $277$ 万，一孩 $724$ 万，二孩 $883$ 万，三孩 $116$ 万。记一个妇女的孩子数量是 $X$ ，取值 $0 、 1 、 2 、 3$ ，概率分别是： $277/2000 = 0.1385 、 724/2000 = 0.362 、 883/2000 = 0.4415 、 116/2000 = 0.058$ 。那么平均每个妇女生育的孩子数量如下：
$E (X) = 0 \times 0.1385 + 1 \times 0.362 + 2 \times 0.4415 + 3 \times 0.058 = 1.419$
数学期望具有线性性质。有限个随机变量之和的数学期望等于每个变量的数学期望之和： $E (X + Y) = E (X) + E (Y)$
竞赛中求数学期望的题目一般都会用到它的线性性质。由于线性性质和DP的状态转移思想很相似，所以常常用DP来实现。

例如：一个软件有 $S$ 个子系统，会产生 $n$ 种 $b ug$ 。现在要找出所有种类的 $b ug$ 。假设某人一天发现一个 $b ug$ 。一个 $b ug$ 属于某个子系统的概率是 $\displaystyle \frac{1}{S}$ ,属于某种分类的概率是 $\displaystyle \frac{1}{n}$ ，问发现 $n$ 种 $b ug$ ，且每个子系统都发现 $b ug$ 的天数的期望。 $0 < n, s \leq 1000$ 。给出 $n 和 s$ ，求出数学期望。
分析：
定义状态 $d p [i] [j]$ ，它表示已经找到 $i$ 种 $b ug$ ，并存在于 $j$ 个子系统中，要达到目标状态还需要的期望天数。其中， $d p [n] [s]$ 表示已经找到 $n$ 种 $b ug$ ，且存在于 $s$ 个子系统，说明已经达到了目标，还需要 $0$ 天，所以 $d p [n] [s] = 0$ 。从 $d p [n] [s]$ 倒推回 $d p [0] [0]$ ，就是本题的答案，即还没有找到任何 $b ug$ 的情况下到达 $d p [n] [s]$ 时需要的期望天数。
从 $d p [i] [j]$ 开始：后面 $1$ 天找到 $1$ 个 $b ug$ ，可能有以下 $4$ 种情况：

$d p [i] [j]$ ：发现一个 $b ug$ ，属于已经有的 $i$ 个分类和 $j$ 个系统，概率为 $p 1 = (i / n) * (j / s)$ 。这一天相当于浪费了。
$d p [i + 1] [j]$ ：发现一个 $b ug$ ，不属于已有分类、属于已有系统，概率为：
$p 2 = (1 - i / n) * (j / s)$
$d p [i] [j + 1]$ ：发现一个 $b ug$ ，属于已有分类、不属于已有系统，概率为：
$p 3 = (i / n) * (1 - j / s)$
$d p [i + 1] [j + 1]$ ：发现一个 $b ug$ ，不属于已有系统、不属于已有分类，概率为： $p 4 = (1— i / n) * (1 - j / s)$

可以验证： $p 1 + p 2 + p 3 + p 4 = 1$ 。
状态转移方程如下：
$d p [i] [j] = p 1 * d p [i] [j] + p 2 * d p [i + 1] [j] + p 3 * d p [i] [j + 1] + p 4 * d p [i + 1] [j + 1] + 1$
$+ 1$ 是因为末尾要加上 $1$ 天

整理得到：
$d p [i] [i] = (p 2 * d p [i + 1] [i] + p 3 * d p [i] [j + 1] + p 4 * d p [i + 1] [j + 1] + 1) / (1 - p 1)$
$= (n * s + (ni) * j * d p [i + 1] [j] + i * (s - j) * d p [i] [j + 1]$
$+ (n - i) * (s - j) * [i + 1] [j + 1]) / (n * s - i * j)$
在写程序时，从 $d p [n] [s]$ 倒推到 $d p [0] [0]$ ， $d p [0] [0]$ 就是答案。

    cin >> n >> s;for (int i = n; i >= 0; i--) {for (int j = s; j >= 0; j--) {if (i == n && j == s) {dp[n][s] = 0.0;} else {dp[i][j] = (n * s + (n - i) * j * dp[i + 1][j] + i * (s - j) * dp[i][j + 1] +(n - i) * (s - j) * dp[i + 1][j + 1]) / (n * s - i * j);}}}