https://en.wikipedia.org/wiki/Benford%27s_law
本福德定律(Benford's Law),又称第一数字定律。这条法则不仅是自然数分布的内在规律,也是法务会计、数据分析和审计中用于检测数据造假的神奇“法宝”。
1、本福德定律的具体分布
在一组未经人为操纵、跨越多个数量级的自然真实数据中,首位数字(从1到9)出现的概率并非均等,而是呈非线性递减:
• 开头是1: 约占 30.1%
• 开头是2: 约占 17.6%
• 开头是3: 约占 12.5%
• 开头是4: 约占 9.7%
• 开头是5: 约占 7.9%
• 开头是6: 约占 6.7%
• 开头是7: 约占 5.8%
• 开头是8: 约占 5.1%
• 开头是9: 约占 4.6%
2、适用范围
该定律适用于许多自然生成的数据集:
- 自然数据: 河流流量、人口数量、国土面积、放射性半衰期、物理化学常数。
- 财务数据: 发票金额、费用报销记录、公司销售数据、银行账户余额、会计分录。
3、为什么能用于“防舞弊”?
因为人类在虚构数据时,通常会本能地认为1-9出现的概率是相等的(即每个约11%)。因此,如果一个人试图伪造财务报表或账单,他们造假的数字分布往往会偏离本福德分布(例如,8或9开头的数字会远高于自然分布)。
分析人员会计算数据的KS值(实际差异)并将其与标准值进行对比,以判断数据是否为自然生成。如果分布偏离显著,则存在高度的舞弊风险。
4、关键局限
该定律并非万能,适用条件通常包括:
- 数据量大: 需要足够多的样本。
- 跨越数量级: 数据范围应覆盖几个幂次(例如从10到100000)。
- 无人为操纵: 数据必须是自然产生的,而非人为设定的上限或下限(如所有员工工资均在5000-6000之间,就不会服从本福德定律)。

根据本福特定律,数字的首位数字分布情况。每个柱状条代表一个数字,柱子的高度表示以该数字作为首位数字的数值所占的百分比。