Ley de Benford
La Ley de Benford, también conocida como la Ley de los Números Anómalos o Ley de los Dígitos Principales, es una observación en la estadística que establece que en muchos conjuntos de datos numéricos, los dígitos no aparecen con la misma frecuencia. En particular, el dígito 1 tiende a aparecer como el primer dígito con mayor frecuencia, seguido por el dígito 2, y así sucesivamente.

La Ley de Benford se basa en la probabilidad de que un número comience con un dígito específico. Según esta ley, la probabilidad P de que el primer dígito de un número en un conjunto de datos sea d está dada por:
P(d)=log10(1+1/d)
donde d es un dígito del 1 al 9.
Se comparte en github un ejemplo simple para visualizar cómo se distribuyen los dígitos según la Ley de Benford usando Python:
Probabilidades y aplicaciones de la Ley de Benford
Aquí están las probabilidades aproximadas para cada dígito como primer dígito:
1: 30.1%
2: 17.6%
3: 12.5%
4: 9.7%
5: 7.9%
6: 6.7%
7: 5.8%
8: 5.1%
9: 4.6%
La Ley de Benford aparece en una amplia variedad de contextos, como:
Datos financieros: En auditoría, puede usarse para detectar fraudes.
Datos de población: En estudios demográficos y censos.
Ciencias naturales: En mediciones y estadísticas de fenómenos naturales.
Detección de fraudes
Malcolm Browne, en un artículo publicado en el New York Times (“Following Benford’s Law, or Looking Out for No. 1”), afirma que “las oficinas de recaudación de impuestos de varias naciones y de varios estados, al igual que diversas compañías grandes y negocios contables, utilizan programas de cómputo de detección basados en la ley de Benford”.
De acuerdo con la ley de Benford, una variedad de conjuntos diferentes de datos incluyen números que tienen dígitos líderes (iniciales) que siguen la distribución
que aparece en los primeros dos renglones de la tabla
Cuando trabajaba para la fiscalía del distrito de Brooklyn, el investigador Robert Burton utilizó la ley de Benford para identificar fraudes analizando los dígitos líderes en 784 cheques. Si los 784 cheques siguen la ley de Benford perfectamente, el 30.1% de ellos deberían tener montos con un dígito líder de 1. El número esperado de cheques con montos que tienen un dígito líder de 1 es 235,984 (puesto que el 30.1% de 784 es 235,984).
Las otras frecuencias esperadas se listan en el tercer renglón de la tabla. El último renglón de la tabla lista las frecuencias de los dígitos líderes de los montos de 784 cheques expedidos por siete compañías diferentes. Una rápida comparación visual indica que ahí parecen estar las principales discrepancias entre las frecuencias esperadas por la ley de Benford y las frecuencias observadas en los montos de los cheques, pero:
¿Cómo medimos esta discordancia?
¿Son significativas estas discrepancias?
¿Existe evidencia suficiente para justificar la conclusión de que se cometió un fraude?
¿La evidencia está más allá de una “duda razonable”?
Pasemos a analizar esta situación y veamos si es posible dar respuesta a estas cuestiones.
Requisitos
Para verificar los requisitos de una prueba de bondad de ajuste multinomial, comenzaremos señalando que los dígitos líderes de los cheques en realidad no son aleatorios. Sin embargo, los manejamos como si fueran aleatorios para determinar si son los resultados típicos que se obtendrían de una muestra aleatoria, según la ley de Benford. Los datos aparecen como conteos de frecuencias y satisfacen los requisitos de un experimento multinomial. Cada frecuencia esperada (como se observa en la tabla) es al menos de 5. Todos los requisitos se satisfacen y podemos proceder con la prueba de hipótesis.
Análisis de fraude y ley de Benford
La aseveración original dice que los dígitos líderes no tienen la misma distribución
que plantea la ley de Benford. Es decir, al menos una de las siguientes ecuaciones es incorrecta: p1=0.301, p2=0.176, p3=0.125, p4=0.097, p5=0.079, p6=0.067, p7=0.058, p8=0.051 y p9=0.046. (Las proporciones son los valores decimales equivalentes de los porcentajes listados para la ley de Benford en la tabla).
La hipótesis nula debe contener la condición de igualdad, entonces tenemos:
H0: p1=0.301 y p2=0.176 y p3=0.125 y p4=0.097 y p5=0.079 y p6=0.067 y p7=0.058 y p8=0.051 y p9=0.046.
H1: Al menos una de las proporciones es diferente del valor aseverado.
Establecemos un nivel de significancia de α=0.01.
Como estamos probando la aseveración de que la distribución de dígitos coincide con la distribución planteada por la ley de Benford, utilizamos la prueba de bondad de ajuste χ² descrita en mi sitio web, tanto en el apartado de experimentos multinomiales, como al hablar de bondad de ajuste.
Las frecuencias observadas O y las frecuencias esperadas E se listan en la tabla. La suma de los nueve valores (O - E)² / E da como resultado el estadístico de prueba χ²=3650.25.
El valor crítico es χ²=20.090. El estadístico de prueba y el valor crítico se muestran en la figura.
Conclusiones
Con estas observaciones podemos inferir que:
Dado que el estadístico de prueba cae dentro de la región crítica, existe suficiente evidencia para rechazar la hipótesis nula.
Hay evidencia suficiente para sustentar la aseveración de que existen discrepancias entre la distribución esperada según la ley de Benford y la distribución observada de los dígitos líderes de los cheques.
Los cálculos que dan soporte a este análisis se comparten en jupyter notebook en github.
Fraude y Ley de Benford
En la figura siguiente, graficamos las proporciones:
aseveradas de 0.301, 0.176, 0.125, 0.097, 0.079, 0.067, 0.058, 0.051 y 0.046
observadas de 0.000, 0.019, 0.000, 0.097, 0.612, 0.233, 0.010, 0.029 y 0.000,
para poder visualizar la discrepancia entre la distribución aseverada de la ley de Benford y las frecuencias que se observaron.
De hecho, la fiscalía del distrito de Brooklyn levantó cargos por fraude utilizando esta línea de razonamiento.
Comentários