机器学习的数学基础01-概率与上帝视角

现在无比流行的机器学习,其实对大量数据进行统计,计算其主要特征。以前叫做“统计学习”,倒是非常明确地说出了它的本质,其实就是统计;然后在计算时候呢,会涉及到一些代数的知识。这个专栏就按照自己的理解,一点点地讲些肤浅的数学基础。
这次就说说概率吧。

最常听到的概率问题就是,明天有40%的概率会下雨。那么应该如何理解呢?因为40% < 50% ,所以明天不会下雨吗?想知道40%的含义,我们就得知道概率是如何算出来的。拿天气预报作为例子,天气预报员会在电脑里模拟出当前的天气状况,然后加入可能的影响参数,这些参数会有不同的取值,这些取值的不同,就会导致模拟的明天的天气状况不同。假如我们模拟了10000种不同的取值,有4000次电脑中的“明天”下雨了,另外6000次没有下雨,那么就得到结论“明天有40%的概率会下雨”。
也就是说,概率就是一个数(三声)数(四声)的结果。正经地讲,进行足够多次的互不影响的实验,统计这些实验的结果的数量,其占总数的比例就是概率。
电脑能够模拟出多次互不影响的实验,可是要我们在现实生活中进行足够多次的实验,那是很麻烦的。这是我们需要从上帝视角来看待这些实验,假设我们是上帝,能够观测各个平行世界中的实验,就能比较直观的理解概率的真正内涵了。

题外话:“机器学习”真是个非常投机取巧的名字,搞得很多外行人以为只要有台机器就可以学习了。实际上这是建立在大量数据,以及数学运算的基础上的。人工智能,有人做苦工才会带来智能,并不是像科幻片那样,想到就能做到。统计和代数的知识早就成熟了,机器学习以前没有流行,主要是因为人类还没攒下足够多的数据。