很早以前,我无意中发现了一个有意思的事情

每所学校每天都会有人搜索它,但每年的六月,它的百度搜索量都会有个激增,如果百度没有抽风,那么,这激增的搜索一定是来自有意向这所学校的考生。如下图(四川普通2本学校)

C段之前是正常的搜索,之后开始激增,到B点达到峰值,然后逐步下滑至正常。
而搜索量增加的这段时间,也正是填报志愿开始到结束的日期。

于是我想到,这是否可以作为预测一个学校火不火从而预测此学校当年录取线的依据,

如果我的想法成立,那么任何一个考生都可以通过对比自己的分数和这所学校预测录取线,来分析自己能否被这所学校录取了。

如果能批量进行这种预测,就能给出考生列出一个『最有可能被录取大学』名单,用这个名单去填写志愿,我想应该会极大的增加考生的录取几率。

想象很美好,现实很残酷。

中国的高校有上千所,每年的数据波动都各不相同,从这里面找出普遍存在的规律,并运用到预测上面,无异于大海捞针。

一开始我打算慢慢找数据,慢慢分析,可是,这个时候拖延症变得特别严重,我的效率低的不行,而且——并没有找到我想要的那种相关性。

这个时候我开始反思,是否一开始就是错误的,根本不能用数据去做预测。可是百度指数摆在那里,每所大学的确是有激增的,它一定存在某种规律,于是我想,这种规律可能不像1对应2这么简单,它反映的是一个大的趋势,可以形化,但不能量化。

这段时间,我又去跑了很多教育机构,比如市教育局,过程不表,但是从一些专家那里我收获了很多以前从未想过的东西,我才发现我对『高考』这一选拔方式的了解实在是太幼稚了。

事实上,一个成熟的考试录取系统,是会让各大高校的类别趋于稳定的。

比如北大排名第一,川大排名第十五,那么这个排名是很少出现较大波动的,而且,以后还会更加平稳。

同时,一个考生知道了分数,也就知道了他在本省的排名(这是公开的)。

现在最大的问题则在于:怎样预测可能会有的波动(极少)+ 确定自己的位次和学校的位次

因为考生心理预期而产生的『大小年』现象被人津津乐道,但是随着平行志愿的开展和整个系统的稳定性的提升,这种『大小年』现象会越来越少,直至没有。

那么,还会有什么能够产生波动呢?

舆论

这是我们挺重要的发现之一

人们填写志愿的时候考虑的往往都是知道的大学

这解释了『为什么每年填写志愿期间的网络热度会有不同』

举个例子,比如今年人大的百度指数是35k,而今年出了一个人大女神事件,让更多的人知道了人大,或者让他们对人大有了印象,那么明年填写志愿的时候可能就会有更多的人想进一步了解,这就造成了每年百度指数的波动。

波动本身带来的报考影响是很难做到量化的,但是我们能够判断这个学校今年到底『火』还是『中』还是『冷』

这是预测的基础。但是即使川大火了,也肯定不会比北大的分高,这是因为,每个学校都有一个阈值,所以它的分不会突然变得高的离谱或低的吓人

我们判断的依据则是『以往的经验』

其中最为重要的一个部分是判断学校位次

最简易的方法是,找近三年这个学校每年的录取等位分,做平均,然后来看你的等位分是高于它还是低于它,高的越多,则越可能进,低于这个则风险很大。

于是我综合这种『以往经验』+『舆情分析』来重做了整个系统。

以目前的这个四川地区Demo为例

我们选取了所有四川地区的高校,并且搜集和计算他们2012,2011,2010三年的录取分和等位分,

同时通过搜索引擎和网络的数据来分析每所大学的整体趋势是『被更多人知道』还是『热度降低』

前者占有百分之六十的权重,后者占有百分之四十的权重

同时我们考虑到每所大学的排名不同,也对此做了处理,比如你考了一本,我们不会给你推荐三本的学校,即使你100%可以被录取。

现在我们正在搜集和处理全国的数据,预计6月2014年高考之后大家填志愿的时候会正式上线。

大学,学校能给你的东西十分有限,但大学的时光带来的感受却历久弥新。我希望每个人都有机会去体会。

一些相关链接:

四川地区Demo:http://test.wdk.pw/gaokao

果壳网相关文章:http://www.guokr.com/post/543844/http://www.guokr.com/post/473653/

最后感谢果壳网和百度贴吧的支持和赞助


我的微信公众号~