V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
jianghu52
V2EX  ›  奇思妙想

用大数据的方式解读双色球会怎么样?

  •  
  •   jianghu52 · 2013-07-22 10:53:36 +08:00 · 21991 次点击
    这是一个创建于 4148 天前的主题,其中的信息可能已经有所发展或是发生改变。
    好吧。我只是说说,还没做完。我昨天下载了一个从2003年开始到12年的双色球历史数据。我设计了一个模型。很简单:
    将每周的开奖号码作为一组数据,以周一开头,周日结尾。
    然后前3个红号为一个区间,后3个红号为一个区间,蓝号专门为一个区间。
    之后每个区间取最少出现的6个号码,蓝号也一样。
    之所以取6个,是因为第一区与第二区出现的数据可能会有重合,换句话说就是从12个候选号中选取6个。目前为止还没发现12取6还不够的情况。

    其实仔细看,双色球的数据并不多。所以我的粒度没有分的太细,本来想玩3d的。后来发现就算我把粒度放到了每一位统计的情况下,最少见的数字出现频率依然很高。感觉没啥意思。
    44 条回复    2015-02-01 17:59:22 +08:00
    nigelvon
        1
    nigelvon  
       2013-07-22 10:54:04 +08:00
    大数据是谁
    jianghu52
        2
    jianghu52  
    OP
       2013-07-22 10:56:32 +08:00
    额。大数据只是一个思想,总的来说应该通过已有的数据发现为知的联系。大数据不是人。
    zhttty
        3
    zhttty  
       2013-07-22 10:59:28 +08:00   ❤️ 1
    如果能发现明显的规律不符合概率分布,那么可以肯定双色球受到人为干扰...

    不过感觉来说没啥意义,可能会发现某个球比较轻点?
    jianghu52
        4
    jianghu52  
    OP
       2013-07-22 11:43:31 +08:00
    哈哈。说不定哦。不过当初查日本相扑作弊的,就是这样的方式。
    lookhi
        5
    lookhi  
       2013-07-22 11:46:34 +08:00   ❤️ 1
    你跟彩票玩科技 彩票中心跟你玩手段。没意思的
    batfree
        6
    batfree  
       2013-07-22 11:49:25 +08:00
    概率论最基本的一条就说了每次都是一个独立事件,历史数据不影响当前事件。 因此如果不作弊的情况下,历史数据没有用,中奖机率微乎其微。 如果作弊的情况下,中将机率为0了。
    cxe2v
        7
    cxe2v  
       2013-07-22 11:59:02 +08:00
    可惜双色球有人为因素在里面,所以你这个研究没有意义
    loading
        8
    loading  
       2013-07-22 12:56:53 +08:00 via iPhone
    关键是你的数据库不是当日的销售统计,我认为彩票中心早就用大数据分析然后选出中奖号码了。
    历史销售数据意义不大
    chilaoqi
        9
    chilaoqi  
       2013-07-22 18:25:51 +08:00
    如果再深刻一点,弦论,量子力学以及种种高能物理学,宇宙学。。。据说可以解释随机的概率事件其实都是必然的
    bengol
        10
    bengol  
       2013-07-22 18:28:17 +08:00
    大数据是不是就不用考虑基本的概率理论了
    csx163
        11
    csx163  
       2013-07-22 18:50:15 +08:00
    @loading 我认为也是取买得最少的号码,这行太黑了
    xatest
        12
    xatest  
       2013-07-22 19:26:50 +08:00   ❤️ 3
    「彩票只是向不懂数学的人的征税手段而已。」
    mitnk
        13
    mitnk  
       2013-07-22 19:36:27 +08:00 via iPhone
    @chilaoqi 这个「必然的」是可预测的意思吗?
    luikore
        14
    luikore  
       2013-07-22 19:36:56 +08:00
    彩票发行商不需要做任何手脚就能稳赚不亏, 搞黑的才是真麻烦增加被算出来的风险...
    jybox
        15
    jybox  
       2013-07-22 19:41:24 +08:00
    @mitnk 可预测的前提有两个,一是已经掌握了一切需要的数据,二是掌握了一切物理定律。
    按我从《时间简史》里读到的,精确地观测粒子的状态首先就是不可能的。
    loading
        16
    loading  
       2013-07-22 20:52:59 +08:00 via iPhone
    @csx163 不知淘宝卖彩票的数据够分析不,怎么没人脱彩票中心的裤子?
    reusFork
        17
    reusFork  
       2013-07-22 21:08:04 +08:00
    第十六条 “双色球”设奖奖金为销售总额的50%,其中当期奖金为销售总额的49%,调节基金为销售总额的1%。

    要赚彩民的钱还用得着高科技?小学生水平就够了
    angelface
        18
    angelface  
       2013-07-22 21:14:20 +08:00
    双色球这东西么,不是自然规律的, 你懂的。
    passluo
        19
    passluo  
       2013-07-22 21:51:38 +08:00 via Android
    你以为真的是随机的?
    angelface
        20
    angelface  
       2013-07-22 21:56:16 +08:00
    @passluo 应该是:你真的以为是随机的? 哈哈, 字没变,顺序调整了一下。
    colincat
        21
    colincat  
       2013-07-22 22:02:02 +08:00
    果断11运
    fox
        22
    fox  
       2013-07-22 22:11:39 +08:00
    总觉得中国的彩票是有人为控制因素的,估计分析没有意义
    9hills
        23
    9hills  
       2013-07-22 23:13:47 +08:00 via Android
    彩票这个东西就算是完全公正的也是稳赚不赔,一本万利啊。。。没必要搞鬼
    tywtyw2002
        24
    tywtyw2002  
       2013-07-23 02:39:57 +08:00 via iPhone
    数据挖掘。
    数据量还是太小了。这个规律很难搞
    jjplay
        25
    jjplay  
       2013-07-23 08:36:45 +08:00
    如何买国外彩票呢,google 了下,外国都是在便利店和机器上购买 无线上方式?
    jianghu52
        26
    jianghu52  
    OP
       2013-07-23 08:53:27 +08:00
    呵呵。如果是当天的数据,那么也就是说当天的彩票已经不允许卖了。你出号码有什么用?
    coosir
        27
    coosir  
       2013-07-23 09:25:40 +08:00
    如果是随机的,大数据也分析不出啥吧
    如果是操纵的,那也分析不出啥吧
    再说,这点数据也算不上大数据吧
    est
        28
    est  
       2013-07-23 09:50:29 +08:00
    千分之一样本数据没超过单机内存就不要自称大数据了。纯装逼
    wywh
        29
    wywh  
       2013-07-23 13:22:05 +08:00
    一共才1500多期而已,数据很小。
    tioover
        30
    tioover  
       2013-07-23 13:39:17 +08:00
    记得看过一个帖子说有一个论文用神经网络算法还是什么算法预测双色球。
    Mrlee
        31
    Mrlee  
       2013-07-23 14:52:58 +08:00
    这个和通过新闻预测股票价格、通过搜索行为预测疾病疫情等不一样,因为它们之间有一定「相关性」。

    但是彩票不同,如果你用时间作为自变量(X),中奖号码作为因变量的话,他们之间实际上是没有相关性的。
    jianghu52
        32
    jianghu52  
    OP
       2013-07-23 16:25:12 +08:00
    to est。纠正你一个错误,大数据并不表示数据一定要上T。大数据最主要的思想在于把已有的但是以前没有交集的数据做一个联系,以此来寻找其中的关系。我说过当初有人用大数据发现日本相扑界的作弊现象,他用的整个数据就是历年的所有相扑选手的胜负场次。整个数据加起来可能都不到10m。按你的说法这都不叫大数据了?可是他通过胜负场次,结合当时选手的升段时间点,外带计算两位相扑选手的胜率,然后发现了作弊现象。
    我这是想这么做玩玩,从来没觉得这个得出的数据有多么的准确,事实上我想的是另外一个问题。
    假设,按有黑幕的说法,每一次的双色球都是按照购买人数最少的那一组出来的。那么从另外一个角度来说,为什么那一期的这个号没有很多人买?假设有什么样的数据能发现这种关系,是不是可以生成一组号码,就搏我生成的号是这一期里面买的人最少的可不可以?那么如果要想生成这样的号,需要分析什么呢?
    nazor
        33
    nazor  
       2013-07-23 17:51:06 +08:00
    @chilaoqi 不是量子理论本身就说明不可准确预言?老师好像说过……
    waterye
        34
    waterye  
       2013-07-23 18:30:38 +08:00
    能否拿到以往的销售数据?
    chilaoqi
        35
    chilaoqi  
       2013-07-24 09:07:49 +08:00
    @nazor
    @mitnk

    都是我自己臆断,详情请参见《量子力学入门》,纯娱乐。。。
    shoumu
        36
    shoumu  
       2013-07-25 17:58:39 +08:00
    求数据啊
    yjzll
        37
    yjzll  
       2013-07-25 22:04:01 +08:00
    老百姓中奖,后面的郭美美吃洒
    destec
        38
    destec  
       2013-07-26 08:34:33 +08:00
    @jianghu52 上半年曾经和你有同样的想法,想过用机器学习/数据挖掘去看看有没有什么有价值的东西,被学统计的女喷友教育了半个小时,老实了。。
    aurora1625
        39
    aurora1625  
       2013-07-26 09:10:14 +08:00
    我一个师兄曾经做过,it's a joke
    stackpop
        40
    stackpop  
       2013-07-29 19:47:28 +08:00
    我年初有过类似的想法,用一些推荐系统中典型的预测方法去做,然后每期自动下注,已经连续买到现在,到现在为止,中奖大概100块,成本嘛,你懂的
    stackpop
        41
    stackpop  
       2013-07-29 19:48:58 +08:00
    我同样做了一个对比组,就是每次都生成随机值下注,中奖也是100多块。
    哈哈,貌似推荐算法中,大多数情况,只要用一点点用户属性,效果都会比随机好一些。
    Lone
        42
    Lone  
       2013-08-03 16:36:25 +08:00
    其实我一直倾向于彩票没有造假的理由,销售额这么大,彩票中心已经赚去一半的钱,有什么动机去作假?
    kingwkb
        43
    kingwkb  
       2013-08-03 16:45:00 +08:00
    @Lone 让一部份人先富起来
    Rorysky
        44
    Rorysky  
       2015-02-01 17:59:22 +08:00
    据说,股票的量化交易 用的数学模型 是 隐马可夫链
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2099 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 00:35 · PVG 08:35 · LAX 16:35 · JFK 19:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.