业务咨询:400-899-0990
技术服务:400-899-0899
咨询热线公司前台:0756-2119588
售前咨询:0756-2119588
公司地址珠海市香洲区建业一路5号第五层
类别:社会新闻发布人:联迪发布时间:2017-05-25
根据席尔瓦介绍,谷歌在训练AlphaGo时,是通过人类专家进行监督式学习,再通过策略网络实现强化学习输入价值网络。AlphaGo树搜索通过策略网络减少搜索的宽度,以价值网络减少搜索的深度。
与李世石对战的AlphaGo Lee在谷歌云上有50个TPUs在运作,搜索50个棋步为10000个位置/秒,而昨天打败柯洁的AlphaGo Master是在单个TPU上进行游戏,AlphaGo成为自己的老师,它从自己的搜索里学习,有着更强大的策略和价值网络。
简单来说吧,按照Deepmind的预测,与柯洁对战的AlphaGo Master要比去年同李世石对战的AlphaGo Lee强三个子。
在昨天的对战中,柯洁最终是以1/4子的劣势输给谷歌了AlphaGo Master。
对此,柯洁也在微博上感慨“我到底是在和一个怎样可怕的对手下棋...”。
柯洁微博全文如下:
早就听说新版alphago的强大....
但...让...让三个?我的天
这个差距有多大呢?简单的解释一下就是一人一手轮流下的围棋,对手连续让你下三步...又像武林高手对决让你先捅三刀一样...
我到底是在和一个怎样可怕的对手下棋...