不吹不黑 | 聊聊为什么要用99%精度的数据回测

2024-06-05 10:18

本文主要是介绍不吹不黑 | 聊聊为什么要用99%精度的数据回测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

  • 写在前面的话

    文字并不具备精确传递信息的能力。除了程序员和律师等少数群体,很少人能保证自己说的东西能在一句话中被清晰传递的。所以,带着思考阅读从而帮助完善你的知识体系,改变你的行为,这才是您耗费时间,阅读本篇文章的意义。

    因此,在阅读本篇文章之前,我希望您能放下心里已有的成见,否则就算您通篇读完,留下的也只是带有您个人偏见的理解。您获得的多少并不取决于读了多少,而取决于您以空杯的心态,思考了多少、多深。

  • 什么是Bar数据

    在讲之前,先讲一下Bar数据。所谓的Bar数据,泛指普通的 K 线。在单独的每个Bar上面包含开盘价、收盘 价、最高价、最低价、成交量及时间。所有的Bar按照不同周期组合,并按照时间从先到后进行排列,由此形成为序列数据,整个序列称之为Bar数据。

    如果交易策略是基于Bar数据回测。按照Bar数据的Bar数目,从第一个Bar到最后一个Bar,依次进行计算,如果公式中出现了调用Bar数据函数的,则取出当前Bar的相应值,进行运算。如下图箭头所示,公式执行从上至下,Bar从左到右执行。

    Bar数据应用于非即时发单策略,是没有问题的。比如:当前条件成立,那么就在下根Bar发单。由于Bar数据量往往不是很大,在上百种上千组合回测或优化时,速度非常快。

  • bar数据回测的弊端

    大多数量化软件中,调用那个级别的数据,就是哪个级别的Bar。5分钟周期级别的Bar就是5分钟时间序列的开高低收等。一般最小级别是1分钟,也就是回测时只能使用1分钟级别粒度的数据。

    那么问题来了,1分钟以下的数据变动是无法得知的。这种数据与当时的实际市况有所差别,一个个小的差异积累起来就造成了与真实结果的巨大差异。

    就拿上图中,箭头所指的Bar来说:这是根带上下影线的阴线,图表级别为60分钟,你认为在60分钟里,价格怎么运动,才最终形成这根Bar。

    答案是:有非常非常多种可能。它有可能开盘就先上涨,创造出一个上影线。然后转头向下,创造出一个下影线。然后再转头向上收盘;它也可能开盘就砸盘,直接创造出一个下影线。然后转头向上,创造出一个上影线。然后再转头向下收盘。总之,在这根Bar最终形成之前的60分钟内,价格的波动有很多种可能。

    如果即时策略用Bar数据回测,回测引擎只是根据Bar的开高低收等,做计算。因为回测引擎并不知道价格是如何跳动才形成最终的Bar。在Bar中,价格即有可能先上后下,也有可能先下后上。

    还有一个更为重要的弊端。在Bar回测中,并没有参考盘口数据,比如:买一价和卖一价。在Bar数据回测中,只要触发开平仓的价格在最高价与最低价之内,都能成交。但此时此刻如果恰好没有对手盘的话,那么Bar回测引擎在撮合的时候是检测不出来的。一次两次影响不大,但只要Bar的数据足够多,就足以产生以假乱真的虚假绩效报告。

  • 举个栗子

    我举一个很简单的例子做范例说明。策略描述:当均线往上时往上触碰现在K线高点时作多、当均线往下时往下触碰现在K线低点时放空,另外加上移动出场─当获利大于等于10点后,折返获利1%就出场。

    代码如下:

    回测如下:

    如果你在开发交易策略的时候看到这个现象就很兴奋的以为自己发现圣杯的话... 那么你就想错了。

    钱有这么好赚就好了啦=_=。这样的回测报表一整个就是垃圾!因为那些出场点位几乎可以说都是做不到的!!

    上面这图,空心三角形就是出场位置的标示,看看那个出场标示在哪边?没错,就是K线的最高点,请想一想这有没有问题?我们定下的出场除了多空翻单外,就是移动出场,既然移动出场要有折返才会出场,那出场点在K线的最高点有可能吗?

    如果使用99%精度的Tick数据,回测如下:

    这篇简单的范例不是想指出用很灵敏的移动出场是不可行的,而是说这种的即时策略,在真实运作时会是怎样的状况?至于,造成这个垃圾回测报表的原因,我就不多叙述了。直接告诉你如何呈现实况:使用99%精度的Tick数据。

  • 什么是Tick数据

    Tick数据就是交易所中最详尽的交易数据结构。包括:开盘价、最高价、最低价、最新价、成交量、成交额。如果把交易数据比喻成河流,Tick数据就是这个河流在某个横截面的数据。

    如上图所示,国外交易所每个动作都会实时推送到市场上来。而国内交易所,每秒两次进行检查,如果该时间段内有动作,则生成一次快照并且推送出来。相比较而言,数据的推送充其量只能算做 OnTime,而不能叫做OnTick。

  • BotVS的Tick数据

    尽管国内Tick数据并不是真正意义上的 Tick,但是使用这种数据进行回测,至少可以无限接近和还原了现实。每个Tick中显示着当时这个商品在市场中的主要参数,并且在实盘中我们的代码,就是跟着理论每秒 2 次的Tick在进行计算。

    不仅如此,在 BotVS 中即使加载的是1小时周期的数据,依然可以调整数据粒度,比如将数据粒度调整为 1 分钟。此时此刻的1小时K线就是用1分钟数据组成的。当然,粒度越小,精度越高。

    更为强大的是,如果将数据切换为实盘级Tick,就可以无缝还原真实的实盘环境。即1秒2次Tick交易所的真实数据。

  • 总结

    你不可能拿着玩具枪就上战场,不是吗?在开始实盘之前,我们都会慎之又慎。客观的压力检验,能帮你省下许多真金白银,而这些损失通常都是不必要的。

    那么历史数据的准确性就成了你的交易策略检验结果的关键因素之一,假如你的数据是不准确的,那么在这种数据下的优化和回测必然也是无法在市场中进行的。

    否则在Bar模式下看着很爽的模型,到最后变成一个很爽的陷阱......回测,就是要对自己狠一点......

这篇关于不吹不黑 | 聊聊为什么要用99%精度的数据回测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1032782

相关文章

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

数据时代的数字企业

1.写在前面 讨论数据治理在数字企业中的影响和必要性,并介绍数据治理的核心内容和实践方法。作者强调了数据质量、数据安全、数据隐私和数据合规等方面是数据治理的核心内容,并介绍了具体的实践措施和案例分析。企业需要重视这些方面以实现数字化转型和业务增长。 数字化转型行业小伙伴可以加入我的星球,初衷成为各位数字化转型参考库,星球内容每周更新 个人工作经验资料全部放在这里,包含数据治理、数据要

如何在Java中处理JSON数据?

如何在Java中处理JSON数据? 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将探讨在Java中如何处理JSON数据。JSON(JavaScript Object Notation)作为一种轻量级的数据交换格式,在现代应用程序中被广泛使用。Java通过多种库和API提供了处理JSON的能力,我们将深入了解其用法和最佳

两个基因相关性CPTAC蛋白组数据

目录 蛋白数据下载 ①蛋白数据下载 1,TCGA-选择泛癌数据  2,TCGA-TCPA 3,CPTAC(非TCGA) ②蛋白相关性分析 1,数据整理 2,蛋白相关性分析 PCAS在线分析 蛋白数据下载 CPTAC蛋白组学数据库介绍及数据下载分析 – 王进的个人网站 (jingege.wang) ①蛋白数据下载 可以下载泛癌蛋白数据:UCSC Xena (xena

ccp之间是不可以直接进行+,-的,要用ccpSub和ccpAdd。

1.  http://www.cnblogs.com/buaashine/archive/2012/11/12/2765691.html  上面有好多的关于数学的方面的知识,cocos2dx可能会用到的 2.学到了   根据tilemap坐标得到层上物体的id int oneTiled=flagLayer->tileGIDt(tilePos);

中国341城市生态系统服务价值数据集(2000-2020年)

生态系统服务反映了人类直接或者间接从自然生态系统中获得的各种惠益,对支撑和维持人类生存和福祉起着重要基础作用。目前针对全国城市尺度的生态系统服务价值的长期评估还相对较少。我们在Xie等(2017)的静态生态系统服务当量因子表基础上,选取净初级生产力,降水量,生物迁移阻力,土壤侵蚀度和道路密度五个变量,对生态系统供给服务、调节服务、支持服务和文化服务共4大类和11小类的当量因子进行了时空调整,计算了

【计算机网络篇】数据链路层(12)交换机式以太网___以太网交换机

文章目录 🍔交换式以太网🛸以太网交换机 🍔交换式以太网 仅使用交换机(不使用集线器)的以太网就是交换式以太网 🛸以太网交换机 以太网交换机本质上就是一个多接口的网桥: 交换机的每个接口考研连接计算机,也可以理解集线器或另一个交换机 当交换机的接口与计算机或交换机连接时,可以工作在全双工方式,并能在自身内部同时连通多对接口,使每一对相互通信的计算机都能像

使用Jsoup抓取数据

问题 最近公司的市场部分布了一个问题,到一个网站截取一下医院的数据。刚好我也被安排做。后来,我发现为何不用脚本去抓取呢? 抓取的数据如下: Jsoup的使用实战代码 结构 Created with Raphaël 2.1.0 开始 创建线程池 jsoup读取网页 解析Element 写入sqlite 结束

Excel实用技巧——二级下拉菜单、数据验证

EXCEL系列文章目录   Excel系列文章是本人亲身经历职场之后萌发的想法,为什么Excel覆盖如此之广,几乎每个公司、学校、家庭都在使用,但是它深藏的宝藏功能却很少被人使用,PQ、BI这些功能同样适用于数据分析;并且在一些需要简单及时的数据分析项目前,Excel是完胜python、R、SPSS这些科学专业的软件的。因此决心开启Excel篇章。 数据分析为什么要学Excel Excel图表