👨‍🏫 欢迎

《现代精算统计模型》主要讲述如何使用统计学习和机器学习算法,提升传统的精算统计模型或者解决新的精算问题。该教程的主要目的是为大家提供一个对数据科学全面且易懂的介绍,该教程提供了多篇方法性文章并开源代码,这样读者可以相对容易地把这些数据科学方法用在自己的数据上。

我们建议大家仔细阅读以下文献,尝试并理解所有代码。此网站将作为该课程的辅助,为大家答疑,总结文献,并对文献中的方法做扩展。该网站由授课老师高光远和助教张玮钰管理,欢迎大家反馈意见到助教、微信群、或邮箱

🤔 答疑

我定期把同学们的普遍疑问在这里解答,欢迎提问!

👉 Tensorflow for Apple M1 (2020/12/23)

购买Apple M1的同学需要用这个pre-release tensorflow,从pypi下载的tensorflow暂不支持Apple M1

👉 NLP (2020/12/18)

数据

这个数据第\(i\)\(j\)列表示,在第\(i\)个评论中第\(j\)个词的排名(依照总出现频率),所以每一行还保持了句子中词语的先后顺序。每一行都是一个时间序列数据(样本)。

LSTM

  • input维度是batch size * length * 1,即以上所示的.csv矩阵文档。

  • embedding_3 作用就是把input的最后一个维度爆炸到256,参数个数为vocab_size* embedding dimension,可以看作把400个高频词映射到256维空间。

  • embedding_3lstm_2输出维度中,有两个none,其中第一个表示batch size, 第二个表示sequence length。因为LSTM在时间维度上循环使用参数,所以sequence length不影响参数的个数。

  • sequence length不影响参数个数,对于不同的句子长度如100或者150,该模型都不需要调整,(应该)可以直接载入数据训练。

  • lstm_3 只有一个none, 表示batch size, 我们要求lstm_3不返回整个sequence只看最近的状态。

👉 Reproducible results using Keras (2020/12/11)

使用Keras复现结果的方法。

https://cran.r-project.org/web/packages/keras/vignettes/faq.html

👉 为什么不直接用relu解决vanishing gradient 而设计复杂的lstm gru (2020/12/11)

  • relu值域在0到无穷,不如tanh和sigmoid稳健,后两种可以认为把极大极小值都截断了。

  • relu是线性变换,可能描述不了非线性效应。我最常用tanh。

  • 当然,使用relu会明显提升计算速度,因为relu的导数容易计算。

另参见stackexchange

👉 xaringan (2020/12/06)

html格式的slides: https://slides.yihui.org/xaringan/zh-CN.html#1

👉 samme.r (2020/11/27)

关于samme.r算法, 请参考下面文章中的exponential loss function. https://web.stanford.edu/~hastie/Papers/samme.pdf

算法samme.r仅在以上draft中出现,正式发表时samme.r被删掉了,推测审稿人有异议。正式文章参考 http://ww.web.stanford.edu/~hastie/Papers/SII-2-3-A8-Zhu.pdf

👉 随机种子数 (2020/11/20)

输入RNGversion("3.5.0"); set.seed(100),使得你的随机种子数和paper的相同,模型结果相近。

👉 MAC OS, Linux, WIN (2020/11/16)

据观察,在MAC OS和Linux系统下安装keras成功的比例较高。WIN系统下,Python各个包的依赖以及和R包的匹配有一定的问题,今天是通过更换镜像源解决了R中无法加载tensorflow.keras模块的问题,推测是TUNA源中WIN包依赖关系没有及时更新。

为了解决镜像源更新延迟、或者tensorflow版本过低的问题,这里共享WIN下经测试的conda环境配置。下载该文档,从该文档所在文件夹启动命令行,使用命令conda env create --name <env> --file filename.yaml,安装该conda环境。在R中使用reticulate::use_condaenv("<env>",required=T)关联该环境。

另外,可下载MAC OS系统下经测试的conda环境配置。可通过conda env create --name <env> --file filename.yaml安装。

👉 CASdatasets (2020/11/13)

源文件在http://cas.uqam.ca/,但下载速度很慢,我把它放在坚果云共享。下载后选择install from local archive file。