数据 ETL

本页介绍alpha平台相关的ETL流程

当前的数据ETL过程完全依托在airflow平台上面做自动化的运行。运行周期位每个工作日的早上,主要是从各主要数据源中抽取相关数据更新至目标数据库中:postgres@10.63.6.220。

任务脚本

airflow任务dags

dags源码

auto-dags项目下文件:

daily_calc_script_factor.py
update_uqer_data_postgres.py

文件需要放在服务器10.63.6.176的/home/python/airflow/dags文件夹下面。

更新内容

1. daily_calc_script_factor

更新以下数据表

  • 团队自研因子:experimental

2. update_uqer_data_postgres

更新以下数据表

  • 股票行情数据:market

  • 指数行情数据:index_market

  • uqer因子:uqer

  • 指数成分:index_components

  • 风险模型:risk_cov_day, risk_cov_long, risk_cov_short, risk_exposure, risk_return, specific_return, specific_risk_day, specific_risk_long, specific_risk_short

  • 停牌信息:halt_list

  • 朝阳永续数据:gogoal

  • 行业分类信息:industry

  • 证券元信息:security_master

  • 自制指数成分:index_components

  • 因子元信息:factor_master

  • 东兴行业分类:industry

  • 申万一级调整分类:industry

  • 分类信息:categories

  • 股票池信息:universe

数据库备份以及恢复

220的数据库每天都会有备份,备份地址在:\\10.63.6.112\postgres\yyyymmdd\alpha。每天的备份都会产生一个单独的文件夹。

这里介绍如何在DataGrip中使用备份恢复数据的方法

  • 删除旧数据库

可以在DataGrip的console里面操作:

drop database alpha;
create database alpha;
  • 使用pg_restore恢复

输入正确的pg_restore可执行文件所在地址,和备份文件所在的文件夹:

然后就可以等待恢复完成,恢复大概需要1到2小时。

Last updated