数据 ETL
本页介绍alpha平台相关的ETL流程
当前的数据ETL过程完全依托在airflow平台上面做自动化的运行。运行周期位每个工作日的早上,主要是从各主要数据源中抽取相关数据更新至目标数据库中:postgres@10.63.6.220。
任务脚本
airflow任务dags
daily_calc_script_factor :工作日天早上6点30分运行
update_uqer_data_postgres:工作日早上6点运行
dags源码
auto-dags项目下文件:
daily_calc_script_factor.py
update_uqer_data_postgres.py
文件需要放在服务器10.63.6.176的/home/python/airflow/dags文件夹下面。
更新内容
1. daily_calc_script_factor
更新以下数据表
团队自研因子:
experimental
2. update_uqer_data_postgres
更新以下数据表
股票行情数据:
market
指数行情数据:
index_market
uqer因子:
uqer
指数成分:
index_components
风险模型:
risk_cov_day
,risk_cov_long
,risk_cov_short
,risk_exposure
,risk_return
,specific_return
,specific_risk_day
,specific_risk_long
,specific_risk_short
停牌信息:
halt_list
朝阳永续数据:
gogoal
行业分类信息:
industry
证券元信息:
security_master
自制指数成分:
index_components
因子元信息:
factor_master
东兴行业分类:
industry
申万一级调整分类:
industry
分类信息:
categories
股票池信息:
universe
数据库备份以及恢复
220的数据库每天都会有备份,备份地址在:\\10.63.6.112\postgres\yyyymmdd\alpha。每天的备份都会产生一个单独的文件夹。
这里介绍如何在DataGrip中使用备份恢复数据的方法
删除旧数据库
可以在DataGrip的console里面操作:
drop database alpha;
create database alpha;
使用pg_restore恢复

输入正确的pg_restore可执行文件所在地址,和备份文件所在的文件夹:

然后就可以等待恢复完成,恢复大概需要1到2小时。
Last updated