• 工作经验

    北京必示科技有限公司

    2018/07 - 至今 创新产品孵化部 算法产品团队负责人

     

    项目1:单指标异常检测(独立负责) 2018/07 - 至今

    对单指标数据进行实时的异常检测工作,自动学习数据规律,采用多种无监督异常检测的算法识别指标的反常变化,及早发现问题风险,缩短故障发现时间,帮助管理员减少阈值配置负担。目前该算法产品已在交通银行(100+系统100+基础组件)、招商银行(500000+指标)、光大证券(100+功能号)等30余家企业部署运行,显著的降低了监控误报率以及人工运维成本。

    负责完整的算法产品设计和算法研发工作。

     

    项目2:批处理任务耗时异常检测(独立负责) 2019/04 - 至今

    批处理任务是最基础和重要的任务,该算法对大量定期执行的批处理任务进行历史行为分析,建立任务运行时间的合理范围,实时检测运行时间异常的批处理任务,并分析最耗时的任务关键路径。目前该算法产品已在光大银行(100+系统5000+任务)、北京银行(核心系统10000+子任务)、中国联通(10000+任务)等企业部署运行。

    负责完整的算法产品设计和算法研发工作。

     

    项目3:调用链根因定位(带领3人) 2019/06 - 至今

    在大型业务系统中一般都会有多个系统或服务之间的相互调用。故障发生时,许多系统或服务可能会同时产生告警,需要利用系统或服务间的调用链数据定位故障的可能根源系统,解决运维人员需要逐个排查的痛点。目前该算法产品已在交通银行(100+系统)、民生银行(200+系统)、南京银行(10000+交易码)等企业部署运行,TOP3根因定位准确率超过90%。

    负责算法产品设计、技术指导以及部分算法研发工作。

     

    项目4:容量指标趋势预测(带领1人) 2020/06 - 至今

    对容量类时序指标数据(如交易量、磁盘空间、数据库表空间等)进行预测,通过对指标历史特征的学习描绘其将来可能的趋势,帮助提早发现和预警容量超限类风险。目前该算法产品已在建设银行(5000+指标)、北京银行(500+指标)等企业部署运行,预测准确率达到90%以上,累计帮助规避容量风险百余次。

    负责算法初版原型的研发工作和后续的技术指导工作。

     

    团队工作 - 算法负责人 (带领10+人) 2021/01 - 2021/10

    1. 负责公司智能运维算法的场景探索、技术指导、排期跟进等工作,包括多指标机器异常定位、业务明细多维定位、告警风暴分析、故障预测、离群机器检测、相似指标查找、变更检测等多个运维相关场景的算法研究,相关成果支持了多篇论文的发表,部分工作已经在多家企业实际部署运行取得较好效果。

    2. 负责20+大型企业客户现场支持的相关工作,包括算法和场景的交流、需求分析、POC部署测试、算法效果展示等售前工作以及算法调优、客户培训、需求响应等售后工作。

     

    团队工作 - 算法产品负责人 (带领10+人) 2021/10 - 至今

    1. 包括前后端,负责公司智能运维的排障算法产品,除之前工作的产品、算法、性能优化,新增包括指标画像、日志扫查、故障特征分析、基于全局流水号的调用链分析等多种算法场景,并已经在多家国有大型银行实际部署运行取得较好效果

    2. 负责30+大型企业客户现场支持的相关工作,包括算法和场景的交流、需求分析、POC部署测试、算法效果展示等售前工作以及算法调优、客户培训、需求响应等售后工作。

     

     

    微软亚洲研究院

    2017/07 - 2018/07 DKI组 算法研究实习生


    项目1:磁盘故障预测(Mentor:Qingwei Lin) 2017/07 - 2017/11

    Azure合作项目。通过磁盘的SMART数据和Windows Event数据来预测磁盘的寿命。目前该算法已经在Azure上线,线上效果较好。所在项目Ming Project 获得MSRA 2017 Tech Transfer of The Year Award。研究成果Improving Service Availability of Cloud System by Predicting Disk Error已被USENIX ATC 2018会议录取。

    负责项目中数据处理、特征提取以及部分机器学习的工作。

     

    项目2:检测大规模时序数据的瞬时型异常和持续型异常(Mentor:Qingwei Lin) 2017/07 - 2017/11
    Azure合作项目。对Azure上不同类型的信号进行异常检测,并优化算法复杂度提高异常检测速度。对瞬时异常的检测结果进行时间粒度上的分析和聚合得到持续异常。
    目前该检测算法已被实际应用至Azure若干关键业务指标监控中。

    负责项目中的算法调研、开发、测试、上线和迭代优化等工作


    项目3:基于迁移学习和主动学习的时序数据异常检测(Mentor:Kaixin Sui) 2017/07 - 2018/07
    基于迁移学习和主动学习,在少量标注的情况下做到较好的单指标异常检测的效果,研究成果Cross-dataset Time Series Anomaly Detection for Cloud Systems已被USENIX ATC 219会议录取。

    负责算法调研、论文阅读和代码编写等工作。


    项目4:无监督通用时序数据异常检测框架(Mentor:Kaixin Sui) 2017/07 - 2018/07
    设计并实现能够自动进行模型选择集成参数调节的无监督的通用异常检测框架,仅有异常敏感度这一个配置项,降低了异常检测算法的上线成本。实验验证在公开数据集和微软自己的数据及上该框架可以取得比Twitter无监督算法和Yahoo有监督算法取得更好的检测效果。该项目参加两年一度的MSRA Student TechFest,获得最具影响力奖。

    负责算法调研、论文阅读和代码编写等工作。

     

    九玉(北京)科技有限公司

    2017/03 - 2017/07 Android开发实习生

     

    1. 研发邮箱手机端和电脑端的日历、任务、便签的同步功能

    2. 设计和制作极邮APP中的部分交互动画

  • 研究成果

    论文

    异常检测

    01. Cross-dataset Time Series Anomaly Detection for Cloud Systems. USENIX ATC 2019.

    02. Automatic and Generic Periodicity Adaptation for KPI Anomaly Detection. TNSM 2019.

    03. Practical and White-Box Anomaly Detection through Unsupervised and Active Learning. ICCCN 2020.

    04. An empirical investigation of practical log anomaly detection for online service systems. ESEC/FSE 2021.

     

    故障预测

    05. Improving Service Availability of Cloud Systems by Predicting Disk Error. USENIX ATC 2018.

    06. Real-time Incident Prediction for Online Service Systems. ESEC/FSE 2020.

    07. Identifying Bad Software Changes via Multimodal Anomaly Detection for Online Service Systems. ESEC/FSE 2021.

     

    排障应急

    08. Root-Cause Metric Location for Microservice Systems via Log Anomaly Detection. ICWS 2020.

    09. Automatically and Adaptively Identifying Severe Alerts for Online Service Systems. INFOCOM 2020.

    10. Understanding and Handling Alert Storm for Online Service Systems. ICSE (SEIP) 2020.

    11. Practical Root Cause Localization for Microservice Systems via Trace Analysis. IWQoS 2021.

    12. Identifying Root-Cause Metrics for Incident Diagnosis in Online Service Systems. ISSRE 2021.

     

    更多详细信息见 dblp: Wenchi Zhang

     

    专利

    有权
    01. 告警处理方法、装置、电子设备以及计算机可读存储介质 - CN111309565B
    02. 动态告警定级方法、装置、电子设备以及存储介质 - CN111338915B
    03. 一种告警预测方法、装置、电子设备及存储介质 - CN111539493B
    04. 一种故障定位方法、装置、电子设备及存储介质 - CN111597070B

    05. 一种基于KPI指标的多维异常检测方法、装置及存储介质 - CN111506637B

    06. 一种批处理任务中单任务时间的预测方法、系统及存储介质 - CN113448808B

    07. 根因变更的定位方法和装置 - CN113434193B


    在审
    08. 一种基于运维监控的单指标异常检测方法 - CN111858231A
    09. 一种基于KPI指标的根因定位方法、装置及存储介质 - CN111444247A
    10. 批处理任务时间监控方法、装置、电子设备及存储介质 - CN111737095A
    11. 时序数据容量预测方法、装置、电子设备及存储介质 - CN112231193A

    12. 一种动态筛选非周期性异常方法 - CN112862019A

    13. 时间序列异常处理方法、装置、电子设备及存储介质 - CN112905671A

    14. 一种基于服务码级别的故障根因定位方法、系统及存储介质 - CN113900844A

    15. 一种基于多指标的时间序列异常检测方法、系统及存储介质 - CN113962273A

     

     

  • 教育经历

    东北大学

    2014/09 - 2018/07 软件学院

     

    学业成绩

    专业课程排名:2/54

    大学英语六级:502

     

    项目1:动作捕捉-骨骼提取 2016/01 - 2016/06
    负责部分算法的实现,包括不同摄像机跟随算法, 骨骼提取算法等
    关键字:边缘检测,连续腐蚀和开运算
    在项目中解决以下难点:人的形态各异,动作,姿势很多;摄像头跟随存在延迟且很难手动调参

     

    项目2:新闻文本分类 2017/01 - 2017/06
    独立完成新闻抓取,数据清理,尝试不同的机器学习算法进行分类
    关键字:BeautifulSoup,Jieba分词,Word2vec,随机森林,Adaboost,LSTM
    在项目中解决以下难点:爬虫相关工作;近义词较多;短新闻易过拟合

     

    项目3:基于生成学习的图像数据增强 2018/02 - 2018/06
    独立完成基于VAE-GAN的图像生成工作,辅助以传统的数据增强(keras),提升最终图像分类的效果
    关键字:VAE, GAN, keras, opencv, CNN, VGG
    在项目中解决以下难点:生成图像模型的优化;分类算法的实现与对比


     

    美国加州大学圣地亚哥分校(UCSD)

    2016/08 - 2016/12 计算机与电子学院(秋季学期交流)

     

    修读课程

    CS235-Data Mining Techniques:A+

    CS181-Principles: Programming Language:A-

    BUSA40162-International Finance and Capital Markets:A-

     

    项目1:基于AP聚类的Twitter用户关联度分析 2016/08 - 2016/12
    负责推文抓取,关键词提取,以及聚类部分
    关键字:Twitter4J,TF-IDF,Affinity Propagation聚类,K-Means聚类
    在项目中解决以下难点:推文形态各异,关键词提取困难;Java缺少相关第三方库均需手动实现; AP聚类速度较慢以及聚类效果难评价

     

    项目2:挖掘国际顶尖会议的城市分布 2016/08 - 2016/12
    负责数据抓取,数据清理,数据计数部分
    关键字:Java,Google Refine,Hadoop

     

  • 获奖情况

    程序设计

    2015/06 东北四省赛三等奖

    2015/09 吉林省程序设计竞赛二等奖

    2015/10 ACM-ICPC 亚洲区域赛(沈阳站)银奖

    2015/12 ACM-ICPC亚洲区域赛EC-Final铜奖

    2016/06 蓝桥杯程序设计大赛JAVA组全国二等奖 辽宁省一等奖

    其它

    2016/02 MCM 国际大学生数学建模竞赛二等奖

    2014 - 2018 校一等奖学金*4 命名奖学金*3

  • 职业技能

    人工智能

    熟悉智能运维相关场景和落地

    熟悉时序数据相关场景,包括异常检测、预测、分类等

    熟悉日志、告警等半结构化文本的异常检测和根因定位等相关场景和工作

    熟练掌握流行的机器学习算法

    熟练掌握深度学习相关算法和框架

    熟悉数理统计相关方法

    能够根据数据和场景的情况快速给出有效稳定的解决方案

     

    编程语言

    熟练掌握Python、Scala, 了解R、Java,会使用C++、C#

    熟练掌握数据库的基本操作,了解redis、mongoDB、influxDB等数据库

    熟悉数据结构与算法

    熟悉SPARK的相关机制与使用

    熟悉Linux基本指令