您所在位置: 信用研究 >> 县级信用研究 >> 新闻详情

金融科技在信用研究领域的应用

发布时间:2023-11-06 | 来源:债券杂志 | 专栏:信用研究
分享到:

摘要:信用研究作为信用债投资的基础,具有重要作用。本文尝试探索金融科技在信用研究领域的应用,针对传统信用研究存在的难点,从信用研究各环节出发,探索运用网络爬虫技术、图文互搜、多模态信息识别与抽取、信息聚类与展示、文本自动生成技术、人机交互等多种金融科技解决方案,为后续进一步研究提供一定的基础。

关键词:金融科技 信用研究 网络爬虫 机器学习 自然语言处理

传统信用研究存在的缺陷

传统信用研究中研究员一般利用公开报道、财务报表等资料和实地调研,对某一特定行业或某一特定发债主体进行深入研究,挖掘性价比相对较高的信用个券和行业,为投资策略的制定提供技术层面的依据。但随着信用债规模扩大,传统信用研究的方式逐渐凸显一些缺陷。

(一)从海量数据中挖掘有效信息耗时耗力

信用研究员一方面需要从发债主体的募集说明书、年度报告、信用评级报告、公司公告等渠道获得可靠信息,并进行实地调研,以深入研究及印证;另一方面需要从相关数据中寻找数据和事件之间的关联性,处理数据并给出合理性解释。面对海量数据,需逐一对同行业中各企业披露的信息进行判断和计算,将数据整合成统一可比的形式,通常这一工作量较大。

(二)人工搜集与处理数据存在不准确、不全面的情况

手工进行基础数据采集时,会遇到发债主体的不同报告披露的同一数据存在不同数值的情况,甚至募集说明书出现错误的情况,但受限于人工难以全面地搜寻多渠道数据进行比较,研究数据可能不准确。同时,研究员时间精力有限,难以独自在短期内对行业内横向全部发债主体、纵向长时间跨度内进行详尽分析。

(三)传统固收研究容易受个人思维和情绪的束缚

信用评级模型建立和个券价值排序主要基于主观判断,不同机构、不同研究员对于同一发债主体、同一行业可能存在完全不同的看法,研究员往往需要对某一行业进行数年的跟踪研究,才可能较准确地把握行业特性。个人分析难以全面准确,研究框架还需根据不同行业的特性相应调整。同时,受限于“套用公式”的研究方式,研究员通常只关注框架内的指标和内容,往往容易忽略加剧违约风险的关键因素。比如,某企业其他应收账款中关联方占款严重,存在资金回收困难的风险,但事先建立的研究模型中若未包含这一指标,则该风险点容易被忽略。

(四)研究成果存在时滞问题

传统信用评级研究往往以某个时点为限,基于历史数据,对行业内存在的信用风险、企业自身偿债能力进行谨慎判断和预测。从研究框架内的指标选择、数据挖掘与处理、图表绘制和分析,到完成研究报告撰写需要一定时间,但随着市场上存续债到期、发债主体整合重组、市场突发事件等情况的发生,研究成果与行业和企业现状之间存在时滞。

由于传统信用研究存在前述不足,一些研究开始探索金融科技在该领域的应用。张浩等(2021)认为传统的人工分析难以覆盖全市场发债主体的信用情况,可以运用大数据、量化分析和人工智能等手段提升信用评级效率和效果。李嘉宝(2019)认为人工分析容易受到情绪、偏见、知识体系等方面的影响,人工智能、大数据等技术可以优化投研质量、提高效率。

本文拟在借鉴众多研究基础上,结合自身投资研究实践,对金融科技在信用研究领域的应用情况进行探索及分析。

金融科技在信用研究领域应用的现状

(一)金融科技应用的本质

金融科技应用的本质是基于金融数据,依靠算力和算法解决金融领域特定的问题。数据是算力和算法的基石,发债主体所在行业与发债主体相关的数据丰富且披露较为完整,这为科技在信用研究领域的应用提供了广阔的空间。算力和算法决定着数据使用的质量和效率,金融科技工具种类较多,比如搜索引擎技术、云计算、人工智能等,且金融科技工具功能开发具有极大的潜能,这为解决传统信用研究难点提供了可能性。

国内研究员在数据挖掘时主要借助万得(Wind)等财经资讯软件,但数据的选择、处理和分析仍依赖研究员的人工操作和逻辑判断。金融资讯终端一定程度上降低了研究员在互联网上搜集信息的时间成本,然而对于一些特征性数据,仍需要人工花费大量精力逐一搜寻。尽管这类金融资讯终端已开始利用科技助力金融领域宏观和微观数据的汇总,但对于金融科技在信用研究领域应用的想象远不应止步于此。事实上,国内外许多头部金融机构和科技公司已将金融科技更广泛地运用在信息提取与处理、量化建模、场景模拟、相关性研究等领域。

(二)国外金融科技运用的情况

国际上有许多头部金融机构和新兴科技公司构建或外包 “金融+科技”的研究系统。以下简要介绍三家国际市场上颇负盛名的金融科技公司所打造的金融产品智能研究平台。

早在2000年,贝莱德基金公司(Blackrock)就开始应用金融科技搭建投资管理和运营平台(Aladdin Platfrom)1,该智能平台采用人工智能(AI)中的自然语言处理技术(NLP)读取和解析文档,构建数个储量巨大的数据管理中心,为投资者提供风险分析、组合管理、交易等多种服务。

2008年在美国成立的AlphaSense公司2利用自然语言处理技术、高级语言搜索等人工智能技术,开发了协助专业投资者进行数据导向性决策的市场智能搜索引擎。该公司还拥有整合了行业监管文件、企业内部数据、新闻、研究报告等大量资源的商业数据库。

2013年成立于美国的Kensho公司3开发了Codex和Visallo两类数据发现平台,Codex是利用人工智能技术进行文本搜索和图表信息提取的智能研究平台,可以快速从海量文档和图表中提取出有效的相关信息;Visallo集合了以互联网为基础的可视化工具和机器学习数据分析算力,善于发掘数据背后隐藏的关联性。Kensho公司提供结构化的数据集,擅长事件间的相关性分析,主要运用机器学习能力提供以数据和事实为基础的决策和结论。

(三)国内金融科技运用的情况

近年来,国内金融科技发展迅猛,一些公司开始探索金融科技在我国债券市场研究领域应用的可能性。

2015年,天弘基金针对债券市场信用研究开发了“鹰眼”算法,主要应用搜索引擎技术和人工智能技术中的机器学习,使机器模拟人脑阅读,自动提取发债主体行业动态、信用评级等影响该发债企业资质的相关信息。

2018年,鼎复数据科技公司发布了违约预警系统,以期能事前提示发债主体违约风险。该系统主要运用大数据和自然语言处理技术完成结构化数据的搜集处理、信息的逻辑判断和提取,数据覆盖经济周期、行业特性、公司治理和评级、舆情等多个方面。

金融科技在信用研究中的应用探析

目前,大数据与云计算技术的应用相对成熟,机器自动搜索与处理结构化的金融数据较为常见,一些科技公司还应用人工智能技术使机器可以阅读、分析和回答一些简单的金融问题,但还未实现信用研究全过程的智能化。完整的信用研究是从整体的研究框架出发,大致包含行业基本面研究、发债主体资质评估、个券性价比挖掘、市场情绪把握、信用策略制定、研究报告撰写等多个环节,每个环节也有各自的分析框架。

在人工智能技术不断发展的当代,人脑不再是学习与思考独一无二的工具,金融科技在信用研究领域的应用存在广阔的空间。本研究尝试列举信用研究各环节存在的关键问题,并有针对性地提出运用金融科技的解决办法。

(一)行业基本面研究

1.网络爬虫应用示例

传统信用研究中,信息挖掘与观点提炼耗时耗力。而基于网络爬虫(Web Crawler)等技术,可以快速有效地提取信息,将研究员从劳动力密集型的数据搜索和处理工作中解放出来。

网络爬虫技术的工作原理是利用算法,从给定的小部分单个网页(Uniform Resource Locator,URL)开始爬行,从爬行过的网页中获取新的单个网页放入队列,再重复爬行的过程,直到满足设定的条件才停止爬行。其中的聚焦爬虫技术中增加了网页分析算法,能过滤掉与设定的查询项完全无关的网页,提高搜索效率和质量。通过设计聚焦爬虫的算法,可以智能地爬取行业上下游、产销量等基本面信息。

在网络爬虫爬取全网资料的过程中,依然会面临图像、文本甚至视频等多种模态的数据。为了尽可能保留较全的数据,可以采用人工智能中的相关技术,如文本识别(OCR),图文信息对齐等,把非文本的数据提取处理、整理成结构化或者半结构化数据,方便我们在下游抽取有用知识。

由于爬虫获取的数据非常广泛,无疑会引入大量低质量数据。为了解决这个问题,可以采用两种方法来对数据进行分层处理。一方面基于人工智能中的无监督聚类技术及金融领域大量知识,可以设计一个深度学习模型,通过该模型来抽取爬虫数据在某个高维空间的语义表征,再进行聚类处理,这样可以快速地把同质化的内容归类;另一方面,运用资深研究员的专业能力,只需要标注某个行业少量的数据,就可以利用人工智能中的半监督分类技术,在上游数据中过滤出最为高质量的一批,用于行业分析决策当中。

2.自然语言处理技术应用示例

信用研究中为现象寻求合理解释是必要的。比如在行业景气度分析时,研究员需找出价格明显波动背后的成因,可以依据事件发生的时间点等标签去寻找事件之间的联系。例如,在探究铁矿石价格在2019年明显走高的原因时,研究员会提取“2019年”“铁矿石”“产量”等关键词进行网络搜索,通过比对搜索结果中时间相近、内容相关的事件“2019年巴西淡水河谷公司溃坝事故”,并根据对全球铁矿石供给商“寡头垄断”及进出口数据的分析,最终得出“巴西淡水河谷公司溃坝是导致2019年我国铁矿石价格走高的主要原因”这一结论。

为实现这一过程的智能化,可以利用自然语言处理技术中的自然语言理解算法,对数据库内的文本进行机器翻译、信息摘取、语义对比;采用关联规则算法、主成分分析方法、基于深度学习模型的聚类算法等,可以对跨行业跨时间的海量数据提取分析,有助于机器发掘数据、事件之间的关联性;利用深度学习和自然语言处理技术中的自然语言生成算法,借鉴谷歌开源的BERT模型(Bidirectional Encoder Representations from Transformers)或开放智能实验室的GPT模型(Generative Pre-Training)等自然语言处理最尖端技术,可以在信用研究这一特定领域,把资深研究员先验的分析能力融入深度学习模型,实现机器基于输入的信息进行训练、学习,进行机器写作,并将观点以人类语言形式反馈出来。

(二)发债主体资质评估、把握市场情绪及个券挖掘

金融科技还可以助力构建发债主体资质评级框架。研究框架的搭建离不开人机交互,首先需要资深研究员设定一个初始的研究框架,再基于自动学习(Auto Learning)和主动学习(Active Learning)等各种人工智能技术实现机器在信用研究领域自动、自主学习,以及获取支撑分析过程的数据等。这些技术的运用可以方便地获取全局最优解,并且解决过程中的不合理结果(Bad Case),从而检验初始模型的有效性,自动调整研究框架。

传统信用研究框架的拟定往往依赖于研究员个人对市场和行业的把握,其中评级模型的建立、指标的权重赋值、评分标准等均基于研究员的主观判断。机器学习等人工智能技术为这一过程提供了更客观的解法。此外,算法相比人脑,可以更高效地处理时间跨度更长、比较范围更广、更全面的数据,还可以快速进行多渠道数据的汇总和比对,提高数据准确性。在信用评估的过程中,算法使得机器可以创造价值,即通过横向对比行业内各企业偿债能力差异,纵向对比企业自身近几年盈利状况和偿债能力,分辨财务数据真实性,甄别企业财务粉饰和造假行为。

运用爬虫算法与自然语言算法,可以把握市场情绪和进行个券挖掘。机器可以准确获取市场中个券的报价与成交情况,通过建模和指标选择进行市场情绪指数的计算,加上自然语言算法的发展,可以使机器巧妙地分辨人类语言,进行图像与文字的理解转换,通过对舆情等信息的理解,更好地把握市场情绪。爬虫算法还可以同时处理市场中海量存续债估值、剩余期限等数据,通过人为设定收益率预期,运用模型进行智能投资价值排序,挖掘个券。

(三)投资策略制定与报告自动生成

前述金融科技算法使找出最优投资策略成为可能。以人类语言的形式自动生成与展现投资策略与研究报告还需要用到文本自动生成算法和图表自动生成算法。事实上,金融科技已经可以一定程度上实现这一目标,例如部分银行手机应用为购买理财的用户自动生成和推送理财报告,包含对历史收益等情况的分析并给予投资建议。

知识图谱技术能协助数据和信息的整合与关系梳理,可以使零散的数据和分析搭建成知识体系,方便信息的加工和抽取;网络爬虫技术中增量爬虫算法可以爬取已储存数据更新情况,实时更新研究报告;人机交互过程中,各类金融科技算法的应用使得研究能力得以量化和传承,并能对研究报告质量进行量化评估。例如目前国内一些信用分析及信息终端可以生成信用研究分析报告。

总结来看,智能信用策略及信用研究报告自动生成需要经历爬数据、抽数据、提炼知识、展示、整合、总结观点等多个步骤,在这些步骤中可以相应地运用网络爬虫技术、图文互搜、多模态信息识别与抽取、信息聚类与展示、文本自动生成技术、人机交互等多类人工智能算法。

金融科技在信用研究中应用的难点

未来将金融科技深入应用到信用研究领域,需要克服三个主要困难,相应建议如下。

(一)专业壁垒较高,建议加快人才培育

要实现信用研究的智能化,离不开科技人才对算法的编译和运用;先进算法应用在信用研究领域时,也需要资深金融从业人员的先验知识与专业能力作为机器学习等各算法的基础。目前,高等教育已经开始有意识地培养金融与科技复合型人才,但由于金融与计算机学科专业壁垒均较高,市场上仍以金融专才与科技专才为主。建议研究员对金融科技加强自主学习,金融机构加快对金融科技团队的组建,这是打破专业壁垒,以金融科技赋能信用研究领域的关键。

(二)非结构化数据的挖掘与处理难度高,建议加快新技术研究

算法擅长处理规整、可量化的结构化数据,但现实中存在海量文字、图片、视频等多种模态的数据,即非结构化数据,这类数据又是信用研究中定性分析的重要基础。建议使用文本识别、图文信息对齐等技术,把非文本的数据提取处理整理成结构化或者半结构化数据。如何设计算法来抓取、处理信用研究所需的这类非结构化信息,并深入分析此类数据,将是推进金融科技在该领域应用的研究重点。

(三)全智能化对算法算力要求高,建议加强机构间合作

本文针对信用研究领域存在的难点给出了多类算法结合的金融科技解决方案,但目前来看,个人或单家机构的算力十分有限,且难以对多类复杂算法进行编写和调用。建议金融机构、金融科技企业间加强知识共享、资源共享,这样有助于建立一个算力、算法强大的智能信用研究平台。

债券杂志 | 2023-11-06

请进行滑动验证

x