请输入关键字
Menu

NEWS

新闻中心

  • 142017.10

    [Fintech情报局]不可能的网联之四:没有“后门”之忧?

    近年来,国家有关部门和监管机构日益重视金融业信息科技风险管理工作,要求金融行业加强信息科技风险管理,实现对信息系统的“安全、可控”。央行印发的《关于推动移动金融技术创新健康发展的指导意见》,明确了“遵循安全可控原则”作为移动金融发展的四大原则之一,强调了商业银行和银行卡清算机构应积极落实国家网络安全和信息技术安全有关政策。 建设统一公共的清算基础设施,并构建中心化的行业运行监控体系,是适应网络支付新业态特性,规范清算行为,实施有效监管的必要前提。我国网络支付业务具有高体量、高增速、高普及、高并发特性,进而要求相应基础设施达到高性能、高扩展、高可用、高安全、数据一致性以及自主可控的高标准。网联平台在建设过程中力争从系统设计、软件开发、系统运维以及设备采购实现全程“自主可控”,重点包括以下几个方面。 第一、网联平台整体架构自主设计。 平台自2016年8月央行批复筹建后,坚持“共建、共有、共享”原则,汇聚市场机构专家骨干,充分发挥行业经验及智慧资源优势,由平台的各参与方自主设计完成网联平台系统架构、推进技术开发、梳理业务需求、制定标准规范,确保网联自主掌握技术与标准。 2016年12月,央行组织包括资深院士以及来自央行、商业银行、大型互联网公司的行业顶级专家,对网联平台技术总体方案进行评审。平台方案的先进理念、创新架构以及可实施实现性获得高度评价。 近200人网联团队中,近四分之三是从各家支付机构借调来的,每家轮流借调技术骨干10到20人支持网联,其中包含“BATJ”(百度、阿里、腾讯、京东)的顶级架构师。在短短6个月时间里,完成平台从设计到研发、上线,2017年3月31日,平台成功启动生产环境试运行,并逐步压测调试、灰度升级系统性能,按目前验证与测试情况,平台可按计划实现既定设计指标。 第二、网联平台核心应用自主研发。 作为行业公共基础设施,为保证平台系统的安全性和中立性,以及在人才、技术共建模式下高效推进开发实施,平台抽调100余人次,按照“组件化”原则自主设计顶层架构,将系统按模块、功能及标准化组件逐层级切分拆解,完成核心应用开发。在共建机构研发人员按照平台自主制定的规范、标准开发特定组件后,由平台统筹集成功能模块,并总装完成清算系统。 平台在3月31日成功完成首笔资金交易验证,正式接入央行支付清算系统。首批接入四家商业银行和三家最大的支付机构。经过三个月的试运行,自6月30日起,平台与财付通、支付宝等大型支付机构已完成多轮压测工作,并开始逐步切量。截至9月初,目前每天通过平台的支付交易近400万笔,随着切量稳步增加,“双十一”将突破1亿笔。 第三、网联平台掌握第三方技术组件核心技术。 平台建设在技术方面充分学习市场、倚重市场,融合行业机构的既有技术资源和经验,吸收各机构差异化技术优势,统筹形成平台技术方案。在2016年12月通过技术方案评审后,12家支付机构贡献了20个有自主知识产权的分布式技术组件,并与平台签署了相互认可的授权保密协议。这些组件大都经历过高并发场景的验证,平台集成这些技术优势,可实现最优部件整装组合,并在此基础上结合实际需求进行多方面技术创新,既保证技术方案可控,又保证可用。 目前线上环境主要的第三方技术组件包括分布式服务框架、分布式调度组件、分库分表组件、DB自动切换组件、代码管理,以及项目管理组件。平台已完成对线上组件的多轮压测与生产验证,目前已达到我们预期,并且对相关组件的核心技术已基本掌握,并已根据生产场景逐步完成定制、优化。主要包括提高容错性、添加自统计功能、添加监控主动上报功能等。通过进一步迭代优化,各组件将在平台发挥更大的作用。 除机构提供的技术组件外,平台还引入了部分成熟的开源软件,比如:分布式服务框架注册中心(zookeeper组件)、分布式缓存(redis组件)、分布式消息队列、分布式文件系统等。选择开源软件,首先是成本可控;第二是无需依赖别家公司发布补丁、更新版本,可以根据平台需求完善产品并回馈社区;最重要的是,采用开源软件可以做到真正自主可控,免除人为“后门”的威胁。 第四、网联平台采用一体化开发理念。 平台建设坚持“DevOps”(研发运维一体化)模式,明确“谁开发谁运维”的思路,强调功能研发面向后期实际运行,运维反馈引导迭代开发,并通过百度提供的代码管理与项目管理组件,自研CMDB、自动化发布平台以及全方位运维监控实现研发-部署-运维的一体化流程和闭环反馈,建立先进、高效的管理、建设与运行体系,使代码发布标准化,各个流程均规范可控。 另一方面,平台建设坚持业务技术一体化模式,按照模块划分,混编业务、技术人员协同工作,避免业务需求、功能概设详设到具体代码开发脱节断档,确保流程衔接一致,确保需求范围可控、进度可控。2017年3月31日启动试运行,包括渠道、交易、清算在内的多个相关模块,分别快速完成迭代,最小功能集得以按时上线。 第五、网联平台自主构建金融风险数据监控体系。 平台建设初期与支付清算协会、财付通、支付宝、京东金融、百付宝等业内的多位专家共同设计,经过对网联数据风控业务、大数据服务平台、数据整体架构及规划的多轮论证和评审,最终确立了金融风控数据体系。 围绕数据、模型、决策三个基本点,平台独立构建该体系,达到统一管理、分析、治理的目的;依托独有的、完整的、高价值的金融支付数据,自主设计全面覆盖金融体系的数据仓库;借助银行业、支付行业相关数据风控专家能力,设计研发了网联自有的数据风控体系模型;根据“数据+模型=决策”的思想,打造全新的风险决策服务。 第六、网联平台全面支持国产技术、国产化设备。 平台全业务系统已通过金融等保四级预测评认证,全面支持并优选国产密码算法,并兼容高强度国际安全算法,平台完全采用国产自主可控的安全设备,所有安全设备具有公安部安全类产品资质,密码产品还拥有国家密码局相关资质,以保障数据安全性、可控性与完整性。平台优先采用国产品牌x86 PC服务器作为计算、存储资源池,避免对国外硬件、技术的依赖。 网联平台立足分布式系统技术,坚持科技引领的核心定位,坚持世界先进金融基础设施的属性定位,坚持市场化运作金融科技公司的发展定位。同时,充分认识到“自主可控”作为技术公司的关键意义,将技术输出视为平台的重要资本。平台在后续建设过程中将重点培养真正掌握相关技术的科技队伍,助力央行金融基础设施统筹监管乃至整个国家金融科技领域的技术革新和架构转型升级,为建设更加先进、强健、稳定的国家金融支撑体系做出贡献。 作者供职于网联

    查看更多
  • 142017.10

    [Fintech情报局]不可能的网联之三:个人数据会丢吗?

    近年来,中国互网联支付业务呈爆发式增长态势,仅2016年,支付机构累计发生网络支付业务1639.02亿笔,金额99.27万亿元,同比分别增长99.53%和100.65%。伴随着业务的快速增长以及云计算对互联网行里的高度渗透,各种数据信息正以海量形态源源不断地产生。 网联作为向支付机构提供支付业务转接清算的专业化服务机构,在处理大量转接交易的过程中自然会存储大量与支付相关的信息数据。而随着近年来部分个人数据被非法倒卖、黑客篡改数据等各类安全事件的频频曝光,社会大众对信息保护的意识正逐步增强,保护数据信息安全也成为了网联建设的重中之重。 面对来自内外部的安全攻击威胁、数据泄密和黑客入侵等各类风险,网联作为国家重要基础金融设施,通过设定高安全标准和目标,将维护数据信息安全放在平台建设首位,从安全设计到密码认证,再到后续的开发测试和监控审计,实现平台全流程的安全防护。 安全设计全面可信,确保安全全面覆盖 在互联网的世界里,黑客绝对是危险的存在。此前就出现过黑客利用环球银行金融电信协会(SWIFT)系统安全设计上的漏洞,成功绕过安全控制系统入侵其资金转移系统。一般而言,黑客往往通过系统安全设计上的缺陷、系统网络的漏洞、口令管理的脆弱入侵系统,破坏应用,窃取数据。 考虑到以上情况,网联的系统从设计之初就已经考虑到各种入侵的风险,在参考业界最佳安全实践,融合等级保护测评、大型支付机构安全设计经验的基础上,网联从物理、网络、系统、应用、数据、管理和业务连续性等多个维度进行安全防护,以全面保障系统与数据的可用性、完整性、保密性和抗抵赖性,确保黑客和内部攻击者均无法篡改报文或者窃取敏感信息。具体而言,网联从网络层面和系统层面着手展开系统设计。 在网络层面,网联采用专线连接支付机构和银行,架构起网联的专网系统,并部署了多重的网络安全防御,具备防DDOS攻击、端口扫描、黑客攻击渗透的工具和手段。在防DDOS方面,通过多种手段结合进行处理,使用了硬防火墙、专业的流量清洗设备,结合协议分析进行全方面的防护。在防御端口扫描方面,通过白名单方式,只对外开放必要的业务端口,使用防火墙硬件阻拦对白名单外的端口扫描。 在系统层面,通过定制化系统和周期化扫描,及时发现修复漏洞并对系统进行配置审核、跟踪开源技术中存在的漏洞,并结合使用IPS对网络中的异常操作进行审核,实时发现黑客隐蔽的攻击方式。 密码认证体系先进,确保安全技术有效 权限密码管理方面,通过堡垒机统一管理用户权限。将堡垒机作为系统的唯一入口进行账号、密码、权限的托管,登陆使用硬件双因素动态口令系统,而服务器自动和堡垒机协商超复杂的随机密码,从而达到守住入口、自动管理密码的效果。 网联在数据安全层面,从网络通讯加密、用户数据加密、高强度密码算法上层层防御,做到数据看不见、摸不到、拿不走的效果。 网联将高强度的安全应用到各个环节中,确保全方位的安全技术覆盖。支付机构和银行通过专线专网,在SSL安全隧道技术结合高强度加密算法的保护下,将数据安全置于全面防护、高度保障的地位。SSL算法经过精心的裁减,将所有低强度加密都进行了排除,只允许国密算法和高强度的国际算法才被允许和网联进行通讯。 在数据安全上,通过硬件加密机实现对所有敏感数据的加密,利用一次一密的方式,实现了数据的高安全。数据在机构端加密,在网联端认证,在银行端处理,敏感数据全程保持密文状态,将数据泄露的风险真正降到零。在和支付机构之间的文件传输上,也是使用硬件加密机实现一次一密的方式,采用AES-256高强度对称密码算法,保障了数据万无一失。 在充分保障数据机密性的基础上,网联也对数据的完整性和有效性提出了高要求。对于所有和网联进行业务通讯的报文,都必须采用签名验签技术,确保传输的数据是来自真正的发起者,同时在传输过程中不会受到任何修改。任何不属于网联签名的数据,任何验证签名不通过的数据,都被网联认为是无效数据进行抛弃,完全保障了用户数据的高安全。 网联同时支持国产密码体系和国际密码系统,在密码算法的选择上,都采用了业内最高级别的密码算法。比如,对称密码算法采用了国产的SM4、国际的AES256算法,非对称算法上,选择了国产的SM2、国际标准的SHA-384和RSA-2048。这些远超业界同行的高强度密码算法及最佳实践,确保了网联数据的安全。 代码的BUG、安全漏洞也是黑客的最爱。利用代码漏洞直接攻击系统的案件也是近几年最严重的安全风险事件。2017年5月12日晚,新型“蠕虫式”勒索病毒软件 WannaCry 在全球爆发,攻击各国政府,学校,医院等网络。我国众多行业大规模受到感染,其中教育网受损最为严重,攻击造成大量教学系统瘫痪。 完备的开发测试过程,确保业务流程可控 如何写出安全的代码,保障用户的交易数据在网联系统的安全运行?网联给出了解决方案:系统开发过程遵循SDL(安全开发生命周期)流程,在需求分析阶段安全就介入到开发过程中,保证用户的各个敏感数据都收到了相应的保护。 通过白盒测试、黑盒测试、压力测试确保各个安全控制手段的完备性、有效性。目前用户的敏感数据从生产、到存储、到使用都是全程密文传输,密文处理,保障用户数据全方位的安全。 有效的安全监控审计,确保安全控制可追溯 在安全审计方面,网联采用桌面云结合堡垒机的模式,桌面云作为和互联网隔离的独立运维网络,数据锁在桌面云的环境内确保安全;堡垒机作为唯一可控的操作入口,操作用户数据的行为将被一一记录一一审计。做到数据看得见、拿不走、能操作、被审计的效果。 目前,网联已通过内部多轮的安全风险评估和渗透测试,主动发现并解决了部分问题。与此同时,也已邀请国内顶尖权威机构“中国电子科技集团公司第十五研究所”对网联系统进行了全方位的安全检测。力求从内到外,将网联系统安全从被动做到主动,从防御变成自我发现、自我修复和自我提高。 此外,在“中国金融电子化公司”的大力协助下,网联全系统已完成金融等级保护测评四级的测评工作,目前在国内鲜有机构能通过全系统此项测评,即使是支付宝、银联也只是核心系统通过了等保四级认证。网联全系统等保四级测评的顺利通过,不仅获得国家级认证机构的高度认可,也说明平台安全设施已经达到了国内领先水平,做到了真正的高安全全面保护。■ 作者供职于网联

    查看更多
  • 122017.10

    [FinTech情报局]不可能的网联之二:系统可靠吗?

    随着网络支付行业渗透到我国社会经济的方方面面,发红包、扫码支付等已不再是“90后”群体的专属,而成为老百姓吃穿住用行的常见支付方式。随着支付方式的便捷化,老百姓也更加关注各种支付场景下的体验和效率,如果“双11”你的女朋友让你帮助清空购物车,你难道能告诉他现在系统故障无法支付吗?你在吃完夜宵告诉老板手机支付故障了,会不会被老板当做吃霸王餐的?在你抢红包的时候能接受系统延时和中断吗? 答案当然是不能!!! 对,网联也不允许这样的事情发生。老百姓的支付需求不可辜负,网联平台的可用性要求几乎是分分钟都不能中断。初期设计要求可用性必须达到 99.99%,即全年故障时间控制在52.6分钟以内。网联的特殊性要求提供服务的时间是7*24小时,这就是说网联全年没有停机维护时间、不能发布停机计划。同时在支付、红包等高峰期的“双11”、“情人节”“过新年”等等业务量可能将达到18w笔/秒。在这种高并发的业务量、这种全年无停机时间的要求下,面对各种可能出现的故障,网联是如何做到99.99%可用性? 万丈高楼平地起。首先,我们要给网联系统找一个家,这个家就是数据中心。数据中心是IT系统的地基,是为网联提供一个“恒温、恒湿、不间断用电”的运行环境,数据中心的好坏直接决定了网联平台是否可以一直健健康康提供服务。双回路市电供电、2N UPS系统、N+1制冷系统、门禁视频及入侵检测系统、消防系统、环境监控系统等都是基本的要求,确保了每一个家的可用性达到99.99%。然而这样就够了吗? 2011年3月11日,日本遭受了9级大地震,日本东京的IBM数据中心严重受损; 2015年5月27日,支付宝因光纤被挖断导致业务大面积瘫痪; 2016年1月14日,Verizon公司运营的数据中心电力中断,导致美国廉价航空捷蓝航空公司的客户旅行延误了几个小时,大量旅客滞留; 2016.7.22,支付宝华南一处机房出现故障,部分用户无法在线上或线下通过支付宝进行支付购买,持续2小时; ...... 近些年此类消息层出不穷,电力、火灾、台风、地震等天灾人祸随时可以让一个数据中心、甚至整个城市的数据中心瘫痪。 传统银行提出的“两地三中心”模式,同城主备+异地灾备的模式是否可以解决这个问题呢?当发生主中心故障必然需要切换而无法7*24小时提供服务,而网联必须满足7*24小时的高可用。 这就要求网联平台不仅要有多个数据中心,还必须部署在多个城市,且各个数据中心都必须能独立提供完整的服务,网联提出“多地多活”的分布式数据中心部署方案,让网联各个数据中心独立对外提供服务,任何数据中心的故障均不影响网联平台的服务。最终网联平台按此方案安家于北京、上海、深圳,建成“三地六中心”。此三个城市分别位于我国北部、东部和南部,有效隔离台风、地震、洪水等自然灾害。每个城市设立两个数据中心,距离约40~50公里,有效隔离区域电力故障或其他城市级故障。同时此三个城市也是我国各区域人口及经济中心城市,其空间布局的合理性、可靠性不言而喻。 那么网联的三地六中心是如何实现多活对外提供服务的呢? 网联要求机构和银行采用多专线链路方式接入网联平台。对于大型支付机构和银行,网联平台提供全部六中心专线接入能力;对于区域性机构和银行,网联平台也会提供多条线路接入能力。这样的专线接入模式可以有效降低因线路故障而导致的服务不可用。 其次,这些多城市、多数据中心、多线路接入的多活方式如何协调和运转呢?网联平台独特的多数据中心渠道接入“秘笈”闪亮登场了。 支付业务一般由第三方支付机构发起,机构多条线路分别对接网联的多个数据中心,网联实时推送各数据中心健康情况,由机构自由选择进入网联哪个数据中心处理业务。当网联平台某个数据中心不提供服务时,可以通过其他数据中心更新控制代码剔除当前不可用数据中心。机构接受到指定错误代码时,重新拉取最新的控制代码,将交易平滑切流至网联其他数据中心,不影响交易的正常处理。然后网联负责选择通过哪个路由进入银行的数据中心,当银行某个数据中心发生故障无法提供服务时,网联平台根据交易健康度规则判断,可以将流量自动切换至银行的其他数据中心。做到多数据中心、多链路负载冗余。 从上面我们可以看到,网联通过多数据中心、多链路冗余等方式实现了“三地六中心”的多活架构,然而最终对外提供服务的是网联的应用系统以及后台的数据库系统,那么他们是如何设计和运行的呢?应用系统如何实现故障自动切换?数据库如何实现故障自动切换? 网联核心的转接清算业务采用分布式。分布式应用无状态特性使得单个数据中心部署的应用无单点风险。推广到多个数据中心时,各数据中心的应用集群互为备份。当发生数据中心级甚至城市级故障时,网联平台的业务均可被其他数据中心接管。并且,网联平台在处理性能上保有足够冗余,当一个城市发生灾难时,其余两地的数据中心可以接管和支撑全部流量。 网联平台采用集群方式部署数据库,且最大程度提高库级冗余。网联平台采用“一主三从”模式部署数据库集群,即同机房一主一备。同机房数据库出现故障时,集群自动切换,防止出现因主库故障而导致不可用和数据丢失的问题。同时,在同城和异地分别再备份一份增加可靠性。再结合应用路由设置,任何一个数据库节点故障时,应用均可以切换到其他可用数据库节点继续处理。数据库集群各节点之间无影响。 此时网联的三地六中心多活高可用方案已具备外形,让我们一起进入一个数据中心内部,看看各个硬件模块的性能,会不会成为故障点而降低整个平台的可用性。 进入数据中心后,我们看到了一排一排整齐机柜,大量的服务器、网络设备疯狂闪烁着的指示灯标志着他们在全力处理业务,所有设备均是双电源、双引擎的冗余模式,冗余模式可保障单台设备99.99%的可用性,然而当网联成规模的几千台服务器在线运行,设备故障则不是小概率事件了。那么网联是如何在这种情况下提升服务可用性的呢? 网联平台采用虚拟化技术构建应用服务器资源池,采用KVM虚拟化技术实现了x86服务器CPU、内存和硬盘等硬件资源的虚拟化,并以开源的Openstack为框架建设各个数据中心。各个数据中心独立成云,在每朵云里,应用采用随机策略分别部署到资源池的不同的逻辑区域内(称之为“可用域”)。同时在网络层面,虚拟化内核支持标准VxLAN封装的分布式虚拟交换机,实现了虚拟网络与物理网络的解耦。使得虚机可以自由的运行在资源池中的任意服务器上。加之负载均衡等高可用设计,当一台或是多台服务器、一个或多个机柜模块、甚至是一个或多个可用域故障时,应用仅会损失部分计算能力,整个服务的可用性不受影响,即单台设备的故障不会对应用可用性造成影响。 自此,网联平台自上而下的高可用设计就介绍清楚了,让我们回顾一下看看网联是不是有遗漏的地方。 服务器故障了? 我们通过虚拟机化、资源池化提升了资源池的可用性,单台物理机故障不会影响资源池的可用性。 网络设备故障了? 我们所有网络设备均是多机热备、自动切换流量。 应用系统故障了? 我们所有应用采用负载均衡+分布式部署,业务流量自动由其他健康的应用支持; 数据库故障了? 我们的数据库集群自动故障转移,“一主三从”,应对各种故障场景。 光缆被挖断了? 路由自动切换到冗余链路,机构和银行都是多条链路接入的哦。 啥?整个机房掉电了?火灾了?整个数据中心没了? 我们渠道业务自动通知机构选择其他数据中心处理业务。引流到健康的数据中心。别说是单个机房故障了,就是某个城市发生地震、洪水等自然灾害摧毁一个城市的两个数据中心,我们也能自动把流量转移到其他可用的数据中心。 网联的可用性设计都敢和大自然抗衡了,你还害怕抢不到红包吗?你还害怕不能清空女朋友的购物车吗?宵夜随便吃,随便几点都能手机支付,别把手机丢了就行。 最后,我们用专业的说法再总结一些吧。我们用下图金字塔模型把各层设计要点归纳起来: 图:网联平台高可用金字塔模型 高可用金字塔是分层解耦的,也就是说,每一层故障概率是独立的。自下而上,故障等级越来越高,但是故障概率越来越低。这种设计确保了整个网联平台的“不可用”取决于金字塔的最顶层故障概率。很显然,城市级(乃至全国性)灾难的概率和中彩票的概率差不多。 因此,从理论上讲,网联平台是不会垮的(RTO=0);平台应用“多点多活”,数据跨城市冗余,业务数据接近零损失(RPO≈0);可用性可以达到99.99%甚至更高。当然,实证情况下,再完美的系统执行业务切换和流量分流也需要复杂的路由判断和必要的操作时间。因此,网联平台重点建设的,就是更稳定可靠的云化数据中心,更灵活弹性的专线接入,更智能敏捷的路由切换系统。 网联平台建设的每一个参与者都在提高平台的整体可用性,切实履行国家级金融基础设施重要职能而努力奋斗。 作者供职于网联

    查看更多
  • 112017.10

    [FinTech情报局]不可能的网联之一:支持每秒18万笔?!

    网联又称“非银行支付机构网络支付清算平台”,是为国内所有非银行支付机构搭建的一个共有的交易转接以及清算的平台。可能有人会担心网联模式下会不会对支付性能有影响?特别是即将来临的2017年“双11”,还能不能开启疯狂剁手模式?七夕节早上5点20分女神能否准时收到微信红包? 答案当然是肯定的。面对高并发、低延时的支付场景需求,网联采用高性能的分布式架构,完全能支撑住大家愉快地买买买和节日表白。 先以超市购物的例子来说明网联清算模式下的整个支付清算业务流程: ? 小明在超市买了1000块钱的商品,用微信支付时选择使用绑定的招商银行卡付款; ? 财付通收到小明的请求后,向网联平台发起一笔协议支付交易; ? 网联平台将交易信息存在数据库里,并将请求转发至招行,招行在小明账户扣掉1000块钱,网联收到招行扣款成功的通知后,会给财付通反馈支付成功的回执,同时通知工行(财付通备付金行)给财付通工行账户增加1000块钱。 ? 最后,财付通将支付结果通知小明,小明带走商品。 小明需要等待支付结果才能完成交易,因此要求整个支付链路具备低延迟的特点,网联交易转接的处理时间设计为秒级响应。 这种场景,在生活中比比皆是。据数据显示2016年“双111,支付宝的支付峰值达到12万笔/秒,预计2017年“双11”会达到20万笔/秒的支付峰值。根据历史数据推算60%的交易涉及银行账户的网络支付请求,即会有12万笔/秒的支付请求需要转接至网联平台;因此,网联平台的设计目标是支持12万笔/秒的平稳实时转接请求的能力,同时考虑容灾要求,平台满配峰值支持18万笔/秒。 “三地六中心”支撑 为支撑这样的高并发需求,网联必须考虑异地容灾,多点多活,容忍城市级灾难的机房建设。 业界传统的做法是建设“两地三中心”,而“两地三中心”架构一般只有一个中心对外提供服务,另外一个中心为数据备份(并不对外提供服务),不能满足平台的容灾多活要求。网联采用了“三地六中心”的系统架构,每个机房支持2万笔/秒,峰值支持3万笔/秒,三个城市六个机房同构设计,同时对外提供服务且互为备份。任何一个机房或一个城市发生重大故障,其他机房可以继续提供12万笔/秒的平稳运行服务。 每个机房需要支持3万笔/秒的交易转发峰值。传统的集中式架构最大特点就是将所有的数据都集中存储于中心节点上,并且整个系统的业务单元都集中部署在这个中心节点上,系统所有功能都依靠大型高端设备来提供处理能力,因此集中式架构在单台设备发生故障后影响范围比较大。而分布式架构在分散的结构部署下,单台设备故障导致的运行风险相对较小。 基于分布式架构在互联网企业中的多年成功运行,网联决定采用分布式架构来支持单机房3万笔/秒的处理能力。应用服务通过分布式部署,来减少单台服务器的压力,将3万笔/秒的处理能力分布到上百台云服务器上处理,每台云服务器来分流处理交易请求。 此外,高并发的转接请求和海量数据存储会成为单数据库服务器的瓶颈,会对系统的稳定性和性能造成极大的问题。为解决该问题,网联在数据库上采用了分库分表的分布式数据架构。数据库的分库分表方案可以轻松的将计算、存储、I/O并行分发到多台服务器上,充分利用多台服务器的处理能力,降低了单点服务器的负载并提高了数据库操作效率,提升了整个系统的性能。在技术选型上,网联采用成熟的分库分表基础组件,每个机房部署N个数据库实例,因此每台数据库服务器只需每秒处理3万/N笔的并发请求。此外,网联机房的网络采用多条高速链路互联,实现超高速带宽,也给高并发数据量请求提供了保障。 网联通过“三地六中心”部署,以及单机房分布式服务架构和分布式数据库架构的方式完成了对18万笔/秒的实时交易转接。 分批次清分对账 在网联交易转接模式下,小明支付成功后获得了自己的商品,但是招行和工行之间还没有完成最终资金清偿,网联会对所有交易信息进行清分轧差,清分轧差数据为招商银行-1000,财付通备付金工行账户+1000,网联会生成清算指令并提交中国人民银行大额支付系统,由大额支付支付系统完成各家银行机构资金的统一清算。 但是,网联单日交易规模达数十亿笔,且数据分布在多地六个处理中心,面对如此海量的数据,如何在确保结果准确的前提下提升清算实效?且更要确保证结果的正确? 为了减轻数据集中处理带来的延迟和网络带宽的消耗,网联对数据分批次进行清分,并按场次将轧差净额提交人行大额进行清算。即将交易按照时间片进行切分,每一个分片称作一个交易批次,在批次时间切换后,对批次数据进行清分处理。 有别于传统系统日终集中处理模式,尽量将数据的处理分散开,避免集中处理造成的性能瓶颈和系统压力,同时针对本IDC的交易数据均在本地完成清分处理,只将清分结果通过跨城网络进行上报集中处理平台。集中处理平台作为大脑,对清分的流程进行编排,在预定的清算时点,系统会对尚未清算且已完成IDC级数据汇总的批次清分数据进行集中轧差,形成用于提交人行大额支付系统进行清算的净额数据,进而完成资金的最终清偿。 完成净额数据的最终清偿,参与机构和银行需要交易的最终凭证,即各自的交易流水文件(包括对账汇总流水及交易明细)。据估计峰值为每个批次6.48亿笔原始数据,按机构和收付款行拆分后数据量变为三倍,要求每个批次结束后2小时内提供对账文件。 同时网联是“三地六中心”的分布式架构,交易信息分布化,系统设计从以下几个方面解决了分布式海量数据的及时对账问题:按时间维度分批对账,平台对交易按照一定的时间间隔进行切片,一天会切成多个交易批次,每个批次作为一个独立的对账处理过程。 与传统的集中式日切处理模式相比,多批次对账提高了对账效率,避免了大批量数据集中处理的压力。按空间维度多点对账,交易数据分布在6个机房,对账平台直接在每个机房进行本地计算、生成明细文件、计算本地汇总数据。明细文件保存在当前机房,汇总文件上报集中处理平台。即将整体逻辑按照纵向和横向进行多维度的拆分,通过最大化的并行处理提升处理效率;多点对账同时平均分配了数据量,避免了单点大数据量的压力。最后,在保证数据源完整性、对账性能高效性的同时,通过出错自动重试的流程设计,保证对账文件的数据完整性。 在这种网联清算模式下的支付业务中,小明完成了实时交易,支付机构、付款行和收款行完成了各自的最终清账和对账文件回执,在千千万万这样的场景中,网联通过分布式高性能的架构,支持了高并发下的实时交易转接处理以及批量交易的清算对账。 作者供职于网联

    查看更多
12 3 4

you'll be interested in

或许您还对这些感兴趣

?
友情链接:博天堂论坛网站  三分快三平台  全天pk10计划网址  全民彩票开户  快乐8  金沙城中心网站  北京PK10app  彩之网首页  V6彩票官网  太阳城网站网址