【云驻共创】华为云云搜索服务CSS
1、概述
云搜索服务(Cloud Search Service,简称CSS),是华为云ELK生态的一系列软件集合,是一个基于Elasticsearch且完全托管的在线分布式搜索服务,为用户提供结构化、非结构化文本、以及基于AI向量的多条件检索、统计、报表。完全兼容开源Elasticsearch软件原生接口;它可以帮助网站和APP搭建搜索框,提升用户的搜索体验;也可以用于搭建日志分析平台,助力企业实现数据驱动运维,数据驱动运营;它的向量检索能力可以帮助客户快速构建基于AI的图搜、推荐、语义搜索、人脸识别等丰富的应用。
2、产品功能
2.1、专业的集群管理平台
管理控制台提供了丰富的功能菜单,能够让您通过浏览器即可安全、方便地进行集群管理和维护,包括集群管理、运行监控等。
2.2、完善的监控体系
通过管理控制台提供的仪表盘(Dashboard)和集群列表,您可以直观看到已创建集群的各种不同状态,可通过指标监控视图了解集群当前运行状况。
2.3、支持Elasticsearch搜索引擎
提供Elasticsearch搜索引擎,Elasticsearch是基于Lucene的当前流行的企业级搜索服务器,具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚合、高亮显示等。能为用户提供实时搜索、稳定可靠的服务。
2.4、支持向量检索能力
基于华为自研的向量引擎,提供了高效可靠、可扩展的向量检索能力,能够满足高性能、高精度、低成本、多模态等多种应用场景及需求。
3、产品优势
3.1、高效易用
TB级数据毫秒级返回检索结果,提供可视化平台方便数据展示和分析。
3.2、弹性灵活
按需申请,在线扩容,零业务中断,快速应对业务增长。
3.3、自主词库
支持用户自定义行业词库,词库修改,无需重启实例。
3.4、无忧运维
全托管服务,开箱即用,主要操作一键可达,专业团队贴身看护。
3.5、高可靠性
支持用户手动触发以及定时触发的快照备份,支持恢复到本集群以及其他集群的能力,通过快照恢复支持集群的数据迁移。
- 自动备份(数据快照)
云搜索服务提供备份功能,可以在控制台的备份恢复界面开启自动备份功能,并根据实际业务需要设置备份周期。
- 恢复数据(恢复快照)
当数据发生丢失或者想找回某一时间段数据时,可以在“集群快照”界面上单击“恢复”功能,将已有的快照,通过恢复快照功能,将备份的索引数据恢复到指定的集群中,可以快速获得数据。
- 规格变更业务不中断
云搜索服务支持节点扩容、磁盘扩容、以及词库更新,并且变更过程中业务不中断。
3.6、高安全性
云搜索服务主要从以下几个方面保障数据和业务运行安全:
- 网络隔离
整个网络划分为2个平面,即业务平面和管理平面。两个平面采用物理隔离的方式进行部署,保证业务、管理各自网络的安全性。
业务平面:主要是集群的网络平面,支持为用户提供业务通道,对外提供数据定义、索引、搜索能力。
管理平面:主要是管理控制台,用于管理云搜索服务。
通过VPC或安全组专有网络来确保主机的安全。
- 访问控制
- 通过网络访问控制列表(ACL),可以允许或拒绝进入和退出各个子网的网络流量。
- 内部安全基础设施(包括网络防火墙、入侵检测和防护系统)可以监视通过IPsec VPN连接进入或退出VPC的所有网络流量。
- 支持用户认证与索引级别鉴权,支持对接第三方管理用户系统。
- 数据安全
- 在云搜索服务中,通过多副本机制保证用户的数据安全。
- 支持客户端与服务端通过SSL加密通信。
4、应用场景
4.1、日志分析
对IT设备进行运维分析与故障定位、对业务指标分析运营效果。
优势
性价比高
- 采用鲲鹏算力、冷热分离、存算分离,成本同比降低30%+;
易用性好
- 支持丰富的可视化查询语句与拖拽式报表;
强大的处理能力
- 支持每天百TB级数量入库,提供PB级以上数据处理能力。
4.2、站内搜索
对网站内容进行关键字检索、对电商网站商品进行检索与推荐。
优势如下:
实时检索
- 站内资料或商品信息更新数秒至数分钟内即可被检索
分类统计
- 检索同时可以将符合条件的商品进行分类统计
高亮提示
- 提供高亮能力,页面可自定义高亮显示方式
4.3、数据库查询加速
电商、物流企业有订单查询业务场景,数据量大、查询并发高、吞吐大、且要求查询延迟低。关系型数据库具备较好的事务性与原子性,但其TP与AP处理能力较弱,通过将CSS作为备数据库,可提升整个系统的TP与AP处理能力。
优势
高性能
- 支持文本、时间、数字、空间等数据类型;亿级数据查询毫秒级响应;
高可扩展性
- 支持200+数据节点,支持1000+个数据字段;
业务"0"中断
- 规格变更、配置更新采用滚动重启,双副本场景下业务0中断。
4.4、全场景日志分析
云搜索服务CSS可用于全场景日志分析,包括ELB日志、服务器日志、容器和应用日志。
其中Kafka作为消息缓冲队列,用于削峰填谷,Logstash负责数据ETL,Elasticsearch负责数据检索与分析,最后由Kibana以可视化的方式呈现给用户。
优势
- 性价比高
采用鲲鹏算力、冷热分离、存算分离,成本同比降低30%+;
- 易用性好
支持丰富的可视化查询语句与拖拽式报表;
- 强大的处理能力
支持每天百TB级数量入库,提供PB级以上数据处理能力。
5、操作实践
5.1、入门
操作场景:使用Elasticsearch搜索引擎来为用户提供商品搜索功能。
5.1.1、创建集群
在开始搜索数据之前,您需要创建一个集群,其搜索引擎为Elasticsearch。例如,您可以创建一个名称为“Sample-ESCluster”的集群。此集群仅用于入门指导使用,建议选用“节点规格”为“ess.spec-4u8g”,“节点存储”为“高I/O”,“节点存储容量”为“40GB”。集群创建完成后,在集群列表查看已创建的集群,集群状态为“可用”表示集群创建成功。
5.1.2、导入数据
云搜索服务支持通过云数据迁移(简称CDM)、数据接入服务(简称DIS)、Logstash、Kibana或API将数据导入到Elasticsearch。其中Kibana是Elasticsearch的图形化界面,便于交互验证,因此,这里以Kibana为例介绍将数据导入到Elasticsearch的操作流程。
在云搜索服务的“集群管理”页面上,单击集群“操作”列的“Kibana”访问集群。
- 在Kibana的左侧导航中选择“Dev Tools”,进入Console界面。
- Console左侧区域为输入框,输入框右侧的三角形为执行命令按钮;Console右侧为结果输出区域。
5.1.3、搜索数据
全文检索
假设用户进入该电商网站,她想要查找名称包含“春装牛仔裤”的商品信息,可以搜索“春装牛仔裤”。这里使用Kibana演示用户搜索数据在后台的执行命令和返回结果。
执行命令如下所示。
GET /my_store/products/_search
{
"query": {"match": {
"productName": "春装牛仔裤"
}}
}
5.1.4、删除集群
当您已完全了解Elasticsearch搜索引擎的使用流程和方法后,您可以参考如下步骤,删除示例集群以及示例数据,避免造成资源浪费。
由于集群删除后,数据无法恢复,请谨慎操作。
- 登录云搜索服务管理控制台。在左侧菜单栏选择“集群管理”。
- 进入集群管理页面,选中“Sample-ESCluster”集群所在行,在操作列单击“更多”>“删除”。
- 在弹出的确认对话框中,确认要删除的集群名称,单击“确定”完成操作。
5.2、创建用户并授权
在IAM控制台创建用户组,并授予云搜索服务权限。
在IAM控制台创建用户,并将其加入1.创建用户组并授权中创建的用户组。
- 用户登录并验证权限
新创建的用户登录控制台,验证云搜索服务的权限。
5.3、创建并接入集群
- 登录云搜索服务管理控制台。
- 单击右上角的“创建集群”,进入“创建集群”页面。
- 选择“计费模式”和“订购周期”。
计费模式参数说明 |
|
参数 |
说明 |
计费模式 |
集群支持包年/包月和按需计费两种模式。 o 包年/包月:根据集群购买时长,一次性支付集群费用。最短时长为1个月,最长时长为3年。如果购买时长超过9个月,建议包年购买,价格更优惠。一年计费为购买10个月得12个月。 o 按需计费:按实际使用时长计费,计费周期为一小时。 |
订购周期 |
选择包年/包月模式后,需要选择购买时长。 您可以根据需求,选择是否需要自动续费。 |
1、选择“当前区域”和“可用区”。
区域和可用区参数说明 |
|
参数 |
说明 |
当前区域 |
集群工作区域在右侧下拉框中选择。 |
可用区 |
选择集群工作区域下关联的可用区。 云搜索服务支持最多配置3个“可用区”,详细请参考跨AZ高可用性介绍。 |
2、配置集群基本信息。
基本参数说明 |
|
参数 |
说明 |
集群版本 |
选择所需的集群版本,支持的版本以界面可选项为准。 |
集群名称 |
自定义集群名称,可输入的字符范围为4~32个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。 说明: 当集群创建成功后,您可以根据需求修改集群名称。单击需要修改的集群名称,进入集群基本信息页面,单击“集群名称”后面的 ,修改完成后,单击 ,进行保存。如果需要取消修改,可单击 进行取消。 |
如果您开通了“企业项目”,在创建集群时,可以给集群绑定一个企业项目。您可以在右侧下拉框中选择当前用户下已创建的企业项目,也可以通过单击“查看项目管理”按钮,前往“企业项目管理”管理控制台,新建企业项目和查看已有的企业项目。
如果购买了折扣套餐,折扣套餐中选择了企业项目,则创建集群时,需要和折扣套餐的企业项目保持一致。
设置自动创建快照的参数
单击“返回集群列表”,系统将跳转到“集群管理”页面。您创建的集群将展现在集群列表中,且集群状态为“创建中”,创建成功后集群状态会变为“可用”。
如果集群创建失败,请根据界面提示,重新创建集群。
5.3.1、在管理控制台通过Kibana接入集群
- 登录云搜索服务管理控制台。
- 在左侧导航栏,单击“集群管理”。
- 在集群对应的“操作”列,单击“Kibana”,即可打开Kibana界面。
图1 Kibana界面
5.3.2、在同一VPC内的弹性云服务器,直接调用Elasticsearch API
操作步骤如下所示:
- 购买并登录满足要求的弹性云服务器。
- 在此弹性云服务器中,直接通过curl执行API或者开发程序调用API并执行程序即可使用集群。Elasticsearch操作和接口请参见《Elasticsearch:权威指南》。
例如,使用curl执行如下命令,查看集群中的索引信息,集群中某一个节点的内网访问地址为,端口为“9200”。
- 如果接入集群未启用安全模式,接入方式为:
curl 'http://X.X.X.X:9200/_cat/indices'
- 如果接入集群已启用安全模式,则需要使用https方式访问,并附加用户名和密码,在curl命令中添加-u选项。
curl -u username:password -k 'https:// X.X.X.X:9200/_cat/indices'
以接入未设置通信加密的集群为例,其结果如下图所示。
执行结果
6、应用案例
6.1、梦饷集团
梦饷集团在海量的实时店主行为数据中,实现高效的人货匹配分析。随着业务的发展及用户数十倍的增长,急需一个弹性的架构和高性能的数据库来应对电商特有的促销带来的流量洪峰,保证业务稳定、不受影响。原有Hadoop 架构的多副本模式,导致计算存储成本高昂。数据体量庞大,运维压力繁重。需要开源开放接口,自主灵活创新。
梦饷集团携手华为云,探索S2B2C新商业模式,实现每月GMV10+亿;通过在其电商搜索推荐平台中使用CSS,有效提升最终客户的搜索体验与搜索点击转化率。
使用华为CSS服务后,提升效果如下:
实时分析占比提升
- 一份数据同时支持离线分析、实时分析、交互式查询,实时分析占比已经从原来的不到5% 提升到现在的50%
数据迁移平稳运行
- 将大数据系统全部迁移至华为云智能数据湖FusionInsight,云原生serverless 全托管服务+RDS 读写分离,实现秒级弹性扩缩容,让业务平稳度过大促等流量洪峰冲击
总成本降低
- 基于存算分离架构和云数据库平台提供自修复、自优化、自运维及自安全能力,运维效率提升30%,TCO 降低 30%
6.2、德邦快递
德邦快递作为快递界的“黑科技”爱好者,持续应用云、AI等技术提高自身核心竞争力。AR、无人车、智能客服、物流云等在德邦纷纷落地实施,支撑业务规模高速增长。
2018年,德邦快递与华为云在上海签署了战略合作协议,宣布在云计算、人工智能等领域深入合作,探索人工智能在快递行业全产业链当中的应用,全面升级快递服务体验。
- 华为云OCR服务,助力德邦快递实现高速扫描取件,实现降本增效
华为云OCR服务,能够高效准确提取图片关键信息,构建数据资产库。目前,华为OCR的识别准确率已经大于99%,能做到每秒一张图片的识别速度。
德邦快递全面应用OCR技术识别快递面单,取代纯手工录入的做法。取件时,快递员可拍照或截图,OCR就会自动识别收寄信息并自动录入系统。高精度的OCR识别,能够处理复杂背景、光照不均、模糊以及图片缺角等问题,减少异常情况的人工处理时间,大幅提升服务效率及用户体验。OCR技术的应用使得管理成本降低了25%左右。
- 自动化流水作业不停歇,准确提取信息并自动分拣,节约人力
德邦通过华为云OCR技术实现自动按目的地分类管理。包裹取回并传上流水线后,系统会自动拍照识别,根据寄件人信息、货物信息、是否盖检视章等信息,按目的地自动分拣,整个流程智能高效。
- 服务至最后一公里,AI识别暴力分拣,异常预警保证安全送达
快递行业中,暴力分拣行为一直广受诟病。伤害消费者的权益,且导致大量的货损赔偿。 华为云EI智能分析服务,能够对监控视频进行实时行为分析,自动识别拣货员在拣货过程中出现的扔、抛、推倒、用力踢等暴力分拣行为,自动输出暴力分拣片段,及发生的时间和地点。在多车多人的复杂场景下,暴力分拣算法的识别准确率为60%,召回率40%,能大量减少人工监控成本,且有效降低暴力分拣行为的发生,确保安全作业,保障货物完整无损地到达收件人手里。
华为云通过技术使能德邦快递的业务实践,共同实现”让天下没有难送的快递“。真正做到了“有技术,有未来,值得信赖”。
6.3、T3出行
T3出行是南京领行科技股份有限公司打造的智慧出行生态平台,由中国一汽、东风汽车、长安汽车三大央企联合多方知名企业签订合资协议正式运营的出行企业,T3出行月度活跃用户增长135.24%,2021年开通68个城市,日单量突破300W单,订单规模及日活用户跃居B2C出行领域第一。
存在问题:
下次出行前支付问题多
- 传统数仓技术难以解决“长尾支付”带来的问题;
- 需要更灵活的架构支持像AI 自动验证司机身份、识别司机不安全行为等新应用;
- 需要更稳定可靠的架构,支撑流量快速增长;
T3 出行的大数据托管于华为云的FusionInsight 智能数据湖之上,湖仓一体的存算分离架构。湖仓一体的存算分离架构优化,一份数据同时支持大数据分析和AI 分析,整体架构纵向拆分为三个大的层次。
使用华为搜索服务后效果:
- 解决出行行业“长尾支付”带来的性能瓶颈,数据处理效率提升150%
- 满足未来演进的Lakehouse 湖仓一体存算分离架构,TCO下降20% 以上
- 业务7*24 稳定运行
7、小结
云搜索服务能为企业提供托管的分布式搜索引擎服务,完全兼容开源Elasticsearch搜索引擎,支持结构化、非结构化文本的多条件检索、统计、报表。云搜索服务的使用流程和数据库类似。相信将来华为云云搜索CSS将会应用于更多行业中。
本文参与华为云社区【内容共创】活动第19期。
https://bbs.huaweicloud.cn/blogs/370132
- 点赞
- 收藏
- 关注作者
评论(0)