DataSketches适配GaussDB开源验证任务

举报
huangjiaming 发表于 2024/11/30 15:24:29 2024/11/30
【摘要】 DataSketches 是一个用于处理近似计算的开源库,主要用于大数据和流数据场景。它由 Apache 软件基金会孵化,提供了一系列的概率数据结构,这些结构能够在有限的内存空间内对大规模的数据进行高效的摘要计算,同时保证一定的准确性。

背景介绍

开源for Huawei(参考:https://developer.huaweicloud.cn/programs/opensource/contributing/)  通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。

开始之前,开发者可以下载 开源for Huawei Wiki(参考:https://gitcode.com/HuaweiCloudDeveloper/OpenSourceForHuaweiWiki/overview 了解详细的开发步骤,技术准备,以及开发过程需要的各种资源。

开发适配过程

一、安装前提条件
  1. Python 3.6 或更高版本(最好是3.8版本,3.10以上版本可能会出现版本不兼容的情况)。
  2. 下载 Miniconda 安装脚本,创建Conda环境
  3. 已安装并配置好Gauss数据库

二、适配过程

     1.前往 Miniconda 官方网站(https://docs.conda.io/en/latest/miniconda.html),根据用户架构下载对应的 Miniconda 安装脚本

     2.使用bash命令按照提示进行安装,安装完成后,关闭并重新打开终端以使环境变量生效。

     3.创建新的 Conda 环境:conda create -n superset-env python=3.8 # 可以指定你需要的 Python 版本

     4.激活 Conda 环境:conda activate datasketches

     5.安装 datasketches:pip install datasketches

     6.安装 适配gauss适配所需的驱动:pip install psycopg2

     7.在gauss数据库中建表,并创建数据

     8.编写datasketches脚本,实现gauss的读取,并将所读取的数据转换为草图信息以及序列码,最后将其写回gauss

       (1)在Gauss数据库建立测试数据表,创建测试数据

       

       (2)连接Gauss数据库,建立连接

       

       (3)读取Gauss测试数据表

       

      (4)使用datasketches将数据转换为紧凑型序列字符串,再将序列字符串进行反序列操作,转换为草图信息进行计算

       

       (5)最后将草图信息写回Gauss数据库,适配完成

     9.验证数据,可以通过datasketches实现数据转换草图的功能,实现数据预估的操作

       

       


综上所述,DataSketches适配GaussDB完成验证,功能正常使用。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。