曦云系列通用GPU mcDF使用手册
  • 1. 概述
    • 1.1. mcDF介绍
    • 1.2. 软件包
      • 1.2.1. 软件包信息
      • 1.2.2. 软件包内容
  • 2. 安装部署
    • 2.1. 依赖关系
    • 2.2. mcDF自动安装与卸载
    • 2.3. mcDF手动安装与卸载
      • 2.3.1. 安装mcDF
      • 2.3.2. 安装Dask-mcDF
      • 2.3.3. 安装mcDF(C++)
      • 2.3.4. 卸载
    • 2.4. 环境变量设置
    • 2.5. 常见问题
      • 2.5.1. case1:numbax报错
      • 2.5.2. case2:关于pyarrow版本依赖关系
      • 2.5.3. case3:关于glibc版本配套
  • 3. mcDF用户指南
    • 3.1. mcDF和Dask-mcDF
      • 3.1.1. mcDF和Dask-mcDF使用场景
      • 3.1.2. 创建对象
      • 3.1.3. 查看数据
      • 3.1.4. 选择数据
        • 3.1.4.1. 选择列
        • 3.1.4.2. 根据标签选择
        • 3.1.4.3. 根据位置索引选择
      • 3.1.5. 布尔索引
      • 3.1.6. 多重索引(MultiIndex)
      • 3.1.7. 缺失数据处理
      • 3.1.8. 数据操作方法
        • 3.1.8.1. 统计
        • 3.1.8.2. 应用转换函数(Applymap)
        • 3.1.8.3. 计算直方图(Histogramming)
        • 3.1.8.4. 字符串方法
        • 3.1.8.5. 连接(Concat)
        • 3.1.8.6. 合并(Join)
        • 3.1.8.7. 分组(Grouping)
        • 3.1.8.8. 数据转置(Transpose)
        • 3.1.8.9. 时间序列(Time Series)
        • 3.1.8.10. 分类(Categoricals)
      • 3.1.9. 数据转换
        • 3.1.9.1. pandas
        • 3.1.9.2. NumPy
        • 3.1.9.3. Arrow
      • 3.1.10. I/O操作
        • 3.1.10.1. CSV
        • 3.1.10.2. Parquet
        • 3.1.10.3. ORC
    • 3.2. mcDF与pandas的比较
      • 3.2.1. 支持的操作方法
      • 3.2.2. 数据类型
      • 3.2.3. Null或缺失数据
      • 3.2.4. 迭代
      • 3.2.5. 输出结果排序
      • 3.2.6. 浮点运算
      • 3.2.7. 列名称
      • 3.2.8. “object”数据类型
      • 3.2.9. .apply()函数限制
    • 3.3. 支持的数据类型
      • 3.3.1. NumPy数据类型
      • 3.3.2. 关于object数据类型
      • 3.3.3. 小数(Decimal)数据类型
      • 3.3.4. 嵌套数据类型(List和Struct)
    • 3.4. JSON数据操作
      • 3.4.1. 读取JSON数据
      • 3.4.2. 处理大型和小型JSON行文件
      • 3.4.3. 展开列表和结构类型的数据
      • 3.4.4. 处理JSON数据
    • 3.5. 缺失数据处理
      • 3.5.1. 检测缺失数据
      • 3.5.2. 浮点数据类型和缺失数据
      • 3.5.3. 日期数据类型
      • 3.5.4. 计算缺失数据
      • 3.5.5. 对Null/NaNs进行点积和求和运算
      • 3.5.6. GroupBy操作中的NA数据
      • 3.5.7. 插入缺失数据
      • 3.5.8. 使用fillna填充缺失数据
      • 3.5.9. 使用mcDF对象填充缺失数据
      • 3.5.10. 丢弃缺失数据
      • 3.5.11. 替换任意值
      • 3.5.12. 字符串/正则表达式替换
      • 3.5.13. 数值替换
    • 3.6. GroupBy操作
      • 3.6.1. 支持的GroupBy操作列表
      • 3.6.2. 分组
        • 3.6.2.1. 基于索引层分组
        • 3.6.2.2. Grouper对象
      • 3.6.3. 聚合
      • 3.6.4. 应用函数
      • 3.6.5. 转换
      • 3.6.6. 滑窗计算
    • 3.7. mcDF和mcPy互操作
      • 3.7.1. 将mcDF数据帧转换为mcPy数组
      • 3.7.2. 将mcDF序列转换为mcPy数组
      • 3.7.3. 将mcPy数组转换为mcDF数据帧
      • 3.7.4. 将mcPy数组转换为mcDF序列
      • 3.7.5. 混合使用mcDF和mcPy构建平滑PyData工作流
      • 3.7.6. 将mcDF数据帧转换为mcPy稀疏矩阵
    • 3.8. pandas兼容性说明
    • 3.9. 写时复制
      • 3.9.1. 启用写时复制
      • 3.9.2. 禁用写时复制
      • 3.9.3. 执行复制
      • 3.9.4. 说明
        • 3.9.4.1. 深度复制和浅复制比较
    • 3.10. Dask-mcDF扩展功能
      • 3.10.1. 使用Dask
      • 3.10.2. 从磁盘格式创建DataFrame
      • 3.10.3. 从内存格式创建DataFrame
      • 3.10.4. 分布式扩展Dask-mcDF
  • 4. mcDF编程接口
  • 5. 附录
    • 5.1. 术语/缩略语
曦云系列通用GPU mcDF使用手册
  • 搜索


© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。