曦云系列通用计算GPU mcDF使用手册
目录
1. 概述
1.1. mcDF介绍
1.2. 软件包
1.2.1. 软件包信息
1.2.2. 软件包内容
2. 安装部署
2.1. 依赖关系
2.2. mcDF安装与卸载
2.2.1. 安装mcDF
2.2.2. 安装Dask-mcDF
2.2.3. 安装mcDF(C++)
2.2.4. 卸载
2.3. 环境变量设置
2.4. 常见问题
2.4.1. case1:numbax报错
2.4.2. case2:关于pyarrow版本依赖关系
2.4.3. case3:关于glibc版本配套
3. mcDF用户指南
3.1. mcDF和Dask-mcDF
3.1.1. mcDF和Dask-mcDF使用场景
3.1.2. 创建对象
3.1.3. 查看数据
3.1.4. 选择数据
3.1.4.1. 选择列
3.1.4.2. 根据标签选择
3.1.4.3. 根据位置索引选择
3.1.5. 布尔索引
3.1.6. 多重索引(MultiIndex)
3.1.7. 缺失数据处理
3.1.8. 数据操作方法
3.1.8.1. 统计
3.1.8.2. 应用转换函数(Applymap)
3.1.8.3. 计算直方图(Histogramming)
3.1.8.4. 字符串方法
3.1.8.5. 连接(Concat)
3.1.8.6. 合并(Join)
3.1.8.7. 分组(Grouping)
3.1.8.8. 数据转置(Transpose)
3.1.8.9. 时间序列(Time Series)
3.1.8.10. 分类(Categoricals)
3.1.9. 数据转换
3.1.9.1. pandas
3.1.9.2. NumPy
3.1.9.3. Arrow
3.1.10. I/O操作
3.1.10.1. CSV
3.1.10.2. Parquet
3.1.10.3. ORC
3.2. mcDF与pandas的比较
3.2.1. 支持的操作方法
3.2.2. 数据类型
3.2.3. Null或缺失数据
3.2.4. 迭代
3.2.5. 输出结果排序
3.2.6. 浮点运算
3.2.7. 列名称
3.2.8. “object”数据类型
3.2.9. .apply()函数限制
3.3. 支持的数据类型
3.3.1. NumPy数据类型
3.3.2. 关于object数据类型
3.3.3. 小数(Decimal)数据类型
3.3.4. 嵌套数据类型(List和Struct)
3.4. JSON数据操作
3.4.1. 读取JSON数据
3.4.2. 处理大型和小型JSON行文件
3.4.3. 展开列表和结构类型的数据
3.4.4. 处理JSON数据
3.5. 缺失数据处理
3.5.1. 检测缺失数据
3.5.2. 浮点数据类型和缺失数据
3.5.3. 日期数据类型
3.5.4. 计算缺失数据
3.5.5. 对Null/NaNs进行点积和求和运算
3.5.6. GroupBy操作中的NA数据
3.5.7. 插入缺失数据
3.5.8. 使用fillna填充缺失数据
3.5.9. 使用mcDF对象填充缺失数据
3.5.10. 丢弃缺失数据
3.5.11. 替换任意值
3.5.12. 字符串/正则表达式替换
3.5.13. 数值替换
3.6. GroupBy操作
3.6.1. 支持的GroupBy操作列表
3.6.2. 分组
3.6.2.1. 基于索引层分组
3.6.2.2. Grouper对象
3.6.3. 聚合
3.6.4. 应用函数
3.6.5. 转换
3.6.6. 滑窗计算
3.7. mcDF和mcPy互操作
3.7.1. 将mcDF数据帧转换为mcPy数组
3.7.2. 将mcDF序列转换为mcPy数组
3.7.3. 将mcPy数组转换为mcDF数据帧
3.7.4. 将mcPy数组转换为mcDF序列
3.7.5. 混合使用mcDF和mcPy构建平滑PyData工作流
3.7.6. 将mcDF数据帧转换为mcPy稀疏矩阵
3.8. pandas兼容性说明
3.9. 写时复制
3.9.1. 启用写时复制
3.9.2. 禁用写时复制
3.9.3. 执行复制
3.9.4. 说明
3.9.4.1. 深度复制和浅复制比较
3.10. Dask-mcDF扩展功能
3.10.1. 使用Dask
3.10.2. 从磁盘格式创建DataFrame
3.10.3. 从内存格式创建DataFrame
3.10.4. 分布式扩展Dask-mcDF
4. mcDF编程接口
5. 附录
5.1. 术语/缩略语
曦云系列通用计算GPU mcDF使用手册
文档—沐曦开发者
下一页
文档—沐曦开发者
目录
1. 概述
1.1. mcDF介绍
1.2. 软件包
1.2.1. 软件包信息
1.2.2. 软件包内容
2. 安装部署
2.1. 依赖关系
2.2. mcDF安装与卸载
2.2.1. 安装mcDF
2.2.2. 安装Dask-mcDF
2.2.3. 安装mcDF(C++)
2.2.4. 卸载
2.3. 环境变量设置
2.4. 常见问题
2.4.1. case1:numbax报错
2.4.2. case2:关于pyarrow版本依赖关系
2.4.3. case3:关于glibc版本配套
3. mcDF用户指南
3.1. mcDF和Dask-mcDF
3.1.1. mcDF和Dask-mcDF使用场景
3.1.2. 创建对象
3.1.3. 查看数据
3.1.4. 选择数据
3.1.4.1. 选择列
3.1.4.2. 根据标签选择
3.1.4.3. 根据位置索引选择
3.1.5. 布尔索引
3.1.6. 多重索引(MultiIndex)
3.1.7. 缺失数据处理
3.1.8. 数据操作方法
3.1.8.1. 统计
3.1.8.2. 应用转换函数(Applymap)
3.1.8.3. 计算直方图(Histogramming)
3.1.8.4. 字符串方法
3.1.8.5. 连接(Concat)
3.1.8.6. 合并(Join)
3.1.8.7. 分组(Grouping)
3.1.8.8. 数据转置(Transpose)
3.1.8.9. 时间序列(Time Series)
3.1.8.10. 分类(Categoricals)
3.1.9. 数据转换
3.1.9.1. pandas
3.1.9.2. NumPy
3.1.9.3. Arrow
3.1.10. I/O操作
3.1.10.1. CSV
3.1.10.2. Parquet
3.1.10.3. ORC
3.2. mcDF与pandas的比较
3.2.1. 支持的操作方法
3.2.2. 数据类型
3.2.3. Null或缺失数据
3.2.4. 迭代
3.2.5. 输出结果排序
3.2.6. 浮点运算
3.2.7. 列名称
3.2.8. “object”数据类型
3.2.9. .apply()函数限制
3.3. 支持的数据类型
3.3.1. NumPy数据类型
3.3.2. 关于object数据类型
3.3.3. 小数(Decimal)数据类型
3.3.4. 嵌套数据类型(List和Struct)
3.4. JSON数据操作
3.4.1. 读取JSON数据
3.4.2. 处理大型和小型JSON行文件
3.4.3. 展开列表和结构类型的数据
3.4.4. 处理JSON数据
3.5. 缺失数据处理
3.5.1. 检测缺失数据
3.5.2. 浮点数据类型和缺失数据
3.5.3. 日期数据类型
3.5.4. 计算缺失数据
3.5.5. 对Null/NaNs进行点积和求和运算
3.5.6. GroupBy操作中的NA数据
3.5.7. 插入缺失数据
3.5.8. 使用fillna填充缺失数据
3.5.9. 使用mcDF对象填充缺失数据
3.5.10. 丢弃缺失数据
3.5.11. 替换任意值
3.5.12. 字符串/正则表达式替换
3.5.13. 数值替换
3.6. GroupBy操作
3.6.1. 支持的GroupBy操作列表
3.6.2. 分组
3.6.2.1. 基于索引层分组
3.6.2.2. Grouper对象
3.6.3. 聚合
3.6.4. 应用函数
3.6.5. 转换
3.6.6. 滑窗计算
3.7. mcDF和mcPy互操作
3.7.1. 将mcDF数据帧转换为mcPy数组
3.7.2. 将mcDF序列转换为mcPy数组
3.7.3. 将mcPy数组转换为mcDF数据帧
3.7.4. 将mcPy数组转换为mcDF序列
3.7.5. 混合使用mcDF和mcPy构建平滑PyData工作流
3.7.6. 将mcDF数据帧转换为mcPy稀疏矩阵
3.8. pandas兼容性说明
3.9. 写时复制
3.9.1. 启用写时复制
3.9.2. 禁用写时复制
3.9.3. 执行复制
3.9.4. 说明
3.9.4.1. 深度复制和浅复制比较
3.10. Dask-mcDF扩展功能
3.10.1. 使用Dask
3.10.2. 从磁盘格式创建DataFrame
3.10.3. 从内存格式创建DataFrame
3.10.4. 分布式扩展Dask-mcDF
4. mcDF编程接口
5. 附录
5.1. 术语/缩略语