You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

README.md 716 B

4 years ago
1234567891011121314151617181920212223242526
  1. # 之江天枢-分布式训练 operator
  2. 该模块是分布式训练CRD的控制器,管理分布式训练容器生命周期,为分布式训练容器注入其他容器ip。
  3. ## 源码部署
  4. ### 准备环境
  5. 安装如下软件环境。
  6. - OpenJDK:1.8+
  7. - Redis: 3.0+
  8. - Maven: 3.0+
  9. ### 下载源码
  10. ``` bash
  11. git clone https://codeup.teambition.com/zhejianglab/distribute-train-operator.git
  12. # 进入项目根目录
  13. cd distribute-train-operator
  14. ```
  15. ### 构建
  16. ``` bash
  17. # 构建,生成的 jar 包位于 ./target/distribute-train-operator-1.0.jar
  18. mvn clean compile package
  19. ```
  20. ### 部署
  21. 部署过程参看文档:[部署 分布式训练operator](http://docs.dubhe.ai/docs/setup/deploy-distribute-train-operator)

一站式算法开发平台、高性能分布式深度学习框架、先进算法模型库、视觉模型炼知平台、数据可视化分析平台等一系列平台及工具,在模型高效分布式训练、数据处理和可视分析、模型炼知和轻量化等技术上形成独特优势,目前已在产学研等各领域近千家单位及个人提供AI应用赋能