You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

README.md 3.1 kB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118
  1. # 之江天枢 - 数据集导入脚本
  2. **之江天枢一站式人工智能开源平台**(简称:**之江天枢**),为了实现其他平台已标注完成的数据集在「一站式开发平台」上进行开发,我们增加了数据集导入功能,用来导入本地已存在的数据集文件。
  3. ## 环境依赖
  4. 安装如下软件环境。
  5. - OpenJDK:1.8+
  6. ## 下载脚本
  7. - 数据集导入模板:http://tianshu.org.cn/static/upload/file/dubhe-dataset-template.zip
  8. - 数据集导入脚本:http://tianshu.org.cn/static/upload/file/upload_dataset.zip
  9. ## 创建数据集:
  10. - 首先需要参考[部署文档](http://docs.dubhe.ai/docs/setup/deploy-guide)成功部署「一站式平台」
  11. - 准备好本地待导入数据集文件,包括图片、标注和标签文件,文件格式参考 [目录说明](http://docs.dubhe.ai/docs/module/dataset/import-dataset#%E7%9B%AE%E5%BD%95%E8%AF%B4%E6%98%8E)
  12. - 登录天枢深度学习平台,在「数据管理」模块下创建数据集,[使用文档](http://docs.dubhe.ai/docs/module/dataset/create-dataset)
  13. ## 运行脚本:
  14. 1.下载导入脚本压缩包(upload_dataset),解压之后, `application-{env}` 为脚本配置文件,默认 `env` 环境为 `dev`,需要自行配置数据源、MinIO 相关配置。
  15. 2.运行脚本,Windows 下执行 `run.bat`; macOS/Linux 系统运行 run.sh。
  16. 3. 根据不同环境需求,可自行配置 `application-{env}.yml`文件。`
  17. run.bat {env}`即可执行对应的 `application-{env}.yml` 配置文件,注意在运行脚本前需要保证配置文件已存在。
  18. 3.根据提示输入数据集 ID。
  19. 4.根据提示输入待导入数据集绝对路径。
  20. 5. 导入成功。
  21. ## 目录结构:
  22. [目录说明](http://docs.dubhe.ai/img/data/import-data9.png)
  23. - 图片目录:origin (图片支持四种格式:.jpg,.png,.bmp,.jpeg)
  24. - 标注目录:annotation (标注文件仅支持 .json 格式)
  25. - 标签文件:文件格式为 `label_{name}.json`,其中 `name` 为「标签组」名称,且不能与已有标签组名称重复
  26. ## 文件格式
  27. ### 标签文件:
  28. > 格式如下:
  29. ```
  30. name: 名称
  31. color: 颜色(16进制编码)
  32. ```
  33. 详细示例:
  34. ```
  35. [{
  36. "name": "行人",
  37. "color": "#ffbb96"
  38. },
  39. {
  40. "name": "自行车",
  41. "color": "#fcffe6"
  42. },
  43. {
  44. "name": "汽车",
  45. "color": "#f4ffb8"
  46. }]
  47. ```
  48. ### 标注文件:
  49. 1. 图片分类
  50. > 格式如下:
  51. ```
  52. name: 对应标签名称
  53. score:置信分数(0-1)
  54. ```
  55. 详细示例:
  56. ```
  57. [{"name":"wheaten_terrier","score":1}]
  58. ```
  59. 2. 目标检测
  60. > 格式如下:
  61. ```
  62. name: 对应标签名称
  63. bbox: 标注位置
  64. score:置信分数(0-1)
  65. ```
  66. 详细示例:
  67. ```
  68. [{
  69. "name": "行人",
  70. "bbox": [321.6755762696266, 171.32076993584633, 185.67924201488495, 145.02639323472977],
  71. "score": 0.6922634840011597
  72. },
  73. {
  74. "name": "自行车",
  75. "bbox": [40.88740050792694, 22.707078605890274, 451.21362805366516, 326.0102793574333],
  76. "score": 0.6069411635398865
  77. }]
  78. ```
  79. ## 了解更多
  80. http://docs.dubhe.ai/docs/module/dataset/import-dataset

一站式算法开发平台、高性能分布式深度学习框架、先进算法模型库、视觉模型炼知平台、数据可视化分析平台等一系列平台及工具,在模型高效分布式训练、数据处理和可视分析、模型炼知和轻量化等技术上形成独特优势,目前已在产学研等各领域近千家单位及个人提供AI应用赋能

Contributors (1)