获取知识导入任务详情
GET /studio/rag/chat/v1/datasets/{dataset_id}/jobs/{job_id}
请求头(Request Header)
Authorization 可以使用如下两种Header
- 动态生成 Authorization Header, 参考认证(authentication)
-H "X-Date: $xdate" \
-H "Authorization: $auth"
- 直接提供完整的 Authorization Header,可以通过浏览器的开发者工具DevTools查看并复制接口调用的完整信息
-H 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6InB...'
请求参数(Request Parameters)
| 名称 | 类型 | 必须 | 描述 |
|---|---|---|---|
| dataset_id | string | 是 | 知识库ID. |
| job_id | string | 是 | 任务ID. |
请求示例(Request Example)
curl 'https://rag.cn-sh-01.sensecoreapi.cn/studio/rag/chat/v1/datasets/rag_feca3cbcc636484ca14195716d8aa588/jobs/54dbf6afa4d64d71a32087165cbe0c7c' \
-H "X-Date: $xdate" \
-H "Authorization: $auth" \
-X GET
响应(Response)
| 名称 | 类型 | 描述 |
|---|---|---|
| job_id | string | 任务ID. |
| data_source_type | integer($enum) | 数据源类型 |
| job_state | integer($enum) | 任务状态. |
| creator | string | 创建者用户名. |
| oss_temp_path | string | OSS临时路径,上传本地知识的临时路径. |
| err_msg | string | 错误信息(如果有错误发生). |
| job_info | object | 与任务文件相关的信息. |
| document_info | array[object] | 已解析知识的信息列表. |
| create_time | string($date-time) | 创建时间. |
| finish_time | string($date-time) | 完成时间. |
| target_path | string | 知识导入的目标路径. |
| urls | array[string] | 上传URL(如果适用. |
| document_pid | string | 知识导入的目标路径的ID. |
| notion_page_ids | array[string] | notion页面ID列表. |
| segment_strategy | object | 段落策略参数,可调整以适应知识分段方法. |
其中,data_source_type有如下情况
| 枚举值 | 数值 | 含义 |
|---|---|---|
| DATA_SOURCE_TYPE_UNSPECIFIED | 0 | 开始,默认 |
| LOCAL_FILE | 1 | 本地知识 |
| WEB | 2 | 网络知识 |
| NOTION | 3 | Notion知识 |
其中,job_state有如下情况
| 枚举值 | 数值 | 含义 |
|---|---|---|
| STAGE_UNSPECIFIED | 0 | 未知状态 |
| CREATING | 1 | 任务正在创建 |
| UPLOADING | 2 | 知识正在上传 |
| CRAWLING | 3 | 知识正在抓取和收集 |
| PARSING | 4 | 正在解析 |
| PARSE_SUCCEED | 5 | 解析完成 |
| PARSE_FAILED | 6 | 解析失败 |
| PARSE_CANCELLED | 7 | 解析取消 |
| FAILED | 8 | 任务失败 |
| CRAWLING_FAILED | 9 | 抓取失败 |
| CRAWLING_QUEUED | 10 | 抓取排队 |
其中,job_info的参数如下
| 名称 | 类型 | 描述 |
|---|---|---|
| total_document_size | int64 | 总文件大小. |
| total_document_count | int64 | 文件总数. |
| succeed_document_size | int64 | 成功解析文件的总大小. |
| succeed_document_count | int64 | 成功解析文件的总数量. |
| succeed_token_count | int64 | 成功解析的标记总数. |
| failed_document_size | int64 | 解析失败的文件总大小. |
| failed_document_count | int64 | 解析失败的文件总数量. |
其中,document_info的参数如下
| 名称 | 类型 | 描述 |
|---|---|---|
| document_id | string | 文档ID. |
| display_name | string | 知识名称. |
| segment_count | int64 | 文档的段数量. |
| document_token | int64 | 标记数. |
| document_state | integer($enum) | 知识状态. |
| document_error | integer($enum) | 失败原因. |
| document_size | int64 | 文档大小. |
其中,document_state有如下情况
| 枚举值 | 数值 | 含义 |
|---|---|---|
| DOCUMENT_STAGE_UNSPECIFIED | 0 | 未指定 |
| DOCUMENT_PARSING | 1 | 正在解析 |
| DOCUMENT_PARSED_SUCCESSFULLY | 2 | 解析成功 |
| DOCUMENT_PARSING_FAILED | 3 | 解析失败 |
| DOCUMENT_PARSING_CANCELLED | 4 | 已取消 |
| DOCUMENT_QUEUED | 5 | 排队中 |
| DOCUMENT_CRAWLING | 6 | 抓取中 |
| DOCUMENT_CRAWLING_FAILED | 7 | 抓取失败 |
| DOCUMENT_FAILED | 8 | 知识在其他阶段失败 |
| DOCUMENT_CRAWLING_QUEUED | 9 | 爬取排队中 |
其中,document_error有如下情况
| 枚举值 | 数值 | 含义 |
|---|---|---|
| DOCUMENT_ERROR_UNSPECIFIED | 0 | 未知原因 |
| UNSUPPORTED_FORMAT | 1 | 不支持的格式 |
| UNSUPPORTED_WEBSITE_CRAWLING | 2 | 不支持的网站抓取 |
| OTHER_TECHNICAL_REASONS | 3 | 其他技术原因 |
| DOWNLOAD_FAILURE | 4 | 文档存储失败 |
| STORAGE_FAILURE | 5 | 文档存储失败 |
| STORAGE_TIMEOUT | 6 | 文档存储超时 |
| UPLOAD_FAILURE | 7 | 文档上传到AOSS失败 |
| DATABASE_EXCEPTION | 8 | 数据库异常 |
| OSS_EXCEPTION | 9 | 对象存储异常 |
| DOCUMENT_STORAGE_ACCESS_EXCEPTION | 10 | 文档存储访问异常 |
| FILE_CONTENT_EXCEPTION | 11 | 文件内容异常 |
其中,segment_strategy的参数如下
| 名称 | 类型 | 描述 |
|---|---|---|
| chunk_size | int32 | 段落中允许的最大token数. |
| chunk_overlap | int32 | 段落之间允许重叠的token数量. |
| separators | array[string] | 用于分段文本的分隔符列表. |
响应示例(Response Example)
{
"name": "",
"job_id": "eb0297698061432a905fb00ce70dfd2e",
"data_source_type": 2,
"job_state": 5,
"creator": "adimp0224",
"oss_temp_path": "",
"err_msg": "",
"job_info": {
"total_document_size": "0",
"total_document_count": "1",
"succeed_document_size": "6490",
"succeed_document_count": "1",
"succeed_token_count": "45",
"failed_document_size": "0",
"failed_document_count": "0"
},
"document_info": [
{
"document_id": "ebebb9e0a69646ea891914d586e8be76",
"display_name": "https://www.nowcoder.com/practice/65cfde9e5b9b4cf2b6bafa5f3ef33fa6?tpId=295&tqId=724&ru=/practice/d8b6b4358f774294a89de2a6ac4d9337&qru=/ta/format-top101/question-ranking&sourceUrl=/exam/company",
"segment_count": "1",
"document_token": "45",
"document_state": 2,
"document_error": 0,
"document_size": "6490"
}
],
"create_time": "2024-09-25T08:17:38.342851Z",
"finish_time": "2024-09-25T08:18:12.639086Z",
"target_path": "",
"urls": [],
"document_pid": "",
"notion_page_ids": [],
"segment_strategy": null
}