创建知识
接口调用说明:
- 目前只支持创建文件夹类型的知识,创建其他类型的知识请使用创建知识导入接口
POST /studio/rag/chat/v1/datasets/{dataset_id}/documents
请求头(Request Header)
Authorization 可以使用如下两种Header
- 动态生成 Authorization Header, 参考认证(authentication)
-H "X-Date: $xdate" \
-H "Authorization: $auth"
- 直接提供完整的 Authorization Header,可以通过浏览器的开发者工具DevTools查看并复制接口调用的完整信息
-H 'Authorization: Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6InB...'
请求参数(Request Parameters)
| 名称 | 类型 | 必须 | 描述 |
|---|---|---|---|
| dataset_id | string | 是 | 知识库的ID. |
请求体(Request Body)
| 名称 | 类型 | 必须 | 描述 |
|---|---|---|---|
| display_name | string | 是 | 知识名称. |
| type | integer($enum) | 是 | 知识类型,目前只支持2(文件夹). |
| p_id | string | 否 | 父知识ID. |
其中,type有如下情况
| 枚举值 | 数值 | 含义 |
|---|---|---|
| DOCUMENT_TYPE_UNSPECIFIED | 0 | 未指定 |
| WEBPAGE | 1 | 网页 |
| FOLDER | 2 | 文件夹 |
| TXT | 3 | 文本文件 |
| 4 | PDF文件 | |
| HTML | 5 | HTML文件 |
| XLSX | 6 | XLSX文件 |
| XLS | 7 | XLS文件 |
| DOCX | 8 | DOCX文件 |
| CSV | 9 | CSV文件 |
| PPTX | 10 | PPTX文件 |
| PPT | 11 | PPT文件,暂不支持 |
| XML | 12 | XML文件 |
| MARKDOWN | 13 | Markdown文件 |
| MD | 14 | MD文件 |
| JSON | 15 | Json文件 |
请求示例(Request Example)
curl 'https://rag.cn-sh-01.sensecoreapi.cn/studio/rag/chat/v1/datasets/rag_e86bfaaddf8f48a0b93add9eaa6cb53b/documents' \
-H "X-Date: $xdate" \
-H "Authorization: $auth" \
-X POST \
--data-raw '{
"dataset_id":"rag_e86bfaaddf8f48a0b93add9eaa6cb53b",
"display_name":"test_dir",
"p_id":"",
"type":2
}'
响应(Response)
| 名称 | 类型 | 描述 |
|---|---|---|
| document_id | string | 知识文档的ID. |
| display_name | string | 知识文档的名称. |
| type | integer($enum) | 知识文档的类型. |
| document_size | int64 | 知识文档的大小. |
| token_count | int64 | 知识文档的令牌计数. |
| segment_count | int64 | 知识文档的段落计数. |
| dataset_id | string | 知识文档所属知识库的ID. |
| dataset_display | string | 知识文档所属知识库的显示名称. |
| p_id | string | 父知识文档的ID. |
| data_source_type | integer($enum) | 知识文档的数据源类型. |
| creator | string | 知识文档的创建者. |
| create_time | string($date-time) | 知识文档的创建时间. |
| update_time | string($date-time) | 知识文档的更新时间. |
| segments | array[object] | 知识文档的段落详细信息列表. |
| uri | string | 知识文档在OSS中的预签名URI. |
其中,data_source_type有如下情况
| 枚举值 | 数值 | 含义 |
|---|---|---|
| DATA_SOURCE_TYPE_UNSPECIFIED | 0 | 开始,默认 |
| LOCAL_FILE | 1 | 本地知识 |
| WEB | 2 | 网络知识 |
| NOTION | 3 | Notion知识 |
其中,segments的参数如下
| 名称 | 类型 | 描述 |
|---|---|---|
| segment_id | string | 段ID. |
| dataset_id | string | 知识库ID |
| document_id | string | 文档ID |
| content | string | 段落内容 |
| token_count | int32 | 词元数量 |
| number | int32 | 段落编号 |
| metadata | object | 元数据 |
| words | int32 | 单词数量 |
| segment_type | integer($enum) | 段落类型 |
| table_content | string | 表格内容 |
| image_key | string | 图片键值 |
| image_uri | string | 图片URI |
| display_type | integer($enum) | 显示类型 |
| image_keys | array[string] | 图片键值列表 |
| display_content | string | 展示内容 |
其中,segments.metadata的参数如下
| 名称 | 类型 | 描述 |
|---|---|---|
| key_words | array[string] | 关键词 |
| image_name_value | string | 图片名称 |
| image_size | int32 | 图片大小 |
| table_name_value | string | 表格名称 |
| table_rows | int32 | 表格行数 |
| table_columns | array[string] | 表格列 |
| score | float | 分数 |
其中,segments.segment_type有如下情况
| 枚举值 | 数值 | 含义 |
|---|---|---|
| SEGMENT_TYPE_UNSPECIFIED | 0 | 未指定状态 |
| SEGMENT_TYPE_TEXT | 1 | 文字 |
| SEGMENT_TYPE_IMAGE | 2 | 图片 |
| SEGMENT_TYPE_TABLE | 3 | 表格 |
| SEGMENT_TYPE_WEB_IMAGE | 4 | 网页图片 |
其中,segments.display_type有如下情况
| 枚举值 | 数值 | 含义 |
|---|---|---|
| DISPLAY_TYPE_UNSPECIFIED | 0 | 未指定状态 |
| DISPLAY_TYPE_TEXT | 1 | 文字 |
| DISPLAY_TYPE_MARKDOWN | 2 | Markdown |
响应示例(Response Example)
{
"name": "",
"document_id": "3f0083a8a5a6427ebd5677ef237f7aaa",
"display_name": "test_dir",
"type": 2,
"document_size": "0",
"token_count": "0",
"segment_count": "0",
"dataset_id": "rag_e86bfaaddf8f48a0b93add9eaa6cb53b",
"dataset_display": "ly2",
"p_id": "",
"data_source_type": 0,
"creator": "aidmpywj",
"create_time": "2024-12-23T07:30:40.669037490Z",
"update_time": "2024-12-23T07:30:40.669037737Z",
"segments": [],
"uri": ""
}