This commit is contained in:
svcvit
2025-05-12 19:15:03 +08:00
parent 38947fc855
commit 1d98f2ec08
-615
View File
@@ -1,58 +1,3 @@
### Ron - 2025-05-08 10:49:22
Hi
---
### Ron - 2025-05-08 11:14:27
欢迎,第一位付费用户🎉('ω')🎉
---
### hjlarry - 2025-05-08 11:14:47
欢迎
---
### wxid_7da5db36yiad22 - 2025-05-08 11:14:53
哈哈哈
---
### wxid_7da5db36yiad22 - 2025-05-08 11:15:23
这两位是你们搭档吗
---
### Ron - 2025-05-08 11:15:45
多群的群友~
---
### wxid_7da5db36yiad22 - 2025-05-08 11:16:12
[坏笑]一起搞
---
### wxid_2zyfe21ojzzw22 - 2025-05-08 11:20:38
[坏笑]以后麻烦大家了,多交流
---
### wxid_7da5db36yiad22 - 2025-05-08 11:20:42
哈哈 002来了
---
### wxid_2zyfe21ojzzw22 - 2025-05-08 11:20:53
[破涕为笑]我居然不上001
---
### hjlarry - 2025-05-08 11:20:55
欢迎欢迎
---
### wxid_2zyfe21ojzzw22 - 2025-05-08 11:22:08
我想请问一下dify在做知识库查询的时候,预处理文档有没有比较好的一个方法奥
@@ -740,566 +685,6 @@ http插件限制了大小吗?
### hjlarry - 2025-05-10 11:44:57
对的,环境变量里好像叫 http max body 吧
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:24:51
老师们好,我有一个场景:低代码代码生成,主要是rag相关的dify流程设计还有知识库清洗做不好
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:24:52
![image](images/2021746869092_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:24:56
大致的dify流程是这样的
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:25:57
我的低代码用的是百度开源的amis那套
---
### Ron - 2025-05-10 17:26:05
你知识库的原始材料,发个看看?去掉一些敏感信息
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:26:13
本身其实是已经ai有训练过的
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:26:14
![image](images/2071746869174_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:26:23
知识库是一个个案例
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:26:47
我的思路是用使用者已经上线的那些页面的json
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:26:51
解析出字段
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:26:58
作为案例库来源
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:27:12
最终的强化版prompt我发一下示例
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:28:21
<fields>
[{"name": "cityId","description":"城市id","type":"string"}]
# 示例
| 字段名 | 字段类型 | 是否必填 | 字段描述 | 标准答案 |
| cityGuid | string | 否 | 所属城市 | {"id":"u:76f8a6fbd645","name":"cityGuid","type":"hb-city-select","label":"城市","cityCode":false,"showWholeCountry":false} |
# 角色
你是一个百度低代码amis的局部代码生成器。你的职责是根据提供的fileds字段,优先参照示例中的标准答案来推导,为每一个字段生成amis json。
## 约束
- 优先参照示例中的返回,有时候会出现业务组件(非amis内置组件),需要从示例中推断用法
- 只输出生成的 JSON 数据,不需要输出解析过程,也不需要说明解释。
- 输出的数据需符合以下条件:
1. 数据必须是一个数组。
2. 根据字段中是否有枚举来调整生成内容。
3. 输出的标题简洁、语义化,删除多余的描述。
4. 如果值是有含义的英文字符串,则做合理的翻译。
- 补充一些常用业务的约束。
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:28:46
这部分是接口文档的字段定义
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:28:46
![image](images/2151746869326_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:29:06
这部分是从知识库里面获取到的案例
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:29:07
![image](images/2171746869347_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:29:18
![image](images/2181746869358_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:29:27
结果也确实输出了我预期的内容
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:29:48
我现在的问题是我线上解析出来的字段很多很多
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:30:01
有的会内容超出知识块长度限制
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:30:34
这是拿到的不是完整的示例,我给一个失败的案例最终prompt给你们看下
---
### Ron - 2025-05-10 17:33:24
我感觉,这个知识库的组织不太对,因为相似的都太高了,这种召回,感觉召回的内容都没有太大意义
---
### Ron - 2025-05-10 17:34:49
你这个流程,期待的输入,输出是什么?
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:35:11
期待的输入是字段的声明,例如
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:35:12
![image](images/2261746869712_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:35:20
这个字段声明来自于swagger或者yapi
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:35:29
这类接口定义站点里
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:36:39
输出是低代码的json,例如
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:36:54
![image](images/2311746869814_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:37:04
fields里面就是低代码的schema
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:37:43
其实amis本身是训练过的,所以就算不做知识库补充,也能准确度较高地生成
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:37:49
就是不能生成本地扩充的业务组件
---
### wxid_pgye6v6ofbws22 - 2025-05-10 17:38:17
给个全称我检索一下
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:39:36
还有就是不能做类似业务习惯的配置,例如amis配置日期输入默认就是以秒为单位的值
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:39:36
![image](images/2391746869976_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:39:57
咋们习惯用毫秒的
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:40:10
https://aisuda.bce.baidu.com/amis/zh-CN/components/form/input-date
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:40:30
所以配置案例实际上是希望影响生成出来的效果
---
### hjlarry - 2025-05-10 17:44:19
HTTP_REQUEST_NODE_MAX_TEXT_SIZE=1048576
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:45:28
例如ai默认生成的是{
"type": "input-date",
"name": "date",
"label": "日期"
}
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:45:39
我们希望是{
"type": "input-date",
"name": "date",
"label": "日期",
"format": "x"
}
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:46:45
我觉得要初始化很多示例会很麻烦,所以才想说把团队已经上线的那个页面schema作为素材来用
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:47:19
因为我们写了100来张页面,所以初始化理论上有1000+的字段案例
---
### Ron - 2025-05-10 17:50:10
我大概理解你的意思和目的了
---
### Ron - 2025-05-10 17:50:37
你这 1000 多个字段,应该有很多类似,或者重复的吧
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:50:46
---
### Ron - 2025-05-10 17:51:23
![image](images/2581746870683_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:51:54
且有的是意义不明,因为比如存在出现其他字段的显影控制,"visibleOn": "${items.length > 1}",
---
### Ron - 2025-05-10 17:54:18
你这里,这种召回,这肯定都很难召对,我觉得你们可以整理一下,你们自己调整过的组建,形成一个文档,假设 30 个?不要重复。然后作为提示词的上下文,ai 输出,可能比用知识库要好。
---
### Ron - 2025-05-10 17:54:52
你看上面 3 个,基本都是重复的
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:55:05
有不同用法
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:55:10
同一个组件不同用法
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:57:13
有些是可以看出来的
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:57:44
这个其实引申出来也可以做用户描述转低代码的
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:58:09
描述的越清楚,理论上就可以从知识库里面找到最合适的案例,所以知识库得维护好
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 17:58:13
且多
---
### hjlarry - 2025-05-10 18:00:14
你的知识库存的本质上是一个个example? 那你是觉得现在没有召回到合适的example还是召回了模型没按示例生成?
---
### Ron - 2025-05-10 18:00:47
如果这样,你的知识库更合适是一个描述案例,对应一个最佳输出的 json
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:01:45
合适的example能带来合适的输出
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:02:06
一个是线上的字段案例有时候会超出dify的知识片段长度限制
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:02:29
![image](images/2751746871349_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:02:31
比如说这个
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:02:40
![image](images/2771746871360_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:02:43
段落是不完整的
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:03:18
一个是线上的案例字段单独抽出来会有迷惑的地方
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:04:01
比如说visibleOn: "${其他元素定义的字段}"
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:04:25
需要加上其他元素才能体现出visibleOn的用法
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:04:35
但是我这边逻辑是一个字段一个案例
---
### Ron - 2025-05-10 18:05:47
哈哈哈,我知道了,你现在适合用一个高级模型,长上下文,把你现在 1000 个组建,丢进去,然后写一两个示例,让 ai 整理,输出对应内容,例如 100 个
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:08:15
用ai来整理1000个案例,输出有效的配置案例?
---
### Ron - 2025-05-10 18:08:56
我感觉先看看整理效果
---
### Ron - 2025-05-10 18:09:04
开始不用这么多
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:10:45
我字段案例其实已经导出为markdown文件了,直接放进去就可以了
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:11:38
![image](images/2901746871898_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:11:38
类似这样的
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:13:03
我现在思考的是在对combo、input-table这类有子元素的字段做解析,把里面的字段抽出来作为新的案例
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:13:34
来减少单行字段的内容长度,减少知识库切割为片段不完整的概率
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:15:13
还有就是对描述进行逆推,因为很多接口字段说明其实不能体现出细节功能点
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:15:55
![image](images/2941746872155_.pic.jpg)
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:16:01
用ai来逆推这个
---
### wxid_dpsw5gcj3vg521 - 2025-05-10 18:17:02
先去吃饭啦,辛苦各位老师抽空帮我看看
---
### Ron - 2025-05-10 18:23:17
okok,你回头发我个 100 行,给我两三个输入和输出的例子,输入是自然语言加上你现在输入的组合,输出是你的组件 json
---
### wxid_pgye6v6ofbws22 - 2025-05-11 09:13:28
flowgram和dify比起来有优势吗?
---
### wwzhouhui - 2025-05-11 09:15:15
flowgram是字节刚推出的开源项目,就是 目前用的coze 提供的工作流,目前还没深入研究
---
### wwzhouhui - 2025-05-11 09:27:25
![image](images/3001746926845_.pic.jpg)
---
### wxid_twh09qctjv7822 - 2025-05-11 09:29:09
flowgram 是不是只是一个前端画布啊,能直接用吗?
---
### wwzhouhui - 2025-05-11 09:30:38
它开源到了 可以在自己电脑上部署,我一会研究一下,有消息发给大家
---
### wxid_pgye6v6ofbws22 - 2025-05-11 09:30:42
部署一个玩玩,感觉比dify抖音插件多
---
### wwzhouhui - 2025-05-11 09:31:31
但是有一点 你要知道 他的东西开源 很多模型后端是要字节自己东西,可能会有点贵
---
### wwzhouhui - 2025-05-11 09:32:01
已就是说 它是开源了,但是 模型 TTS 还有插件是 它自己指定的模型和相关工具
---
### wwzhouhui - 2025-05-11 09:32:33
我之前弄过他 火山引擎上的几个开源项目,效果是挺不错,但是需要他们家的模型。
---
### wwzhouhui - 2025-05-11 10:29:44
![image](images/3091746930584_.pic.jpg)
---
### wwzhouhui - 2025-05-11 10:29:44
跑出来了,目前功能还比较弱
---
### wwzhouhui - 2025-05-11 10:39:32
感兴趣的可以看一下
---
### wxid_pgye6v6ofbws22 - 2025-05-11 10:46:39
啥也没有
---
### wxid_pgye6v6ofbws22 - 2025-05-11 10:47:00
![image](images/3131746931620_.pic.jpg)
---
### wxid_pgye6v6ofbws22 - 2025-05-11 10:47:20
就分支 llm 和loop没了
---
### hjlarry - 2025-05-11 10:47:45
那倒也不全是 reactflow,多了两节点[旺柴]
---
### wxid_pgye6v6ofbws22 - 2025-05-11 10:51:00
暂时想不出来这玩意能干嘛[捂脸]
---
### wxid_pgye6v6ofbws22 - 2025-05-11 10:51:14
不知道后面会不会做成dify那样
---
### wxid_pgye6v6ofbws22 - 2025-05-11 10:51:29
不过这项目现在后端都没
---
### hjlarry - 2025-05-11 10:53:31
这项目就是把coze的前端画布部分开源出来了吧 方便其他想做画布类应用的开发者
---
### wxid_pgye6v6ofbws22 - 2025-05-11 10:56:37
感觉是这样
---
### godspeed6633 - 2025-05-11 11:44:06
![image](images/3211746935046_.pic.jpg)
---
### godspeed6633 - 2025-05-11 11:44:15
![image](images/3221746935055_.pic.jpg)
---
### godspeed6633 - 2025-05-11 11:44:41
![image](images/3231746935081_.pic.jpg)
---