sanbai’s blog

crewAI 如何实现 agent 自主互相调用🤖

2024-06-09T10:46:04+00:00

本文预设读者对 AI agent, function-call, tool use 等概念有一定了解.

crewAI 的一个突出特点是基于角色的 agent 设计, 允许用户自定义具有特定角色, 目标和工具的 agent. crewAI 的 agent 之间可以自主委派任务, 不要求明确指示. 和要求显式定义执行步骤的框架 ( e.g. LangChain ) 相比, 灵活性更好. 接下来让我们看看这些特性是如何实现的.

核心概念 & 实现

Crew 是一个容器, 包含了一组需要完成的 tasks, 参与任务的 agents, 和可以使用的 tools.

crew = Crew(
    tasks=[...],
    agents=[researcher, writer],
    manager_llm=ChatOpenAI(temperature=0, model="gpt-4"),
    process=Process.hierarchical,
)

process 有两个选项, sequential 对应任务顺序执行, 每个 task 在创建的时候需要指定一个 agent 来完成; 选择 hierarchical, 任务由一个 manager agent 进行调度, 指派其他 agent 来执行.

Agent 主要封装 LLM 调用, 底层使用的 LangChain. 调用 LLM 的 prompt 由 task, tool 等几部分拼接组成

开始执行后, agent 使用 ReAct 方式与 LLM 交互直至任务完成 (或者超过交互次数限制).

Task Delegation

crewAI 有个有趣的特性, 就是 agent 可以将任务委派给其他 agent, 就像人类上班时和同事配合完成工作. 委派任务有两种形式:

ask_question: 向 coworker (其他 agent ) 提问, 返回 coworker 的输出
delegate_work: 让 coworker 直接执行 task

实现方式是将 agent 封装成 tool, 这样就可以通过 ReAct 方式被模型调用

tools = [
	StructuredTool.from_function(
		func=self.delegate_work,
		name="Delegate work to co-worker",
		description=self.i18n.tools("delegate_work").format(
			coworkers=f"[{', '.join([f'{agent.role}' for agent in self.agents])}]"
		),
	),
	# omitted for clarity ...
]

agent 当作 tool 使用时对应的 description

Delegate a specific task to one of the following co-workers: {coworkers}

The input to this tool should be the co-worker, the task you want them to do, and ALL necessary context to execute the task, they know nothing about the task, so share absolute everything you know, don't reference things but instead explain them.

效果评估

crewAI 主要使用方式是通过 Python 代码调用, 执行过程有详细日志输出到 terminal, 绿色代表 agent 的 “思考” 过程, 紫色代表 task 的最终结果. 在使用过程也发现了几个问题.

1. 使用 tool 时, 因为选择参数错误导致多次调用

看源码 tool 调用功能是直接引用的 LangChain, tool 的参数列表是通过 Python object __annotations__ 拼接的, e.g. 搜索工具的参数列表:

>>> DuckDuckGoSearchRun._run.__annotations__
{'query': <class 'str'>, 'run_manager': typing.Optional[langchain_core.callbacks.manager.CallbackManagerForToolRun], 'return': str'>}

这个实现很方便, 但是里面包含了较多无用信息, 会干扰能力不够强的模型. agent 尝试几次以后可能会猜对参数, 但是下次调用又要重新猜. 这里优化方式可以考虑调用成功以后, 把本次调用方式缓存起来.

2. task delegation 偶现找不到指定 agent

crewAI 的实现中, 会使用 agent role 作为 tool name, 而 role 一般会使用角色身份一类的短语. LLM 在选定 tool 以后, 输出中包含的 tool name 可能因为大小写, 或者空白字符等问题, 无法完全匹配 agent role, 进而导致 agent 不存在的报错. 这里可以使用更宽松的匹配方式, 引入模糊匹配和编辑距离等优化方式.

3. agent 不必要 LLM 调用开销

处理多跳 ( multiple-hop) 问题时, agent 需要多次执行 web search, 和 LLM 多次交互. e.g. 回答鲍勃马利出生地使用什么货币, 需要先知道鲍勃马利是谁在哪国出生, 那里的法定货币是什么. 用 crewAI 处理多跳问题一个常见的现象是, 第一次的 web search 返回的结果其实已经包含了足够的信息, agent 仍然决定继续追踪搜索返回的各个 url. 这些页面的文本最终都会经由 LLM 处理, 浪费时间和 token.

结论

crewAI 诞生于 agent 理念被广泛关注以后, 在 agent framework 领域新的产品往往有后发优势, crewAI 使用非常简单, 它很受欢迎并不意外. 仔细观察会发现和同类产品相比, crewAI 并没有带来本质变化 – 稳定性, 确定性和 task 完成效果依然主要仰赖 LLM 的能力, 框架自身没有带来多少优化.

理解 einsum

2024-06-01T06:04:20+00:00

einsum

Einstein summation 是爱因斯坦发明的一种矩阵运算标记, 旨在简化 tensor 运算表达式的书写.

比如两个 tensor A, B 的乘法,可以表示成 ij, jk -> ik, 式形统一简洁直观. 起初我了解到的规则是:

输入中重复的字母代表这些 dim 相乘;

输出中省略的字母代表这在这些 dim 上求和;

起初一看很 make sense, 但是这个规则很难解释其他场景, 比如 ii -> i. 我们可以尝试另一种视角, 从代码的角度理解 einsum.

表达式中的字母其实是 iterator

把输入中的字母看作 Python 的 iterator:

i 迭代器返回 row (dim 0) 的 index, k 返回 col 的 index; 相同字母代表迭代器, 返回的数值相同

接下来看几个例子

ij, jk -> ik: 矩阵乘法

i 在 A 的行上迭代, j 在 A 的列上迭代
j, k 分别在 B 的行和列迭代
-> 代表输出
i, k 是结果 C 的行和列迭代器

C 中的每个位置 (i, k) 代表 A 的 i 行和 B k 列点积

用伪代码表示

for i in A.rows:
    for k in B.cols:
        for j in A.rows[i], B.cols[k]:
            C[i, k] += A[i, j] * B[j, k]

结果是 A, B 矩阵乘法

ij, ij -> ij: 元素相乘

for i in A.rows, B.rows:
    for j in A.cols, B.cols:
        C[i, j] = A[i, j] * B[i, j]

结果是 A 与 B 的元素乘法 (elementwise - multiplication)

ik, jk -> ij: 逐行点积

for i in A.rows:
    for j in B.rows:
        for k in A.rows[i], B.rows[j]:
            C[i, j] += A[i, k] * B[j, k]

结果是 A 与 B 逐行点积

对于表达式左侧有两项的表达式, 通过上面几个例子我们可以发现, 相同的字母代表相同的迭代器, 同时在两个 tensor 的对应 dim 上迭代.

结论

最后我们重新总结 einsum 的规则:

每个字母代表 tensor 一个 dim 上的迭代器, e.g. 对于 3 x 5 tensor A, ij 分别在 row 和 col 上迭代
-> 左侧如果是多项式, 每一项中相同的字母代表相同的迭代器
右侧缺少迭代器代, 表左侧元素运算以后, 在对应 dim 上求和

理解 broadcasting 📢

2024-05-26T14:39:02+00:00

broadcasting 本质是让大小不相同的两个 tensor 拉抻后具有相同的大小, 能够进行数学运算

问题

tensor 进行逐个元素计算时, 通常要求二者 shape 要匹配

a = tensor([[ 0,  1,  2],
            [ 3,  4,  5],
            [ 6,  7,  8],
            [ 9, 10, 11]])
b = tensor([[0, 1, 2],
            [0, 1, 2],
            [0, 1, 2],
            [0, 1, 2]])
a * b

如果二者形状不同呢? 可以遍历 row / col 计算并组装结果

c = torch.zeros(a.shape)
ar, ac = a.shape
for i in range(ar):
    c[i] = a[i] * b

但这样很慢: Python 的 loop 是 python 实现的, 效率远低于 C 实现的 tensor 运算. 所以需要一个方法, 把 b 拉伸成 a 一样的形状

broadcast 规则

两个大小 (len(a.shape), 或者 t.ndim) 不相同的 tensor 进行计算时, 可以把较小的一方拉伸成与较大的相同对于 a, b 两个tensor, 拉伸按照以下规则进行:

从最后一个 dim 开始逐个比较

二者的 size 相同的话不需要拉伸, 继续比较前一个

a 的 dim 不存在, 或者 size = 1, 则 a 在这个 dim 上进行 “复制”

…… 直到所有 dim 处理完

举几个例子

A, B, C, D 形状如下: A: 5 x 1 B: 1 x 6 C: 6 D: 1 C 是有 6 个元素的 vector, D 是 scalar 通过 broadcasting 进行运算

A      (rank 2 tensor):  5 x 1
B      (rank 2 tensor):  1 x 6
Result (rank 2 tensor):  5 x 6

A 的第一列 a[:, 0] 在 x 轴 (dim 0) 方向上复制 6 次, A 表现为 5 x 6 B 的第一行 b[0, :] 在 y 轴方向上复制 5 次

B      (rank 2 tensor):  1 x 6
C      (rank 1 tensor):      6
Result (rank 2 tensor):  1 x 6

C 与 B 最后一个 dim 相同, C 补上缺少的 dim, 表现为 1 x 6

A      (rank 2 tensor):  5 x 1
D      (scalar       ):      1
Result (rank 2 tensor):  5 x 1

D 的唯一一个元素在每一个位置上复制, D 表现为 5 x 1

broadcasting 实现

将较小的 tensor 复制多份以便较大的进行匹配, 在处理很大的 tensor 运算时会消耗很多时间和内存, broadcasting 的实现很聪明, 并不会复制数据

tesnor.expand_as 将 b 拉伸到与 a 大小相同, 和 broadcasting 里一样

b = b.expand_as(a)
b.shape, b

# Output:
(torch.Size([4, 3]),
 tensor([[0, 1, 2],
         [0, 1, 2],
         [0, 1, 2],
         [0, 1, 2]]))

但是实际上 b 的底层数据没有复制

b.storage()

# Output:
 0
 1
 2
[torch.storage.TypedStorage(dtype=torch.int64, device=cpu) of size 3]

秘密就在于控制在各个 dim (axis) 上移动的步长 (stride)

b.stride(), b.shape

# Output:
((0, 1), torch.Size([4, 3]))

想象有一个 cursor 在 b 的 row 上移动, 当需要移动到下一个 row 时, 因为 tride = 0, cursor 位置不会发生变化