Chapter 5: LangGraph 狀態機 (Graph Workflows)

歡迎來到 open-notebook 教學系列的第五章！在上一章內容處理流程 (Content Processing Graph) 中，我們了解到 open-notebook 如何使用一個自動化的流程來從各種來源（如網址、PDF、音檔）提取純文字內容。我們也稍微提到了這個流程是使用 LangGraph 這個函式庫建立的。現在，我們要更深入地探索 LangGraph，看看它是如何讓我們能夠編排更複雜、多步驟的人工智慧任務。

為什麼我們需要 LangGraph？

想像一下，您想在 open-notebook 中加入一個「智慧問答」功能。您希望能直接向您的筆記提問，例如：「我上次關於 AI 倫理的筆記中，提到了哪些主要觀點？」

要回答這個問題，單純呼叫一次 AI 模型可能不夠。一個比較完善的處理流程可能會是這樣：

理解與規劃： 首先，一個 AI 模型（或一個工具）需要理解您的問題，並規劃出一個「搜尋策略」。例如，它可能會決定要搜尋「AI 倫理」和「主要觀點」這兩個關鍵詞，並且指示後續步驟要從搜尋結果中提取相關的論點。
執行搜尋： 接著，系統需要在您的筆記資料庫中執行搜尋。這可能不只一次，而是根據策略進行多次不同角度的搜尋。
結果處理與回答： 拿到搜尋結果後，另一個 AI 模型需要閱讀這些結果，並結合您原始的問題，生成一個完整且易於理解的回答。
決策與循環（可能）： 如果第一次搜尋結果不理想，系統是否應該自動調整策略，嘗試不同的關鍵詞，然後重新搜尋呢？這就涉及到條件判斷和循環。

這種包含多個步驟、條件分支甚至循環的複雜任務，如果只用傳統的程式碼一行行寫下來，很快就會變得難以管理和維護。每次想調整流程中的某個環節，都可能牽一髮而動全身。

這就是 LangGraph 發揮作用的地方。LangGraph 就像一位電影導演，手上有個劇本（工作流程圖）。劇本中定義了不同的場景（節點）和演員（AI 模型、工具）的出場順序（邊）。導演會根據劇本，一步步指導演員完成拍攝，確保整個流程順暢地進行，最終完成一部電影（任務）。

什麼是 LangGraph？

LangGraph 是一個 Python 函式庫，專門用來建構狀態化、多參與者的應用程式，特別適合需要協調多個大型語言模型 (LLM) 和工具來完成複雜任務的場景。它讓您可以將複雜的流程定義成一個「圖」(Graph)。

以下是 LangGraph 的幾個核心概念，讓我們用電影導演的例子來理解：

狀態 (State)： 這就像電影拍攝過程中「目前的情況」。它記錄了到目前為止我們擁有的所有資訊，例如：使用者最初的問題、第一位演員（AI）提出的搜尋策略、第二位演員（搜尋工具）找到的筆記片段等等。這個「狀態」是一個共享的「記事板」，所有參與者都可以讀取和更新它。
節點 (Nodes)： 這些是電影中的「場景」或「演員」。每個節點代表流程中的一個具體步驟或一個執行特定任務的單元。這個單元可以是一個 AI 模型、一個呼叫外部 API 的工具，或只是一個普通的 Python 函式。每個節點會根據當前的「狀態」執行其任務，然後可能會更新「狀態」。
邊 (Edges)： 這些是劇本中指示「場景轉換」的流程，或是導演對演員出場順序的安排。邊定義了節點之間的連接關係，決定了工作流程如何從一個節點進行到下一個節點。邊可以是：
- 固定邊 (Fixed Edges)： 就像劇本中寫明「場景 A 結束後，必定是場景 B」。
- 條件邊 (Conditional Edges)： 就像導演根據「場景 A 的拍攝結果」來決定接下來要拍場景 B 還是場景 C。例如，如果搜尋找到了相關筆記，就進入「總結答案」的場景；如果沒找到，就進入「修改問題並重新搜尋」的場景。
圖 (Graph)： 這就是整個「電影劇本」，包含了所有定義好的節點和邊。一旦定義完成，LangGraph 就能依照這個「劇本」來執行整個工作流程。

在 open-notebook 中，內容處理流程 (Content Processing Graph) 就是用 LangGraph 建立的。除此之外，「智慧問答」(Ask)、「聊天」(Chat)、「處理新來源並應用轉換」(Source processing with Transformations) 等功能，也都是透過 LangGraph 編排的複雜工作流程。

LangGraph 如何在 `open-notebook` 中運作：「智慧問答」範例

讓我們以 open-notebook 中的「智慧問答」(Ask) 功能為例，看看 LangGraph 是如何運作的。這個功能的程式碼主要位於 open_notebook/graphs/ask.py。

當您問：「我關於 AI 倫理的筆記中，提到了哪些主要觀點？」時，背後的 LangGraph 工作流程大致如下：

1. 定義狀態 (State)

首先，我們需要定義在這個「智慧問答」流程中，需要在節點之間傳遞哪些資訊。這通常透過一個 Python 的 TypedDict 來定義。

# open_notebook/graphs/ask.py (簡化片段)
from typing import Annotated, List
from pydantic import BaseModel, Field
from typing_extensions import TypedDict
import operator # 用於合併列表

class Search(BaseModel): # 代表一次搜尋請求的結構
    term: str # 搜尋詞彙
    instructions: str # 給回答模型的指示，告訴它要從搜尋結果中提取什麼資訊

class Strategy(BaseModel): # 代表搜尋策略的結構
    reasoning: str # AI 思考為何要這樣搜尋的理由
    searches: List[Search] = Field(default_factory=list) # 包含多次搜尋請求的列表

class ThreadState(TypedDict): # 定義整個流程的狀態
    question: str               # 使用者提出的原始問題
    strategy: Strategy          # AI 生成的搜尋策略
    answers: Annotated[list, operator.add] # 從各個搜尋中收集到的答案片段 (會不斷累加)
    final_answer: str           # 最終給使用者的完整回答

程式碼解釋：

Search 和 Strategy 是使用 Pydantic 定義的資料模型，用來結構化 AI 生成的搜尋計畫。
ThreadState 就是我們這個「智慧問答」流程的「共享記事板」。
- question: 儲存使用者一開始問的問題。
- strategy: 儲存第一個 AI 節點生成的搜尋策略。
- answers: 這是一個特別的欄位。Annotated[list, operator.add] 表示這個欄位是一個列表，並且當多個節點都嘗試更新它時，它們的結果會被「加入」(add) 到這個列表中，而不是互相覆蓋。這對於收集多次搜尋的結果非常有用。
- final_answer: 儲存最後一個 AI 節點生成的總結性答案。

2. 定義節點 (Nodes)

接下來，我們定義流程中的各個「演員」（處理步驟）。每個節點都是一個 Python 函式，它會接收目前的 ThreadState，執行一些操作，然後返回一個字典來更新狀態。

open_notebook/graphs/ask.py 中定義了幾個主要節點：

call_model_with_messages (策略制定節點)：

任務： 接收使用者的 question。
呼叫一個 AI 模型（「策略家 AI」）來分析問題，並產生一個 Strategy（包含一個或多個 Search 請求）。
更新狀態： 返回 {"strategy": ...} 來更新狀態中的 strategy 欄位。

# open_notebook/graphs/ask.py (簡化片段 - 策略制定節點)
async def call_model_with_messages(state: ThreadState, config: RunnableConfig) -> dict:
    # ... (省略了設定提示詞和呼叫模型的細節) ...
    # 假設 ai_response_strategy 是一個 Strategy 物件
    # ai_response_strategy = llm.invoke(...) 
    print(f"策略家 AI：根據問題 '{state['question']}'，我制定的策略是...") # 示意
    # 此處模擬 AI 回應
    simulated_strategy = Strategy(
        reasoning="為了回答關於AI倫理的問題，我需要搜尋相關筆記並提取主要觀點。",
        searches=[
            Search(term="AI倫理", instructions="提取關於AI倫理的主要論述"),
            Search(term="道德準則", instructions="找出提及的AI道德準則")
        ]
    )
    return {"strategy": simulated_strategy}

provide_answer (搜尋與初步回答節點)：

任務： 這個節點可能會被多次呼叫，每次處理策略中的一個 Search 請求。
接收一個 Search 請求的 term (搜尋詞) 和 instructions (提取指示)。
執行向量搜尋（vector_search(...)）來找到相關的筆記片段。
呼叫一個 AI 模型（「資訊提取 AI」），讓它根據 instructions 從搜尋結果中提取相關資訊。
更新狀態： 返回 {"answers": ["提取到的答案片段"]}。由於 answers 欄位設定了 operator.add，這個片段會被加入到狀態的 answers 列表中。

# open_notebook/graphs/ask.py (簡化片段 - 搜尋與初步回答節點)
async def provide_answer(state: SubGraphState, config: RunnableConfig) -> dict:
    # SubGraphState 是一個更細粒度的狀態，用於此節點的單次執行
    # state['term'] 和 state['instructions'] 來自策略
    print(f"搜尋員：正在搜尋 '{state['term']}' 並提取 '{state['instructions']}'...") # 示意
    # results = vector_search(state["term"], ...) # 實際執行搜尋
    # ... (省略了呼叫 AI 模型處理搜尋結果的細節) ...
    # extracted_info = llm.invoke(...)
    simulated_extracted_info = f"關於 '{state['term']}' 的筆記片段：...提及了觀點X..."
    return {"answers": [simulated_extracted_info]} # 返回一個包含單個答案的列表

注意：provide_answer 實際上接收的是 SubGraphState，這是 LangGraph 中用於扇出 (fan-out) 任務時，傳遞給每個並行分支的獨立狀態。但最終它的輸出會被合併回主 ThreadState 的 answers 欄位。

write_final_answer (最終答案生成節點)：

任務： 接收原始的 question 和從 provide_answer 節點收集到的所有 answers 片段。
呼叫一個 AI 模型（「總結家 AI」），讓它將這些資訊整合成一個流暢、完整的最終答案。
更新狀態： 返回 {"final_answer": "..."}。

# open_notebook/graphs/ask.py (簡化片段 - 最終答案生成節點)
async def write_final_answer(state: ThreadState, config: RunnableConfig) -> dict:
    print(f"總結家 AI：正在根據問題和以下資訊撰寫最終答案：{state['answers']}") # 示意
    # ... (省略了呼叫 AI 模型生成最終答案的細節) ...
    # final_response = llm.invoke(...)
    simulated_final_response = f"關於您問題 '{state['question']}' 的主要觀點是：觀點X，觀點Y..."
    return {"final_answer": simulated_final_response}

3. 定義邊 (Edges)

定義好節點後，我們需要用「邊」來連接它們，告訴 LangGraph 流程應該如何進行。

# open_notebook/graphs/ask.py (簡化片段)
from langgraph.graph import StateGraph, END, START, Send

# 假設 agent_state 是 StateGraph(ThreadState) 的實例
agent_state = StateGraph(ThreadState)

# 新增節點 (前面已定義)
agent_state.add_node("agent", call_model_with_messages) # "agent" 是策略制定節點的名稱
agent_state.add_node("provide_answer", provide_answer)
agent_state.add_node("write_final_answer", write_final_answer)

# 設定起始點
agent_state.add_edge(START, "agent") # 流程從 START 開始，首先執行 "agent" 節點

# 條件邊：從 "agent" 節點出發，根據 trigger_queries 函式的結果決定下一步
# trigger_queries 會根據策略中的 searches 列表，為每個 search 產生一個到 "provide_answer" 的任務
agent_state.add_conditional_edges(
    "agent", # 起點節點
    trigger_queries, # 一個判斷函式，返回下一步要去哪裡或發送哪些並行任務
    ["provide_answer"] # 可能的目標節點列表 (簡化，實際更複雜)
)
# trigger_queries 函式大致如下：
async def trigger_queries(state: ThreadState, config: RunnableConfig):
    # 為策略中的每個搜尋任務，創建一個 "Send" 指令
    # 指示 LangGraph 將這些任務發送到 "provide_answer" 節點並行處理
    return [
        Send(
            "provide_answer", # 要發送到的目標節點
            { # 傳遞給該節點的 SubGraphState
                "question": state["question"],
                "instructions": s.instructions,
                "term": s.term,
            },
        )
        for s in state["strategy"].searches # 遍歷策略中的所有搜尋
    ]


# 固定邊：當 "provide_answer" 節點(的所有並行任務)完成後，流程進入 "write_final_answer" 節點
agent_state.add_edge("provide_answer", "write_final_answer")

# 固定邊：當 "write_final_answer" 節點完成後，流程結束 (END)
agent_state.add_edge("write_final_answer", END)

程式碼解釋：

agent_state = StateGraph(ThreadState): 創建一個狀態圖的實例，並告訴它我們流程的狀態結構是 ThreadState。
agent_state.add_node("節點名稱", 節點函式): 將我們之前定義的 Python 函式註冊為圖中的節點。
agent_state.add_edge(START, "agent"): 設定流程的起點。START 是 LangGraph 的一個特殊標記。
agent_state.add_conditional_edges("agent", trigger_queries, ...): 這是一個關鍵的條件邊。
- 當 agent 節點（策略制定）完成後，會呼叫 trigger_queries 函式。
- trigger_queries 函式會檢查 state.strategy.searches 列表。如果有多個搜尋請求，它會為每個請求產生一個 Send 指令。Send("provide_answer", ...) 的意思是：「啟動一個到 provide_answer 節點的新任務，並傳遞這些資料給它」。LangGraph 會並行地執行這些任務。
- 這展示了 LangGraph 的一個強大功能：扇出 (fan-out)，即一個節點可以觸發多個並行的下游節點。
agent_state.add_edge("provide_answer", "write_final_answer"): 當所有由 trigger_queries 觸發的 provide_answer 任務都完成後（LangGraph 會自動處理這種 扇入 fan-in），流程會自動轉到 write_final_answer 節點。
agent_state.add_edge("write_final_answer", END): write_final_answer 完成後，流程到達 END（LangGraph 的特殊結束標記）。

4. 編譯並執行圖 (Graph)

最後，我們將定義好的圖「編譯」成一個可執行的物件，然後就可以呼叫它了。

# open_notebook/graphs/ask.py (結尾)

# 編譯圖
graph = agent_state.compile()

# 理論上，執行圖的方式如下 (實際使用可能更複雜，需要傳入設定)：
# async def run_ask_graph(user_question: str):
#     initial_state = {"question": user_question, "answers": []}
#     async for event in graph.astream(initial_state):
#         # 可以查看每一步的狀態變化
#         print(event) 
#     # 或者直接獲取最終結果
#     # final_result = await graph.ainvoke(initial_state)
#     # return final_result.get("final_answer")

# 範例：直接調用 (簡化)
# import asyncio
# async def main():
#   user_question = "我關於 AI 倫理的筆記中，提到了哪些主要觀點？"
#   # 初始狀態，注意 answers 必須是列表，因為它是 Annotated[list, operator.add]
#   initial_input = {"question": user_question, "answers": []} 
#   final_state = await graph.ainvoke(initial_input)
#   print(f"最終答案：{final_state.get('final_answer')}")

# if __name__ == "__main__":
#   asyncio.run(main())

程式碼解釋：

graph = agent_state.compile(): 這行程式碼將我們所有的節點和邊定義「鎖定」，產生一個可以執行的 graph 物件。
graph.ainvoke(initial_input): 這是執行整個圖（電影劇本）的方法。我們提供一個包含初始 question 的字典作為輸入。LangGraph 會從 START 開始，依照我們定義的節點和邊一步步執行，直到 END。最後，它會返回整個流程結束時的最終 ThreadState。
輸入： 包含使用者問題的字典，例如 {"question": "AI 倫理的主要觀點？", "answers": []}。
輸出（final_state）： 一個包含所有執行結果的字典，我們最關心的是其中的 final_answer 欄位，例如：{"question": "...", "strategy": ..., "answers": [...], "final_answer": "關於您問題的主要觀點是：觀點X，觀點Y..."}。

這就是 LangGraph 如何幫助我們將一個複雜的「智慧問答」任務，拆解成一系列定義清晰、易於管理的步驟，並自動化地執行它們。

深入探索：LangGraph 的內部運作

當我們呼叫 graph.ainvoke(...) 時，LangGraph 內部發生了什麼事呢？

初始化狀態： LangGraph 根據您提供的輸入和 ThreadState 的定義來初始化當前的工作流程狀態。
進入起點： 流程從 START 邊指向的節點開始（在我們的例子中是 agent 節點）。
執行節點： LangGraph 呼叫該節點對應的 Python 函式（例如 call_model_with_messages），並將當前的狀態傳遞給它。
更新狀態： 節點函式執行完畢後，會返回一個字典。LangGraph 用這個字典的內容來更新工作流程的狀態。例如，agent 節點返回 {"strategy": ...}，狀態中的 strategy 欄位就會被更新。
決定下一步： LangGraph 檢查從當前節點出發的邊：
- 如果是固定邊，就直接跳到目標節點。
- 如果是條件邊，就呼叫條件函式（例如 trigger_queries），條件函式會接收當前狀態並返回下一步的目標節點名稱（或多個 Send 指令）。
處理並行任務 (Fan-out/Fan-in)： 如果條件邊返回了多個 Send 指令（像我們的 trigger_queries 那樣），LangGraph 會為每個 Send 指令創建一個並行的任務分支。它會等待所有這些分支都執行完畢，並將它們的結果（透過 operator.add 等機制）合併回主狀態後，才會繼續執行下一個固定的邊（例如從 provide_answer 到 write_final_answer）。
重複執行： 流程跳到下一個節點，重複步驟 3-5，直到遇到 END 標記。
返回結果： 到達 END 後，LangGraph 返回最終的狀態。

以下是一個簡化的序列圖，展示了「智慧問答」流程的執行過程：

sequenceDiagram participant UserCode as 使用者程式碼 participant AskGraph as 提問圖 (LangGraph 引擎) participant StrategistNode as 策略節點 (agent) participant SearchAnswerNode as 搜尋回答節點 (provide_answer, 可能多次) participant FinalAnswerNode as 最終答案節點 (write_final_answer) UserCode->>AskGraph: ainvoke({"question": "使用者問題", "answers": []}) AskGraph->>StrategistNode: 執行 (傳入目前狀態) StrategistNode-->>AskGraph: 返回更新 {"strategy": ...} AskGraph->>AskGraph: (執行 trigger_queries 條件邊) Note over AskGraph: 根據策略，產生多個到 SearchAnswerNode 的並行任務 AskGraph->>SearchAnswerNode: 執行任務1 (傳入部分狀態) SearchAnswerNode-->>AskGraph: 返回更新 {"answers": ["片段1"]} AskGraph->>SearchAnswerNode: 執行任務2 (傳入部分狀態) SearchAnswerNode-->>AskGraph: 返回更新 {"answers": ["片段2"]} Note over AskGraph: (等待所有 SearchAnswerNode 任務完成並合併 answers) AskGraph->>FinalAnswerNode: 執行 (傳入目前狀態，包含所有 answers) FinalAnswerNode-->>AskGraph: 返回更新 {"final_answer": ...} AskGraph-->>UserCode: 返回最終狀態

open-notebook 中還有其他地方也使用了 LangGraph 來編排工作流程，例如：

open_notebook/graphs/chat.py: 用於處理聊天互動，特別是需要管理對話歷史（記憶）的場景。它使用 SqliteSaver 來將對話狀態持久化儲存。
open_notebook/graphs/source.py: 這是一個更複雜的圖，它首先呼叫我們在上一章討論的內容處理流程 (Content Processing Graph) 來提取來源內容，然後將提取出的內容儲存為 Source 物件，接著還可以選擇性地對這個 Source 應用一系列的轉換 (Transformations)。
open_notebook/graphs/transformation.py: 一個相對簡單的圖，用於對輸入文字執行單個的轉換 (Transformations)（例如摘要、翻譯）。

這些例子都展示了 LangGraph 在定義和執行有狀態、多步驟 AI 工作流程方面的靈活性和強大功能。

總結

在本章中，我們深入了解了 LangGraph 如何作為 open-notebook 中複雜工作流程的「導演」。

我們了解到，對於像「智慧問答」這樣需要多個 AI 模型和工具協同工作的任務，LangGraph 提供了一種結構化的方法來定義和執行這些流程。
LangGraph 的核心概念包括：狀態 (State)（共享的記事板）、節點 (Nodes)（處理步驟或演員）、以及邊 (Edges)（流程走向或劇本指示）。
我們透過「智慧問答」的範例，看到了如何定義狀態、節點函式，以及如何使用固定邊和條件邊（包括扇出/扇入）來連接它們，最終編譯成一個可執行的圖。
我們也簡要探討了 LangGraph 的內部執行機制，以及它在 open-notebook 中其他模組的應用。

LangGraph 讓開發者能夠更清晰地設計和管理複雜的 AI 應用程式邏輯。在這些由 LangGraph 編排的工作流程中，許多節點的核心任務都是與大型語言模型 (LLM) 進行互動。但是，我們如何有效地構建給這些 LLM 的指令（也就是「提示詞」）呢？如何確保提示詞既清晰又能引導模型產生我們期望的輸出格式呢？

在下一章，我們將探討提示詞管理器 (Prompter)，了解它是如何幫助我們管理和生成這些至關重要的提示詞的。

Chapter 5: LangGraph 狀態機 (Graph Workflows)

為什麼我們需要 LangGraph？

什麼是 LangGraph？

LangGraph 如何在 open-notebook 中運作：「智慧問答」範例

1. 定義狀態 (State)

2. 定義節點 (Nodes)

3. 定義邊 (Edges)

4. 編譯並執行圖 (Graph)

深入探索：LangGraph 的內部運作

總結

LangGraph 如何在 `open-notebook` 中運作：「智慧問答」範例