WIP: feature: Add before Guardrail #26

A8080816 · 2026-03-10T00:48:47Z

A8080816 commented

2026-03-10 00:48:47 +00:00

PR para: #20

Resumen

Se agrega el guardrail previo sobre cada conversación para clasificar prompts y devolver respuestas de bloqueo personalizadas, reforzando el filtro de emojis y su documentación.

Cambios principales

✨ GovernancePlugin invoca un LLM con salida estructurada y puede responder con blocking_response mientras escribe el contexto de bloqueo.
🛡️ Agent registra before_model_callback para cortar la generación principal cuando la decisión es unsafe.
🧼 Regex + FORBIDDEN_EMOJIS cubren combinaciones con tonos/ZWJ y se validan vía tests/test_governance_emojis.py.
📝 README documenta cómo ejecutar el suite específico para el filtro de emojis.

Características destacadas / Detalles técnicos

GenerateContentConfig obliga JSON (GuardrailOutput) con temperature=0.1 y hasta 1000 tokens.
CallbackContext.state ahora guarda guardrail_blocked, guardrail_message y guardrail_reasoning para auditoría.
Se reutiliza settings.agent_model en el guardrail LLM, sin configuraciones extras fuera de google_cloud_project/location.

Pruebas / Checklist

uv run ruff check
uv run ty check
uv run pytest tests/test_governance_emojis.py

Ejemplo de bloqueo

> PR para: #20 ## Resumen Se agrega el guardrail previo sobre cada conversación para clasificar prompts y devolver respuestas de bloqueo personalizadas, reforzando el filtro de emojis y su documentación. ## Cambios principales ✨ GovernancePlugin invoca un LLM con salida estructurada y puede responder con `blocking_response` mientras escribe el contexto de bloqueo. 🛡️ Agent registra `before_model_callback` para cortar la generación principal cuando la decisión es `unsafe`. 🧼 Regex + `FORBIDDEN_EMOJIS` cubren combinaciones con tonos/ZWJ y se validan vía `tests/test_governance_emojis.py`. 📝 README documenta cómo ejecutar el suite específico para el filtro de emojis. ### Características destacadas / Detalles técnicos - `GenerateContentConfig` obliga JSON (`GuardrailOutput`) con temperature=0.1 y hasta 1000 tokens. - `CallbackContext.state` ahora guarda `guardrail_blocked`, `guardrail_message` y `guardrail_reasoning` para auditoría. - Se reutiliza `settings.agent_model` en el guardrail LLM, sin configuraciones extras fuera de `google_cloud_project/location`. ### Pruebas / Checklist - [x] `uv run ruff check` - [x] `uv run ty check` - [x] `uv run pytest tests/test_governance_emojis.py` ### Ejemplo de bloqueo ![image.png](/attachments/7b6168a4-31e5-48c6-b59c-f68310f0504f) ![image.png](/attachments/39c5bca7-0cc1-4c08-a5d9-af067ecfefe1) ![image.png](/attachments/5df2ded6-b208-4166-b75c-b26982976f2d)

image.png

118 KiB

image.png

60 KiB

image.png

45 KiB

A8080816 added 7 commits 2026-03-10 00:48:47 +00:00

feat: Enhance GovernancePlugin with guardrail LLM integration and structured output 1c255c5ccf

feat: Add before_model_callback to Agent initialization 7d5309c9d0

refactor: Addo 'blocking_response' for generative response in case guardrail block 5d9039f174

fix(governance): tighten guardrail prompts and response handling fcdc7233d8

docs(governance): expand unsafe prompt criteria 552d99b66a