TRANSCRIPTOR — Documentación de Reuniones con IA
Herramienta de documentación completa de reuniones: transcripción con diarización, actas estructuradas, análisis psicológico de participantes, chat de retrospectiva y generación de imágenes resumen.
URL: cadences.app/internal/tools/transcriptor
Stack: Vanilla JS (4500+ líneas) · ElevenLabs Scribe · Whisper · Gemini 2.5
Estado: POC funcional (v0.3)
Concepto
Transcriptor transforma grabaciones de reuniones en documentación estructurada y actionable. No es un simple transcriptor: genera actas profesionales, analiza la dinámica del equipo, permite revisitar la reunión con un chat IA estilo WhatsApp, y genera imágenes que resumen visualmente los puntos clave.
Pipeline de Procesamiento
Audio de reunión (grabación)
│
├── 1. Transcripción (STT)
│ ├── ElevenLabs Scribe (diarización de hablantes)
│ └── OpenAI Whisper (fallback)
│
├── 2. Acta Estructurada (IA)
│ ├── Gemini 2.5 genera acta formal
│ ├── Asistentes identificados
│ ├── Temas tratados
│ ├── Decisiones tomadas
│ ├── Action items con responsables
│ └── Próximos pasos
│
├── 3. Análisis Psicológico
│ ├── Estilo comunicativo de cada participante
│ ├── Nivel de participación
│ ├── Tono emocional
│ └── Dinámicas de grupo
│
├── 4. Módulo de Conclusiones
│ ├── Key takeaways
│ ├── Riesgos identificados
│ └── Oportunidades detectadas
│
├── 5. Chat de Retrospectiva
│ ├── Estilo WhatsApp
│ ├── Pregunta lo que quieras sobre la reunión
│ └── IA responde con contexto completo
│
├── 6. Imagen Resumen
│ └── Generación visual de los puntos clave
│
└── 7. TTS de Conclusiones
├── Narración de audio del resumen
└── Chunking inteligente para textos largos
Módulos Detallados
1. Transcripción con Diarización
| Feature | Descripción |
|---|---|
| ElevenLabs Scribe | STT primario con identificación de hablantes |
| Diarización | Distingue quién dice cada frase |
| Timestamps | Marca temporal por segmento |
| OpenAI Whisper | Fallback para idiomas no soportados por Scribe |
| Multi-idioma | Español, inglés, y más |
2. Acta Estructurada
Gemini 2.5 analiza la transcripción y genera:
# Acta de Reunión — [Fecha]
## Asistentes
- Juan Pérez (CEO) — Participación: Alta
- María García (CTO) — Participación: Media
- ...
## Temas Tratados
1. Revisión del Q4
2. Planificación del Q1
3. ...
## Decisiones
- Se aprueba el presupuesto de marketing (+15%)
- Se pospone el lanzamiento a febrero
- ...
## Action Items
| Tarea | Responsable | Deadline |
|---|---|---|
| Preparar propuesta de pricing | Juan | 15 ene |
| Revisar roadmap técnico | María | 20 ene |
## Próximos Pasos
- Siguiente reunión: [fecha]
- Revisar: [temas pendientes]
3. Análisis Psicológico
Análisis de dinámica de equipo por participante:
| Dimensión | Análisis |
|---|---|
| Estilo comunicativo | Directo, colaborativo, pasivo, dominante |
| Participación | % del tiempo de habla, frecuencia de intervenciones |
| Tono emocional | Positivo, neutral, negativo, ansioso, entusiasta |
| Interacciones | Quién responde a quién, alianzas, tensiones |
| Influencia | Quién genera más acuerdo/desacuerdo |
4. Chat de Retrospectiva
Interfaz estilo WhatsApp para consultar la reunión:
- "¿Qué dijo María sobre el presupuesto?"
- "¿Se tomó alguna decisión sobre el lanzamiento?"
- "¿Quién propuso la idea del partnership?"
- "Resume los 3 puntos más importantes"
El chat tiene contexto completo de la transcripción + acta + análisis.
5. Imagen Resumen
Generación visual con FLUX/DALL-E que representa los puntos clave de la reunión de forma conceptual (infografía generada por IA).
6. TTS de Conclusiones
Narración de audio del resumen ejecutivo:
- Chunking inteligente para textos largos (divide en segmentos narración)
- ElevenLabs con voz profesional
- Descargable como MP3
Interfaz
| Panel | Función |
|---|---|
| Upload | Subir grabación de audio |
| Transcripción | Vista con timeline y hablantes diferenciados por color |
| Acta | Documento estructurado editable |
| Análisis | Cards por participante con métricas |
| Chat | Interfaz WhatsApp-like para preguntas |
| Imagen | Preview de imagen resumen generada |
| Audio | Player de conclusiones narradas |
Métricas Técnicas
| Métrica | Valor |
|---|---|
| Código principal | 4,500+ líneas Vanilla JS |
| Proveedores STT | 2 (ElevenLabs Scribe, Whisper) |
| IA para actas | Gemini 2.5 |
| Generación de imágenes | FLUX / DALL-E |
| TTS | ElevenLabs |
| Zero dependencies | Vanilla JS + CSS |
Parte del ecosistema ProjectOS