TK TaskKit
Herramientas PDF

Extraer texto

Extrae texto legible de un PDF. El archivo se parsea localmente; no recibimos ni un byte.

Los archivos se quedan en tu dispositivo. Los PDFs se leen, unen y guardan por completo en tu navegador. No recibimos ni un solo byte de tu archivo.

Qué hace esta herramienta

Extrae el texto legible de un PDF y lo pone en un cuadro listo para copiar o descargar como .txt. Funciona en tu navegador, sin subir el archivo.

Opcionalmente preserva los saltos de línea originales (útil cuando el PDF tiene poemas, código o cualquier formato donde la línea importa). Si lo desactivas, el texto se concatena por párrafo, lo que suele leerse mejor.

Límites: 100 MB por archivo.

Cuándo la usarías

  • Pegar la transcripción de una página PDF en un documento de Google Docs o Notion.
  • Indexar el contenido de un manual sin OCR (porque ya tiene capa de texto).
  • Buscar una frase concreta en un informe largo: extrae y luego Ctrl+F.
  • Pasar el contenido a una herramienta de análisis (NLP, traducción, summarización) sin que el archivo deje tu dispositivo.

Cómo funciona

La extracción usa pdf.js. Cada página se procesa en orden; los items de texto se ordenan por posición y se agrupan en líneas según su coordenada Y. Cuando "Conservar saltos" está activo, cada línea se separa con \n; cuando está desactivado, se aplica una heurística sencilla de unión por párrafo.

Los marcadores --- Página N --- separan páginas en la salida para que sepas dónde empieza cada una.

Nada se sube. pdf.js decodifica el PDF localmente; la extracción de texto opera sobre la capa de texto embebida (no es OCR).

Notas

¿Y los PDFs escaneados sin capa de texto? Esta herramienta no hace OCR. Si el PDF es una imagen escaneada, el resultado estará vacío. Pásalo primero por una herramienta OCR (Tesseract, Adobe, etc.).

¿Por qué el orden de las palabras a veces es raro? Algunos PDFs codifican el texto en orden de pintado, no de lectura. La heurística de orden por coordenada se acerca pero no es perfecta para layouts de varias columnas o cuadros de texto superpuestos. Resultado: revisa la salida.

¿Y las ligaduras (fi, fl, ) o los caracteres especiales? Se preservan; algunos PDFs codifican fi como un carácter Unicode (, U+FB01) en lugar de dos. Suele leerse bien pero las búsquedas estrictas de "fi" pueden fallar — busca también la versión Unicode si no aparece.

¿Y las fuentes con codificación personalizada? A veces el PDF mapea glifos a code points incorrectos (problema clásico de extracción). El resultado se ve como basura. No hay manera fiable de arreglarlo desde el lado del navegador — usa una herramienta dedicada (pdftotext, Adobe).

¿Y los saltos de línea dentro de palabras separadas con guion al final? Se mantienen como tales; si quieres unir esas palabras, postprocesa la salida (regex como -\n → "" suele bastar).

Privacidad

La pestaña hace todo: lee el PDF con File, extrae texto con pdf.js, presenta la salida en un <textarea>. Ningún servidor ve el archivo ni el texto.

Herramientas relacionadas

  • Dividir PDF — para procesar un capítulo a la vez
  • PDF a imágenes — si necesitas la página como imagen y luego OCR aparte
  • Comparador — para comparar el texto extraído de dos versiones