
Mistral додає новий API для розпізнавання тексту в PDF-файлах
6 березня французький розробник великої мовної моделі Mistral представив Mistral OCR – новий API для обробки PDF-файлів. Це оптичне розпізнавання символів, яке дозволяє перетворювати складні документи у чистий текст, значно спрощуючи їх обробку штучним інтелектом.
Які можливості відкриває Mistral OCR
Більшість сучасних LLM, зокрема ChatGPT від OpenAI, Le Chat від Mistral та інші генеративні ШІ, оптимізовані для роботи з необробленим текстом. Однак PDF-файли, презентації та інші складні документи можуть містити таблиці, зображення, графіки, математичні формули, нетипові шрифти та складні макети.
Більшість стандартних OCR-систем надають звичайне полотно тексту, втрачаючи структуру документа. Mistral OCR відрізняється тим, що підтримує Markdown, дозволяючи зберігати заголовки, списки та інші елементи форматування.
За словами Гійома Лампла, співзасновника Mistral, компанії зберігають величезні обсяги документації у складних форматах (PDF, слайди), що ускладнює роботу ШІ-систем. Mistral OCR дозволяє легко витягувати інформацію, роблячи її доступною для моделей.
Mistral OCR автоматично визначає структуру документа (заголовки, списки, зображення, таблиці) та перетворює текст у Markdown для подальшої роботи ШІ. Інструмент підтримує кілька мов, працює через API або хмарні сервіси (AWS, Azure, Google Cloud), а також може працювати локально для захисту конфіденційних даних.