본문 바로가기
개발

문서인식 API Mistral OCR

by hyperhand 2025. 3. 7.

Mistral AI Logo

 

 

Mistal OCR이란?

 Mistral OCR은 문서 이해에 새로운 표준을 제시하는 광학 문자 인식(OCR) API입니다. 다른 모델들과 달리, Mistral OCR은 문서의 각 요소(미디어, 텍스트, 표, 수식 등)를 전례 없는 정확도와 인지 능력으로 이해합니다. 이미지와 PDF를 입력으로 받아 텍스트와 이미지가 순서대로 배치된 형태로 컨텐츠를 추출합니다.

 결과적으로 Mistral OCR은 슬라이드나 복잡한 PDF와 같은 멀티모달 문서를 입력으로 사용하는 RAG(Retrieval-Augmented Generation) 시스템과 함께 사용하기에 이상적인 모델입니다.

 

Mistral OCR의 주요 특징

1. 복잡한 문서에 대한 탁월한 이해 능력

Mistral OCR은 이미지, 수학적 표현, 표, LaTex 형식과 같은 고급 레이아웃을 포함한 복잡한 문서 요소를 이해하는 데 탁월합니다. 이 모델은 차트, 그래프, 수식 및 그림이 포함된 과학 논문과 같은 풍부한 문서의 더 깊은 이해를 가능케 합니다.

2. 다국어 및 멀티모달 네이티브 지원

Mistral AI는 창립 이래로 전 세계를 위한 모델을 제공하는 것을 목표로 해왔으며, 모든 제품에서 다국어 기능을 제공하기 위해 노력해 왔습니다. Mistral OCR은 이를 새로운 차원으로 끌어올려, 수천 개의 스크립트, 폰트 및 전 세계 대륙의 언어를 파싱, 이해 및 전사할 수 있습니다.

 

다국어 벤치마트 결과:

언어 Azure OCR Google Doc AI Mistral OCR
러시아어 97.35 95.56 99.09
프랑스어 97.50 96.36 99.20
힌디어 96.45 95.65 97.55
중국어 91.40 90.89 97.11
포르투갈어 97.96 96.24 99.42
독일어 98.39 97.09 99.51
스페인어 98.54 97.52 99.54
터키어 95.91 93.85 97.00
우크라이나어 97.81 96.24 99.29
이탈리아어 98.31 97.69 99.42
루마니아어 96.45 95.14 98.79

 

3. 최고 수준의 벤치마크 성능

Mistral OCR은 엄격한 벤치마크 테스트에서 다른 주요 OCR 모델들을 일관되게 능가했습니다. Mistral OCR은 문서에서 텍스트뿐만 아니라 임베딩된 이미지도 추출할 수 있는 반면, 비교된 다른 LLM들은 이러한 기능이 없습니다.

 

벤치마크 결과:

모델 전체 수학 다국어 스캔
Google Document AI 83.42 80.29 86.42 92.77 78.16
Azure OCR 89.52 85.72 87.52 94.65 89.52
Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48
Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71
Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46
GPT-4o-2024-11-20 89.77 87.55 86.00 94.58 91.70
Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

 

생성에서의 퍼지 매치 성능:

모델 퍼치 매치 점수
Google-Document-AI 95.88
Gemini-2.0-Flash-001 96.53
Azure OCR 97.31
Mistral OCR 99.02

 

4. 같은 카테고리에서 가장 빠른 속도

 대두분의 동급 모델보다 더 가벼운 무게를 가진 Mistral OCR은 타 모델 대비 훨씬 빠르게 작동하며, 단일 노드에서 분당 최대 2000페이지를 처리할 수 있습니다. 문서를 빠르게 처리하는 능력은 높은 처리량이 필요한 환경에서도 지속적인 학습과 개선을 보장합니다.

 

5. Document-as-prompt 및 구조화된 출력

 Mistral OCR은 또한 문서를 프롬프트로 사용하는 기능을 도입하여 더 강력하고 정확한 지시를 가능하게 합니다. 이 기능을 통해 사용자는 문서에서 특정 정보를 추출하고 JSON과 같은 구조화된 출력 형식으로 포맷할 수 있습니다. 사용자는 추출된 출력을 다운스트림 함수 호출로 연결하고 에이전트를 구축할 수 있습니다.

 

6. 선택적 셀프 호스팅 가능

 엄격한 데이터 개인 정보 보호 요구 사항이 있는 조직을 위해 Mistral OCR은 셀프 호스팅 옵션을 제공합니다. 이를 통해 민감하거나 기밀 정보가 자체 인프라 내에서 안전하게 유지되어 규제 및 보안 표준을 준수할 수 있습니다.

 

Mistral OCR 사용 방법

 Mistral OCR 기능은 le Chat에서 무료로 사용해 볼 수 있습니다. API를 시도하려면 la Plateforme으로 이동하세요. Mistral은 피드백을 받고 싶어하며, 앞으로 모델이 계속 개선될 것으로 예상됩니다.

 Mistral OCR API인 mistral-ocr-latest는 1달러당 1000페이지를 처리할 수 있으며, 배치 추론을 사용하면 약 두 배의 페이지를 처리할 수 있습니다. API는 현재 개발자 제품군인 la Plateforme에서 사용 가능하며, 곧 Mistral의 클라우드 및 추론 파트너, 그리고 온프레미스에서도 사용 가능해질 예정입니다.

 

결론

 Mistral OCR은 뛰어난 정확도, 다국어 지원, 빠른 처리 속도를 자랑함에 따라 다양한 산업 분야에서 문서 처리의 효율성을 극대화하고 있습니다.