386 B
386 B
up:: documents source:: MADICS 2024 #informatique
- les documents textuels sont souvent utilisée (plus simples à générer, traiter, indexer)
- problème : perte de
OCR
- problèmes de bruit (images, background...)
- ne prends souvent pas en compte le contexte (langue, type de document...)
- noms propres (personnes, lieux)
- homonymes et orthographes multiples