--- up: "[[documents]]" source: "[[MADICS 2024]]" tags: "#s/informatique" --- - les [[documents textuels]] sont souvent utilisée (plus simples à générer, traiter, indexer) - problème : perte de # OCR - problèmes de bruit (images, background...) - ne prends souvent pas en compte le contexte (langue, type de document...) - noms propres (personnes, lieux) - homonymes et orthographes multiples