Hai documenti scansionati dai quali vuoi automatizzare l'estrazione di:
-
testo,
-
convertire scrittura manuale,
-
dati
Amazon Textract
Estrazione Dati da moduli
Estrazione dati da tabelle
Riconoscimento ottico dei caratteri
Amazon Textract utilizza il riconoscimento ottico dei caratteri (OCR) per rilevare automaticamente testo stampato, scrittura a mano e numeri in una scansione o nel rendering di un documento, come documenti legali o un libro scansionato.
Estrazione da moduli
È possibile individuare automaticamente coppie chiave-valore nelle immagini dei documenti e mantenere il contesto senza alcun intervento manuale. Una coppia chiave-valore è un set di elementi di dati collegati. Ad esempio, in un documento, il campo "First Name" (Nome) è la chiave e "Jane" il valore. Ciò permette di importare facilmente i dati estratti in un database o di utilizzarli come variabile in un'applicazione. Con le soluzioni OCR tradizionali, chiavi e valori vengono estratti come testo semplice e la loro relazione si perde a meno di non scrivere e mantenere regole a codifica fissa per ogni modulo.
Estrazione dalle tabelle
Amazon Textract preserva la composizione dei dati archiviati nelle tabelle durante l'estrazione. Ciò è utile per i documenti costituiti per la maggior parte da dati strutturati, come report finanziari o referti medici con tabelle in colonne e righe. È possibile caricare automaticamente i dati estratti su un database attraverso uno schema predefinito. Ad esempio, le righe di elementi numerici e quantità di un inventario manterranno la loro associazione, in modo che un'applicazione per la gestione degli inventari possa incrementare gli elementi totali in modo semplice.
Estrazione basata su query
Amazon Textract ti fornisce la flessibilità di specificare i dati che devi estrarre dai documenti utilizzando query. È possibile specificare le informazioni necessarie sotto forma di domande in linguaggio naturale (ad esempio, "Come si chiama il cliente?") e ricevere l'informazione esatta (ad esempio, "John Doe") come parte della risposta dell'API.
Non è necessario conoscere la struttura dei dati nel documento (tabella, modulo, campo implicato, dati annidati) o preoccuparsi delle variazioni tra versioni e formati dei documenti. Le query di Textract sono pre-addestrate su un'ampia varietà di documenti, tra cui buste paga, estratti conto, moduli W-2, moduli di richiesta di prestito, note ipotecarie, richieste di risarcimento e tessere sanitarie. La flessibilità fornita dalle query di Textract riduce la necessità di post-elaborazione, affidamento alle revisioni manuali dei dati estratti o addestramento di modelli di ML.
Riconoscimento della scrittura a mano
Molti documenti, come moduli di ricovero ospedaliero e domande di lavoro, includono sia testo manoscritto sia testo stampato. Amazon Textract può estrarre entrambi da documenti scritti in inglese con alti punteggi di affidabilità, a prescindere che il testo sia in forma libera o racchiuso in tabelle. I documenti possono anche contenere un misto di testo stampato e manoscritto.
Fatture, ricevute, DDT, ordini
Fatture e ricevute possono avere un'ampia gamma di layout, pertanto l'estrazione di dati manuale su larga scala è un processo lungo e difficile. Amazon Textract sfrutta il machine learning (ML) per capire il contesto di fatture e ricevute ed estrae automaticamente dati rilevanti, ad esempio nome del fornitore, numero della fattura, prezzi delle voci, importo totale e termini di pagamento.
Documenti d'identità
Amazon Textract sfrutta il machine learning (ML) per capire il contesto di documenti d'identità come passaporti e patenti di guida statunitensi senza la necessità di modelli o configurazione. È possibile estrarre automaticamente informazioni specifiche come data di scadenza e data di nascita oppure identificare ed estrarre in modo intelligente le informazioni implicite come il nome e l'indirizzo. Utilizzando Analyze ID, le aziende che forniscono servizi di verifica dei documenti d'identità e quelle che operano nei settori finanziario, sanitario e assicurativo possono facilmente automatizzare la creazione di account, la pianificazione di appuntamenti, le domande di lavoro e altro, permettendo ai clienti di inviare un'immagine o una scansione del proprio documento d'identità.
Soglie di affidabilità regolabili
Quando si estraggono informazioni dai documenti, Amazon Textract restituisce un punteggio di affidabilità per tutti gli elementi che identifica, così puoi prendere decisioni informate su come utilizzare i risultati. Ad esempio, se estrai informazioni da registri fiscali e desideri garantire una precisione elevata, puoi contrassegnare ogni voce con un punteggio di affidabilità inferiore al 95% in modo che venga rivista da una persona. È possibile impostare una soglia inferiore per altri documenti in cui gli errori avrebbero meno conseguenze negative, come nell'elaborazione di CV o nella digitalizzazione di registri archiviati.
Flusso di lavoro di revisione umana integrato
Amazon Textract è direttamente integrato con Amazon Augmented AI (A2I) e permette così di implementare facilmente la revisione umana di testo stampato e scrittura a mano estratti dai documenti. Molte applicazioni di estrazione di testo richiedono la revisione umana di previsioni a bassa affidabilità per garantire che i risultati siano corretti, ma la creazione di sistemi atti allo scopo può essere un processo lungo e dispendioso. Amazon A2I fornisce flussi di lavoro di revisione umana per consentirti di rivedere facilmente le previsioni. Scegli una soglia di affidabilità per la tua applicazione e tutte le previsioni con un'affidabilità inferiore a tale soglia verranno automaticamente sottoposte alla convalida di revisori umani.