Trattamento anagrafiche e normalizzazione dei file
12.7.2020

Nel trattamento del record anagrafico, occorre rispettare la successione di tutta una serie di step, di seguito elencati.


Primo step: conversione dati su tracciato record standard e numerati in modo progressivo, in modo tale da facilitare le fasi successive.


Secondo step: NORMALIZZAZIONE

La normalizzazione è un programma standard di separazione dei campi composti. Nei caso di campi elementari infatti, chiaramente, non viene effettuata alcuna elaborazione (se si esclude la necessità o il desiderio di rinormalizzare i campi con le procedure utilizzate ad esempio da DM Group) e si passa allo step successivo.
Viceversa, per quanto concerne i campi composti, vengono separate le informazioni elementari, grazie ad un programma che riconosce all'interno del file qual è il campo |cognome|, |nome|, |titolo|, |indirizzo|, |n civico|. Ciò è possibile confrontando i dati in input con determinate tabelle chiamate MATRICI DI APPOGGIO, che riguardano:
a. Nomi (10.000 c.ca)
b. Titoli (500 c.ca)
c. Forme giuridiche (S.p.A., s.r.l., s.n.c.)
d. Parole "particolari" (2.000 c.ca, ad esempio nomi di aziende - Renault - o tipologie particolari di aziende - Acquedotto - ecc.)


Riassumendo, la normalizzazione separa esclusivamente:
a. il cognome dal nome
b. il titolo
c. il numero civico dalla denominazione urbanistica (il n° civico è reso il più corto possibile e la denominazione urbanistica non viene mai cambiata. Es. “v. Regina" rimarrà tale)
Inoltre, sempre in questo passaggio, vengono attribuiti:
a. un codice sesso ( in base al nome analizzato, se si tratta di un privato)
b. un codice per l'identificazione della natura giuridica, se si tratta di un'azienda.


Il problema della normalizzazione riguarda le cosiddette ANOMALIE.
I record in input possono infatti avere molteplici anomalie, tra le quali quelle più frequenti sono: spaziature non regolari, nome - cognome – titolo tutti insieme, dati non corretti, e così via. Generalmente la media di anomalie sui file trattati è del 2-3%, ma è questo un fattore che dipende moltissimo dalla qualità del Data Entry alla base. Il recupero anomalie è previsto, ma ha un costo e tempi lunghi, perchè viene comunque fatto a mano.


I vantaggi della normalizzazione sono:
- standardizzazione delle anomalie
- possibilità di attribuire il codice sesso e dunque di personalizzare i messaggi in modo corretto e differenziato
- preparare i dati per le successive fasi di elaborazione


Infine per quanto concerne la produttività, si può stimare attorno a circa 300.000 record per ora.


Terzo step: CLASSIFICAZIONE O CAPIFICAZIONE
Questa procedura permette di verificare l'esattezza delle informazioni dal punto di vista della postalizzazione. Per questo motivo, vengono utilizzati esclusivamente solo più i dati relativi al n° civico, alla via e alla località.
Lo scopo è infatti quello di attribuire:
a. Codice località, con base descrizione località
b. Codice strada, con base descrizione strada
c. CAP (attribuzione od eventuale correzione)
d. Sigla (attribuzione od eventuale correzione)


Perchè ciò possa accadere, anche nella fase di capificazione i dati sono confrontati con le matrici d'appoggio, concernenti le località (31.700), così suddivise:
- Città zonate (capoluoghi di provincia)
- Capoluoghi di provincia restanti
- Comuni amministrativi
- Frazioni sulla guida CAP
- Frazioni non presenti sulla guida CAP
- vie (14.000)


I vantaggi della capificazione sono:
- riconoscimento degli indirizzi non recapitabili e loro recupero
- riconoscimento degli indirizzi stranieri e loro eliminazione o accantonamento
- attribuzione corretta e standardizzata dei dati di recapito (via, CAP, località, sigla della provincia)


Infine per quanto concerne la produttività, essa è molto variabile a seconda della distribuzione geografica degli indirizzi (se si tratta di città zonate ad esempio la complessità dei dati è maggiore e la produttività diminuisce). Si va comunque da una quantità minima che, nel peggiore dei casi, è pari a 30.000 record per ora, ad una quantità massima di 500.000 record per ora.


Quarto step: DOBLONATURA
Con questa procedura si individuano quelle persone che hanno lo stesso cognome e abitano allo stesso indirizzo, di modo tale che emergano eventuali doppioni presenti nella lista o aggregazioni per nuclei familiari. Questa fase è molto importante ed è fortemente correlata alle esigenze di spedizione: a seconda che si desideri spedire a tutta la famiglia od al singolo infatti si può decidere per un'azione di deduplica, che consiste nell'eliminazione degli indirizzi doppi.
Questo programma determina l'attribuzione del codice indirizzo: a due nominativi che risiedono nella stessa località, stessa via, stesso n° civico, verrà assegnato uno stesso codice indirizzo. Per far ciò vengono esaminati il codice località, strada, il n° civico e il cognome. Se sono riconosciuti come identici, viene assegnato un codice indirizzo utilizzando il n° progressivo attribuito al record nella normalizzazione (ad esempio: il primo record ha il codice indirizzo UNO, il secondo record, che è diverso, ha il codice indirizzo DUE, il terzo record, uguale al primo, ha il codice indirizzo UNO, e così via).
A livello di privati, inoltre, il codice indirizzo ha significato di codice famiglia, che viene ulteriormente integrato (ma non sostituito), sempre tramite la suddetta dinamica, da un codice persona, che permette di effettuare una doblonatura a livello più specifico individuando veri e propri doppioni.


I vantaggi della doblonatura sono:
- possibilità di riconoscimento delle anagrafiche doppie e dei gruppi familiari evitando così sprechi di materiali, operatività e spese postali nelle azioni di direct marketing;
- possibilità di studiare i nominativi anche sotto variabili diverse da quelle anagrafiche.


Quinto step: POSTALIZZAZIONE
Sempre a livello di elaborazione dati è necessario ottimizzare "tempi" e "costi" grazie alla postalizzazione. Questa consiste nel predisporre il file affinché le successive operazioni relative allo smistamento postale siano facilitate e permettano l'ottenimento degli sconti previsti dalle normative.


E’ opportuno ad esempio :
- dividere i nominativi presenti nel file tra “città” e "fuori-città";
- effettuare la divisione per stradali (ne esistono nove);
- predisporre le quantità e i volumi per i pacchetti che successivamente verranno regalati;
- ogni pacco dovrà essere omogeneo per destinazione e dovrà essere prevista la costituzione della fascétta con sopra riportati CAP e stradali o miscellanee di CAP qualora non esista un numero sufficiente di nominativi appartenenti ad un unico CAP.


Sesta step: SPOOLING
E’ la realizzazione dei nastri da mandare in stampa contenenti i record ed i campi relativi ai nominativi e a tutto ciò che verrà stampato.
Le prime tecnologie prevedevano un record per ogni riga: questo significava che in presenza di 100.000 nominativi una lettera di 31 righe comportava la costituzione di 3.100.000 record di spool, senza distinguere tra dati variabili e non.
In seguito fu prevista la possibilità di suddividere la parte fissa da quella variabile caricando la prima una sola volta sull'hardware e definendo per la seconda il numero di record che cambiamo.
In una lettera contenente parti fisse e parti variabili perchè personalizzate, oggi è possibile "passare" tutti i diversi record, ma di ciascuno i soli dati contenuti nei campi variabili.
Inoltre, in presenza di tecnologie software sempre più avanzate, si può definire un solo record con tutti i dati variabili separati tra loro nei diversi campi con la possibilità, in fase di stampa, di fare gli opportuni accoppiamenti ed inserire tali dati nel testo lettera.


Per concludere, occorre sottolineare come e quanto questi step siano legati tra loro. Una buona e corretta normalizzazione infatti è assolutamente necessaria e fondamentale per una buona classificazione e per la doblonatura (basti pensare che in quest'ultima fase vengono considerati solo quei nomi per cui si è riusciti almeno a dare la località o, per la città zonata, la strada).
Avere un file anagrafico corretto è del resto sinonimo di efficienza, affidabilità, economicità ed immagine.
Informazioni correlate: http://www.mydatacleaning.com/