ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε
έγγραφα από κάμερα
Δήμητρα Ν. Πάνου
Επιβλέποντες
Βασίλειος Γάτος, Ερευνητής ΕΚΕΦΕ Δημόκριτος
Σέργιος Θεοδωρίδης Καθηγητής ΕΚΠΑ
ΑΘΗΝΑ
ΝΟΕΜΒΡΙΟΣ 2016
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Δήμητρα Ν. Πάνου
Α.Μ.: 1115201000109
ΕΠΙΒΛΕΠΟΝΤΕΣ:
Βασίλειος Γάτος, Ερευνητής ΕΚΕΦΕ Δημόκριτος
Σέργιος Θεοδωρίδης Καθηγητής ΕΚΠΑ
ΠΕΡΙΛΗΨΗ
Στόχος της παρούσας πτυχιακής είναι η κατασκευή μιας εφαρμογής η οποία αφαιρεί το
περιθώριο και διορθώνει την παραμόρφωση των εγγράφων που έχουν ληφθεί από
κάμερα. Συγκεκριμένα, εφαρμόστηκαν και ελέγχθηκαν δύο μέθοδοι, η πρώτη βασίζεται
στον Ha is Co ne De ec ion και η δεύτερη στον μετασχηματισμό Ηough. Η πρώτη
μέθοδος βρίσκει τα όρια του εγγράφου ελέγχοντας τις γωνίες της εικόνας ενώ η δεύτερη
βρίσκει πρώτα τις ευθείες που σχηματίζονται από το περίγραμμα της εικόνας. Με βάση
τα πειραματικά αποτελέσματα χρησιμοποιήθηκε η καλύτερη μέθοδος καθώς και ο
καλύτερος συνδυασμός παραμέτρων σε ένα si e όπου είναι διαθέσιμη on-line η
συγκεκριμένη εφαρμογή.
ΘΕΜΑΤΙΚΗ ΠΕΡΙΟΧΗ: Επεξεργασία Εικόνας
ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: διόρθωση προοπτικής, αφαίρεση περιθωρίου, ανίχνευση ακμών,
ανίχνευση γωνιών
ABSTRACT
The goal o his bachelo hesis is he c ea ion o an applica ion ha ec i ies a documen ’s
pe spec i e dis o ion and emo es i s bo de s. The documen s used a e pic u es aken
by a came a. Speci ically, he implemen a ion o his applica ion uses wo me hods. One
me hod is based on Ha is co ne de ec ion algo i hm, while he o he one uses Hough
ans o ma ion. The i s me hod inds documen bounda ies by speci ying documen
co ne s, whe eas he second one de ec s he maximum edges ha make up he image’s
con ou . We compa e he wo me hods and show ha he me hod ha uses Hough
ans o ma ion appea s o be mo e e ec i e. Based on he expe imen s conduc ed using
each me hod, we ex ac ed he bes me hod and he mos e ec i e se s o pa ame e s
and used hem in he inal e sion o he applica ion.
SUBJECT AREA: Image P ocessing
KEYWORDS: pe spec i e co ec ion, bo de emo al, edge de ec ion, co ne de ec ion
Η παρούσα πτυχιακή είναι αφιερωμένη στην οικογένειά μου
ΕΥΧΑΡΙΣΤΙΕΣ
Θα ήθελα να ευχαριστήσω τον επιβλέποντα της πτυχιακής μου, κύριο Βασίλειο Γάτο για
το χρόνο που αφιέρωσε και την αφοσίωση που έδειξε στη σωστή καθοδήγησή μου και
για την ευκαιρία που μου έδωσε να ασχοληθώ με έναν ερευνητικό τομέα παρόλο που
ξεκινώντας δεν είχα όλο το απαραίτητο γνωστικό υπόβαθρο. Θα ήθελα επίσης να τον
ευχαριστήσω για την πίστη του στις δυνατότητές μου και για την πολύτιμη γνώση και
εμπειρία που απέκτησα κατά τη διάρκεια της συνεργασίας μας, η οποία θα επηρεάσει
σημαντικά την υπόλοιπη ακαδημαϊκή μου πορεία. Επίσης θα ήθελα να ευχαριστήσω όλη
την ομάδα του εργαστηρίου ,κυρίως τον Γιώργο Ρετσινά, για την καθοδήγηση και τις
πολύτιμες συμβουλές που βοήθησαν στην ολοκλήρωση της παρούσας πτυχιακής.
ΠΕΡΙΕΧΟΜΕΝΑ
ΠΡΟΛΟΓΟΣ .................................................................................................................. 15
1. ΕΙΣΑΓΩΓΗ ............................................................................................................. 16
2. ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ .................................................................................... 18
2.1 Βελτίωση ποιότητας εικόνας .............................................................................................................. 18
2.1.1 Μορφολογικά φίλτρα ................................................................................................................. 18
2.1.2 Dila ion ...................................................................................................................................... 18
2.1.3 E osion ...................................................................................................................................... 19
2.1.4 Opening ......................................................................................................................................... 19
2.1.5 Closing .......................................................................................................................................... 19
2.2 Εντοπισμός Ακμών ............................................................................................................................... 20
2.2.1 Sobel Ope a o .............................................................................................................................. 21
2.2.1 Canny edge de ec ion .................................................................................................................. 23
2.3 Εντοπισμός γωνιών με τον Αλγόριθμο Ha is ...................................................................................... 29
2.3 Εντοπισμός ευθειών ............................................................................................................................. 32
2.3.1 Hough T ans o m .......................................................................................................................... 33
2.4 Homog aphy ......................................................................................................................................... 38
3. ΤΕΧΝΙΚΕΣ ΔΙΟΡΘΩΣΗΣ ΠΡΟΟΠΤΙΚΗΣ ΚΑΙ ΑΦΑΙΡΕΣΗΣ ΠΕΡΙΘΩΡΙΟΥ .............. 40
3.1 Υπάρχουσες Τεχνικές ........................................................................................................................... 40
3.2 Μεθοδολογίες που χρησιμοποιούν την εύρεση των ορίων του εγγράφου ........................................... 41
3.2.1 Διόρθωση της προοπτικής παραμόρφωσης με τη χρήση του Ha is Co ne de ec o .... 42
3.2.2 Διόρθωση της προοπτικής παραμόρφωσης με τη χρήση του Hough T ans o m ............ 44
3.3 Μεθοδολογίες που χρησιμοποιούν τη διάταξη της σελίδας. ................................................................ 49
3.4 Μεθοδολογίες που χρησιμοποιούν ειδικές διορθώσεις περιεχομένου ................................................. 50
3.5 Εργαλεία και υπάρχουσες εφαρμογές ............................................................................................... 52
4. ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΜΕΘΟΔΟΙ ................................................................................. 55
4.1 Μέθοδος Ha is ..................................................................................................................................... 55
4.2 Μέθοδος Hough .................................................................................................................................... 63
4.3 Homog aphy ......................................................................................................................................... 73
5. ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ........................................................................... 76
5.1 E alua ion .......................................................................................................................... 76
6. ΥΛΟΠΟΙΗΣΗ ............................................................................................................. 89
6.1 Προγράμματα - Συναρτήσεις ................................................................................................................ 90
6.2 Web Εφαρμογή ................................................................................................................................... 98
6.2.1 Απαιτήσεις του συστήματος .............................................................................................................. 99
6.2.2 Ανάπτυξη ........................................................................................................................................... 99
7. ΣΥΜΠΕΡΑΣΜΑΤΑ ................................................................................................... 105
ΠΙΝΑΚΑΣ ΟΡΟΛΟΓΙΑΣ .............................................................................................. 107
ΣΥΝΤΜΗΣΕΙΣ – ΑΡΚΤΙΚΟΛΕΞΑ – ΑΚΡΩΝΥΜΙΑ ...................................................... 109
ΑΝΑΦΟΡΕΣ ................................................................................................................ 110
ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ
Σχήμα 1: Διάγραμμα ροής αλγορίθμου Ha is ............................................................... 57
Σχήμα 2: Διάγραμμα ροής μετασχηματισμού Hough ..................................................... 67
Σχήμα 3 : Διάγραμμα Classic Hough : Ανίχνευση τεσσάρων ολικών μεγίστων σε ποσοστά
ανοχής 5-20% ................................................................................................................ 83
Σχήμα 4: Διάγραμμα Hough_VP: Ανίχνευση τεσσάρων τοπικών μεγίστων σε ποσοστά
ανοχής 5-20% ................................................................................................................ 83
Σχήμα 5: Διάγραμμα μεθόδων Ha is σε ποσοστά ανοχής 5-20% ................................ 84
Σχήμα 6: Διάγραμμα Hough_Th : Ανίχνευση με h eshold ............................................. 84
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 16
1. ΕΙΣΑΓΩΓΗ
Τόσο στην κοινωνική ζωή όσο και στον εργασιακό τομέα γίνεται ολοένα και πιο επιτακτική
η ανάγκη για κοινή χρήση και διαμοίραση ψηφιακών εγγράφων. Άμεσος και εύκολος
τρόπος για την αποτύπωση ψηφιακών εγγράφων είναι οι φωτογραφίες. Σημαντικός
παράγοντας γι’ αυτό αποτελούν τα sma phones τα όποια δίνουν στον χρήστη την
ευκαιρία της ψηφιοποίησης των εγγράφων βάζοντας απλώς το έγγραφο κάτω από την
κάμερα του sma phone. Η ευκολία και απλότητα που προσφέρουν σα λύση καθώς και η
δυνατότητά τους να υποστηρίζουν τη λήψη και ψηφιοποίηση εγγράφων χάρη στα
χαρακτηριστικά της τεχνολογίας τους τα καθιστούν πρώτη επιλογή. Σήμερα παρατηρείται
όλο και πιο έντονο το φαινόμενο της χρήσης των κινητών συσκευών για την λήψη και
αποθήκευση εγγράφων σε σχέση με τη χρήση του scanne (σαρωτή). Σε αντίθεση όμως
με τα scanne , που χρησιμοποιούν την άμεση επαφή με το έγγραφο ώστε αυτό να
αντιγραφεί και να ψηφιοποιηθεί, οι σύγχρονες κάμερες εισάγουν νέους κινδύνους
παραμορφώσεων στο έγγραφο. Ο θόρυβος που προέρχεται από το φωτισμό, την ένταση
καθώς και το υπόβαθρο, η στρέβλωση της εικόνας, η καμπυλότητα είναι μερικά από τα
νέα προβλήματα που εισάγει η χρήση της κάμερας. Το πιο σημαντικό είναι η
παραμόρφωση της προοπτικής, το φαινόμενο κατά το οποίο το εικονιζόμενο αντικείμενο
παρουσιάζεται με αλλοιωμένες διαστάσεις λόγω της θέσης του παρατηρητή
φωτογράφου. Το πρόβλημα αυτό δεν μπορεί να λυθεί με απλές μορφές επεξεργασίας,
όπως περικοπή (cu ) και διόρθωση στροφής ( o a e), αλλά είναι απαραίτητη η xρήση
γεωμετρικών μετασχηματισμών για την επαναφορά της εικόνας στην αρχική της μορφή.
Στόχος αυτής της πτυχιακής είναι η μελέτη και εύρεση μεθόδων διόρθωσης της
λανθασμένης προοπτικής της εικόνας που προκύπτει λόγω της παραμόρφωσης των
φακών. Παρουσιάζονται διάφορες υπάρχουσες τεχνικές, δυο εκ των οποίων γίνεται
εκτενέστερη μελέτη και υλοποίηση.
Για να είναι ποιο εύκολη η κατανόηση και η αξιολόγηση της εργασίας από τον
αναγνώστη, έχει χωριστεί σε κεφάλαια. Το πρώτο κεφάλαιο, θα ξεκινήσει με μια σύντομη
εισαγωγή και θα κλείσει με μια γενική επισκόπηση στα ερευνητικά πεδία και στις
τεχνολογίες που συμμετέχουν στην εργασία.
Στο Δεύτερο κεφάλαιο, θα επεξηγηθούν έννοιες κλειδιά στην εργασία, όπως είναι το
στάδιο της προ επεξεργασίας της εικόνας και οι μέθοδοι βελτίωσης της ποιότητας. Στη
συνέχεια, θα αναλυθούν μέθοδοι εξαγωγής των χαρακτηριστικών της εικόνας ( eau u e
ex ac ion) όπως είναι η ανίχνευση γωνιών (co ne de ec ion), ευθειών (line de ec ion)
και ακμών (edge de ec ion). Στο κεφάλαιο αυτό παρουσιάζονται γνωστοί αλγόριθμοι της
επεξεργασίας εικόνας και αποτελεί ως θεωρητική βάση για την ανάπτυξη των επόμενων
κεφαλαίων. Στο τέλος του κεφαλαίου αυτού ο αναγνώστης πρέπει να είναι σε θέση να
κατανοεί τις βασικές έννοιες που χρησιμοποιούνται στην εργασία.
Στο τρίτο κεφάλαιο, θα αναφερθούμε σε υπάρχουσες μεθοδολογίες που λύνουν το
πρόβλημα της προοπτικής παραμόρφωσης και θα εστιάσουμε στην ανάπτυξη των δυο
μεθοδολογιών που χρησιμοποιήθηκαν. Θα δείξουμε πως χρησιμοποιούνται αλγόριθμοι
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 17
που ήδη αναφέρθηκαν στο δεύτερο κεφάλαιο και πώς μπορούν να συνδυαστούν για να
επιτευχθεί το επιθυμητό αποτέλεσμα.
Στο τέταρτο κεφάλαιο, θα επικεντρωθούμε σε κάποιες βελτιώσεις και παραλλαγές των
αναφερόμενων μεθοδολογιών για την καλύτερη αντιμετώπιση του προβλήματος και την
εξαγωγή εγκυρότερων αποτελεσμάτων. Για κάθε μέθοδο που χρησιμοποιήθηκε θα
περιγραφούν αναλυτικά όλα της τα στάδια και θα γίνει αναφορά όλων των επεκτάσεων
που χρειάστηκαν για την ανάπτυξη της τελικής υλοποίησης .
Στο πέμπτο κεφάλαιο, θα παρουσιαστούν τα πειραματικά αποτελέσματα της ανίχνευσης
και της κατηγοριοποίησης και θα αποτιμηθούν οι μέθοδοι που χρησιμοποιήθηκαν με την
παράθεση διαγραμμάτων.
Στο έκτο κεφάλαιο, θα γίνει ανάλυση της εφαρμογής. Το κεφάλαιο αυτό χωρίζεται σε δύο
βασικά μέρη. Το πρώτο, θα ασχοληθεί με τα προγράμματα που υλοποιήθηκαν για την
επεξεργασία της εικόνας, δηλαδή την ανίχνευση των γωνιών, την αφαίρεση του
περιθωρίου και τη διόρθωση της προοπτικής. Το δεύτερο μέρος, θα εστιάσει στην
εφαρμογή που υλοποιήθηκε με βάση τις παραπάνω τεχνικές και ο χρήστης μπορεί να
χρησιμοποιήσει ώστε να επιβεβαιώσει οπτικά την εγκυρότητα των μεθόδων.
Τέλος, το έβδομο κεφάλαιο θα αποτελέσει μια σύνοψη όσων μελετήθηκαν και θα
εξαχθούν συμπεράσματα με βάση τα αποτελέσματα που παρουσιάζονται στο πέμπτο
κεφάλαιο καθώς και για την όλη πορεία της συγκεκριμένης εργασίας.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 18
2. ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ
2.1 Βελτίωση ποιότητας εικόνας
2.1.1 Μορφολογικά φίλτρα
Η μαθηματική μορφολογία είναι ένα εργαλείο που συμβάλει στην επεξεργασία των
εικόνων για την εξαγωγή πληροφοριών και είναι χρήσιμη για τον προσδιορισμό του
περιγράμματος, την εύρεση ακμών του αντικειμένου, την βελτίωση της ανάλυσης, την
αφαίρεση θορύβων και την κατάτμηση της εικόνας [1]. Οι μορφολογικοί τελεστές είναι
μέθοδοι για την επεξεργασία δυαδικών ή g ayscale εικόνων βασισμένοι στη γεωμετρία
που παρουσιάζουν.
Οι δύο βασικότεροι τελεστές στη μαθηματική μορφολογία είναι η συστολή (e osion) και η
διαστολή (dila ion). Αυτές οι λειτουργίες συνήθως χρησιμοποιούνται ταυτόχρονα. Ο
τρόπος με τον οποίο λειτουργούν οι τελεστές είναι ο εξής: λαμβάνουν ως είσοδο
δεδομένων μια εικόνα και ένα δομικό στοιχείο και στην συνέχεια εφαρμόζουν στην εικόνα
ένα τελεστή και επιστρέφουν σαν έξοδο την επεξεργασμένη εικόνα η οποία έχει τις ίδιες
διαστάσεις με την αρχική.
Το δομικό στοιχείο το οποίο είναι βασικό μέρος των μορφολογικών τελεστών μπορεί να
είναι ακαθόριστου σχήματος. Συνήθως το μέγεθός του είναι 3x 3 και μπορεί να έχει τύπο
τετράγωνο, σταυρωτό ή ελλειψοειδές.
2.1.2 Dila ion
Το βασικό αποτέλεσμα αυτού του τελεστή σε μια δυαδική εικόνα είναι η σταδιακή
διεύρυνση των ορίων. Αυτό έχει ως αποτέλεσμα προσθήκη pixel στα όρια του
αντικειμένου με αποτέλεσμα να μεγαλώνει το μέγεθος του ενώ μικραίνουν οι τρύπες που
υπάρχουν στις περιοχές αυτές. Το δομικό στοιχείο καθορίζει επακριβώς την επίδραση
που θα έχει ο τελεστής διαστολής στην αρχική εικόνα που δίνουμε ως είσοδο ενώ το
μέγεθός του καθορίζει την περιοχή που θα εφαρμοστεί, επομένως και το μέγεθος της
διαστολής που θα υποστεί η εικόνα.
Ας υποθέσουμε ότι E είναι ο Ευκλείδειος χώρος, 𝛢 είναι το σύνολο των ευκλείδειων
συντεταγμένων που αντιστοιχούν στη δυαδική είσοδο της εικόνας, 𝛣 το σύνολο των
συντεταγμένων για το δομικό στοιχείο και 𝐵𝑧 είναι μια μεταφορά του 𝛣 έτσι ώστε η αρχή
του να είναι το 𝑧. Η διαστολή του 𝛢 από το 𝛣 ορίζεται το σύνολο όλων των σημείων 𝑧 της
τομής του 𝛣𝑧 με το 𝛢 όπου το 𝛢 είναι διάφορο του κενού. Η μαθηματική έκφραση της
διαστολής είναι η εξής: 𝐴⊕𝐵={ 𝑧∈𝐸|(𝐵𝑧)∩𝐴≠∅} (1)
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 19
2.1.3 E osion
Ο τελεστής της συστολής ή διάβρωσης είναι ο δεύτερος βασικός τελεστής και εμφανίζει
το αντίθετο αποτέλεσμα με τον προηγούμενο τελεστή. Διαβρώνει τα όρια που βρίσκονται
στο προσκήνιο και οδηγεί σε συρρίκνωση των pixel σε αυτές τις περιοχές ενώ μεγαλώνει
τις τρύπες. Το αποτέλεσμα του e osion είναι η λέπτυνση των ορίων του αντικειμένου έτσι
ώστε το αποτέλεσμα της εικόνας να είναι ποιοτικότερο. Και σε αυτήν την περίπτωση
εφαρμόζεται όπως στη διαστολή ένα δομικό στοιχείο που καθορίζει πόσο πρόκειται να
συσταλεί η εικόνα και με ποιον τρόπο. Μπορεί να χρησιμοποιηθεί για να διαχωρίσει
αντικείμενα και να αφαιρέσει μικρές προεξοχές. Με βάση τον παραπάνω μαθηματικό
τύπο, η συστολή του Α από το Β ορίζεται ως εξής:
𝐴⊖𝐵={ 𝑧∈𝐸|(𝐵𝑧)∩𝐴≠∅} (2)
Με τη χρήση των δυο τελεστών που ορίστηκαν, μπορούν να προκύψουν οι συνδυασμοί
τους opening και closing που ικανοποιούν διαφορετικά αιτήματα της προ -επεξεργασίας.
2.1.4 Opening
Προκύπτει από χρήση πρώτα του τελεστή e osion και ακολουθείται από dila ion. Το
βασικό αποτέλεσμα του opening είναι περίπου το ίδιο με του e osion χωρίς να έχει τον
ίδιο βαθμό διάβρωσης. Η επίδραση του τελεστή είναι να διατηρήσει στο προσκήνιο
περιοχές που έχουν παρόμοιο σχήμα με το δομικό στοιχείο ή περιοχές που περιέχουν εξ
ολοκλήρου το δομικό στοιχείο εξαλείφοντας όλες τις υπόλοιπες περιοχές του o eg ound
pixel. Επίσης, εξομαλύνει το περίγραμμα ενός αντικειμένου εξαλείφοντας τις προεξοχές
και σπάζοντας μικρά συνδεδεμένα τμήματα. Ο μαθηματικός τύπος του opening ορίζεται
ως εξής: 𝐴∘𝐵=(𝐴⊖𝐵)⊕𝐵 (3)
2.1.5 Closing
Πρόκειται για το αντίστροφο του opening, δηλαδή προκύπτει από χρήση πρώτα του
τελεστή dila ion και ακολουθείται από e osion. Ο τελεστής αυτός εξομαλύνει το
περίγραμμα ενός αντικειμένου συγχωνεύοντας τα στενά θραύσματα και
συμπληρώνοντας τις οπές. Ο μαθηματικός τύπος του closing ορίζεται ως εξής:
𝐴∙𝐵=(𝐴⊕𝐵)⊝𝐵 (4)
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 20
2.2 Εντοπισμός Ακμών
Ως ακμές, ορίζουμε τις θέσεις σε μια εικόνα οι οποίες αντιστοιχούν στα όρια του
αντικειμένου που απεικονίζεται, δηλαδή το περίγραμμά του. Σε μια ασπρόμαυρη εικόνα
ο όρος ακμές, αναφέρεται σε αλλαγές που παρουσιάζει η εικόνα ως προς την
φωτεινότητα και την ένταση μεταξύ των γειτονικών περιοχών της. Οι αλλαγές αυτές,
συνήθως αντιστοιχούν σε διαφοροποίηση ιδιοτήτων της απεικόνισης τρισδιάστατων
αντικειμένων, όπως αλλαγές της υφής, του βάθους, των ορίων των αντικειμένων, το
διαφορετικό φωτισμό και την αντανάκλαση. Επομένως, η ανίχνευση ακμών αναφέρεται
στη διαδικασία αναγνώρισης και εντοπισμού απότομων αλλαγών στην ένταση των pixel
(ασυνέχειες) που χαρακτηρίζουν τα όρια των αντικειμένων σε μια σκηνή.
Η ανίχνευση των ορίων ενός εγγράφου και των χαρακτηριστικών του είναι πολύ
σημαντική για την επεξεργασία του εγγράφου και την ορθή αναγνώριση του κειμένου. Ο
εντοπισμός ακμών αποτελεί την βάση για μετέπειτα επεξεργασία μιας εικόνας γι’ αυτό
πρέπει να δίνει αξιόπιστα αποτελέσματα και να υλοποιείται αποδοτικά. Ωστόσο, ο
εντοπισμός των ακμών μιας εικόνας παρουσιάζει αρκετές δυσκολίες λόγω των
δυσδιάκριτων αλλαγών στην φωτεινότητα της καθώς και της παρουσίας θορύβου που
μπορεί να προέρχεται από διαφορετικό φωτισμό και σκίαση. Όλα αυτά μπορούν να
οδηγήσουν στην ανίχνευση εσφαλμένων ακμών αλλοιώνοντας τα όρια των αντικειμένων
Κλασικές μέθοδοι ανίχνευσης ακμών [15] – [17] περιλαμβάνουν συνέλιξη της εικόνας με
έναν τελεστή (ένα φίλτρο 2-D), ο οποίος είναι κατασκευασμένος να είναι ευαίσθητος σε
εικόνες με μεγάλες κλίσεις, ενώ επιστρέφει τιμές του μηδενός σε ομοιόμορφες περιοχές.
Υπάρχει ένας εξαιρετικά μεγάλος αριθμός τελεστών εύρεσης ακμών, καθένας
σχεδιασμένος με διαφορετική ευαισθησία ανάλογα με τον τύπο ακμών. Μεταβλητές που
εμπλέκονται στην επιλογή κάθε τελεστή περιλαμβάνουν τον προσανατολισμό των
ακμών, τη δομή τους καθώς και το περιβάλλον θορύβου. Κάθε τελεστής έχει τη δική του
γεωμετρία που προδίδει μια χαρακτηριστική κατεύθυνση στην οποία είναι πιο ευαίσθητος
στην ανίχνευση. Οι τελεστές μπορούν να διαμορφωθούν ώστε να εντοπίζουν μόνο
οριζόντιες, κάθετες, ή διαγώνιες ακμές.
Υπάρχουν πολλοί τρόποι για να διεκπεραιωθεί η ανίχνευση ακμών. Εν τούτοις, η
πλειοψηφία των διαφόρων μεθόδων μπορεί να χωριστεί σε δυο κατηγορίες, αυτή της
βαθμωτής μεταβολής (g adien ) και του Laplace. Η μέθοδος της βαθμωτής μεταβολής,
ανιχνεύει τις ακμές εντοπίζοντας το μέγιστο και το ελάχιστο της πρώτης παραγώγου της
εικόνας.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 21
2.2.1 Sobel Ope a o
Ο τελεστής Sobel [3] χρησιμοποιείται στην επεξεργασία εικόνας, κυρίως στους
αλγόριθμους ανίχνευσης ακμών. Είναι ένας διακριτός τελεστής διαφοροποίησης που
υπολογίζει μια προσέγγιση της κλίσης της συνάρτησης έντασης της εικόνας. Σε κάθε
σημείο της εικόνας, το αποτέλεσμα του τελεστή Sobel είναι είτε το αντίστοιχο διάνυσμα
κλίσης, είτε το μέτρο του διανύσματος. Η μέθοδος του τελεστή Sobel βασίζεται στη
συνέλιξη της εικόνας με ένα μικρό, διαχωριστικό φίλτρο ακέραιων τιμών στην οριζόντια
και κάθετη κατεύθυνση.
Σχεδίαση φίλτρου Sobel
Οι περισσότερες μέθοδοι ανίχνευσης ακμών λειτουργούν υπό την υπόθεση ότι μια ακμή
θα εντοπίζεται σε σημεία ασυνέχειας στη συνάρτηση συχνότητας ή μεγάλης μεταβολής
στην ένταση μεταξύ γειτονικών pixel που υπολογίζεται μέσω της κλίσης (g adien ) [3] [4].
Με βάση αυτή την υπόθεση, αν υπολογίσουμε το g adien της έντασης σε όλη την εικόνα
και βρούμε τα σημεία στα οποία μεγιστοποιείται, τότε θεωρητικά βρίσκουμε την ακμή. Η
μεταβολή της εξομάλυνσης της εικόνας παρουσιάζεται ως είναι ένα διάνυσμα του οποίου
τα στοιχεία δείχνουν πόσο γρήγορα αλλάζουν οι τιμές των pixel με την απόσταση στις
δύο κατευθύνσεις. Έτσι, τα στοιχεία του διανύσματος μπορούν να βρεθούν
χρησιμοποιώντας την ακόλουθη προσέγγιση:
𝜕𝑓(𝑥,𝑦)=𝛥𝑥=𝑓(𝑥+𝑑𝑥,𝑦)−𝑓(𝑥,𝑦)
𝑑𝑥 (5)
𝑑𝑓(𝑥,𝑦)
𝑑𝑦 =𝛥𝑦=𝑓(𝑥,𝑦+𝑑𝑦)−𝑓(𝑥,𝑦)
𝑑𝑦 (6)
όπου 𝑑𝑥 και 𝑑𝑦 δείχνουν την απόσταση στη κατεύθυνση 𝑥 και 𝑦 αντίστοιχα. Σε διακριτές
εικόνες, μπορούμε να σκεφτόμαστε τα 𝑑𝑥 και 𝑑𝑦 ως τον αριθμό των pixel ανάμεσα σε δύο
σημεία. 𝑑𝑥=𝑑𝑦=1 είναι το σημείο με συντεταγμένες pixel (𝑖,𝑗) και έτσι :
∆𝜒=𝑓(𝑖+1,𝑗)−𝑓(𝑖,𝑗) (7)
∆𝑦=𝑓(𝑖,𝑗+1)−𝑓(𝑖,𝑗) (8)
Για να μπορέσουμε να ανιχνεύσουμε την ύπαρξη ασυνέχειας της συχνότητας, μπορούμε
να υπολογίσουμε την αλλαγή της κλίσης στο (𝑖,𝑗). Αυτό μπορεί να γίνει βρίσκοντας το
ακόλουθο μέτρο μεγέθους: 𝑀=√(∆𝑥)2+(∆𝑦)2 (9)
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 22
και η κατεύθυνση της θ δίνεται από τον τύπο:
𝜃=𝑎𝑟𝑐𝑡𝑎𝑛(∆𝑦
∆𝑥) (10)
Ο τελεστής Sobel είναι ένα παράδειγμα σχεδίασης φίλτρου με τη μέθοδο εύρεσης
g adien . Είναι ένας διακριτός τελεστής διαφοροποίησης που υπολογίζει μια προσέγγιση
της κλίσης της συνάρτησης έντασης της εικόνας. Οι διαφορετικοί τελεστές στις εξισώσεις
(19) και (20) αντιστοιχούν στην συνέλιξη της εικόνας με τις ακόλουθες μάσκες:
∆𝑥=[−1 1
0 0],∆𝑦=[−1 0
1 0]
i. Στη συνέχεια τα βήματα είναι : Η πάνω αριστερή γωνία της αντίστοιχης μάσκας
εφαρμόζεται πάνω σε κάθε pixel της εικόνας
ii. Υπολογίζεται μια τιμή για το ∆𝑥 ή ∆𝑦 χρησιμοποιώντας τους συντελεστές της
μάσκας σε ένα άθροισμα με βάρη της τιμής των pixel (𝜄,𝑗) και των γειτονικών.
iii. Αντί να βρίσκουμε προσεγγιστικά τα g adien στις κατευθύνσεις 𝑥 και 𝑦, η
προσέγγιση των στοιχείων της κλίσης μπορεί να γίνει στις κατευθύνσεις 45ο και
135ο από τους αντίστοιχους άξονες.
Το μέγεθος της μάσκας καθορίζει τις αποστάσεις μεταξύ δύο γειτονικών ακμών και τη
λεπτομέρεια ανίχνευσής τους. Οι μάσκες που αναφέρθηκαν παραπάνω είναι κάπως
μικρές και μπορεί να θεωρηθούν ακατάλληλες. Ωστόσο, η χρήση μιας μεγάλης μάσκας
παρουσιάζει το πλεονέκτημα της μείωσης των λαθών λόγω θορύβου, παίρνοντας ένα
τοπικό μέσο στην γειτονιά που ορίζει το μέγεθος της. Από την άλλη, με τη χρήση μιας
μάσκας περιττού μεγέθους δίνεται περισσότερο βάρος στο κεντρικό pixel και
επιτυγχάνεται καλύτερη εκτίμηση που βασίζεται σε αυτό.
Παρακάτω παρουσιάζονται οι μάσκες του τελεστή ακμών Sobel:
∆𝑥=[−1 0 1
−2 0 2
−1 0 1],∆𝑦=[121
000
−1 −2 −1]
Ο τελεστής υπολογίζει την κλίση της έντασης της εικόνας σε κάθε σημείο, δίνοντας την
κατεύθυνση της μεγαλύτερης δυνατής αύξησης από ανοιχτό σε σκούρο και τον ρυθμό
αλλαγής στην κατεύθυνση αυτή. Έτσι, το αποτέλεσμα δείχνει πόσο ‘απότομα’ ή ‘ήπια’
Εικόνα 1: sobel φίλτρο ως προς x και y κατεύθυση
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 23
αλλάζει η ένταση της εικόνας στο σημείο αυτό και πόσο πιθανό είναι το κομμάτι αυτό της
εικόνας να αντιστοιχεί σε μια ακμή, καθώς και την πιθανότητά αυτή η ακμή να είναι
προσανατολισμένη. Πρακτικά, ο υπολογισμός του μέτρου g adien είναι πιο αξιόπιστος
και εύκολος από τον υπολογισμό κατεύθυνσης. Μαθηματικά, η κλίση μιας συνάρτησης
δύο μεταβλητών (συνάρτησης έντασης εικόνας) σε κάθε εικόνα είναι ένα δισδιάστατο
διάνυσμα με στοιχεία που δίνονται από τις παραγώγους στην οριζόντια και στην κάθετη
διεύθυνση. Σε κάθε σημείο, το διάνυσμα κλίσης δείχνει προς την κατεύθυνση της
μεγαλύτερης δυνατής αύξησης, και το μέγεθος του διανύσματος κλίσης αντιστοιχεί στον
ρυθμό μεταβολής εκείνης της κατεύθυνσης. Αυτό σημαίνει ότι το αποτέλεσμα του τελεστή
Sobel σε κάποιο σημείο που βρίσκεται σε μια περιοχή συνεχής έντασης της εικόνας είναι
το μηδενικό διάνυσμα και σε κάποιο σημείο σε μια ακμή είναι ένα διάνυσμα που δείχνει
πάνω από την ακμή, από σκούρες σε πιο φωτεινές τιμές.
Ο τελεστής Sobel, εστιάζει σε περιοχές υψηλής χωρικής συχνότητας οι οποίες
αντιστοιχούν σε ακμές. Η μέθοδος αυτή υπολογίζει την απόκλιση της έντασης σε κάθε
pixel και ως αποτέλεσμα βγάζει την πιο πιθανή μέγιστη αύξηση από τις πιο φωτεινές
περιοχές στις σκουρόχρωμες καθώς και τη μεταβολή αυτής. Παρουσιάζει δηλαδή τη
μεταβολή της εξομάλυνσης της εικόνας, μεταβολή για το κάθε pixel (g ay le el alue), γι'
αυτό και τα σημεία με τη μεγαλύτερη μεταβολή έχουν τη μεγαλύτερη πιθανότητα να είναι
ακμές.
Τα βασικά πλεονεκτήματα του τελεστή Sobel βρίσκονται στην απλότητά του και στο
γεγονός ότι μπορεί να ανιχνεύσει ακμές και προσανατολισμούς ακμών εύκολα λόγω της
προσέγγισης του μεγέθους της κλίσης. Ωστόσο, ένα μειονέκτημα είναι ευαισθησία που
παρουσιάζει στο θόρυβο. Το μέγεθος των ακμών θα υποβιβαστεί όσο αυξάνεται το
επίπεδο θορύβου στην εικόνα και αυτό έχει ως αποτέλεσμα να χάνεται η ακρίβεια του
τελεστή Sobel όσο μειώνεται το μέγεθος των ακμών. Γενικά, η μέθοδος Sobel δεν μπορεί
να παράγει ακριβή ανίχνευση ακμών με λεπτές και λείες ακμές.
2.2.1 Canny edge de ec ion
Η ανίχνευση ακμών αποσκοπεί στο να μειώσει σημαντικά την ποσότητα των δεδομένων
μίας εικόνας διατηρώντας παράλληλα τις δομικές της ιδιότητες που είναι αναγκαίες για
την περαιτέρω επεξεργασία της. Πολλοί αλγόριθμοι έχουν αναπτυχθεί και ένας από τους
σημαντικότερους είναι ο αλγόριθμος Canny που αναπτύχθηκε από τον JohnF. Canny το
1986 [4]. Παρόλο που είναι αρκετά παλιός αλγόριθμος, έχει γίνει ένας από τους
πρότυπους αλγορίθμους για την ανίχνευση ακμών και χρησιμοποιείται ακόμα στον τομέα
της έρευνας. Ο στόχος του JFC ήταν να αναπτύξει έναν βέλτιστο αλγόριθμο ως προς τα
παρακάτω κριτήρια:
Ανίχνευση: Πρώτο κριτήριο αποτελεί η ελαχιστοποίηση του σφάλματος. Η πιθανότητα
ανίχνευσης πραγματικών ακμών θα πρέπει να μεγιστοποιηθεί ενώ ταυτόχρονα να
ελαχιστοποιηθεί η λανθασμένη ανίχνευση σημείων που δεν αποτελούν ακμές. Αυτό
ουσιαστικά αντιστοιχεί σε μεγιστοποίηση του λόγου σήματος προς θόρυβο.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 24
Εντοπισμός: Δεύτερο κριτήριο είναι οι σωστή τοποθέτηση των ακμών. Οι ακμές που
προκύπτουν από την αναζήτηση θα πρέπει να είναι όσο το δυνατόν πιο κοντά στις
πραγματικές ακμές.
Αριθμός ανταποκρίσεων: Μια πραγματική ακμή δεν θα πρέπει να βρεθεί σε
περισσότερες από μία ανιχνευμένες ακμές ( Περιλαμβάνεται και στην πρώτη απαίτηση)
Αλγόριθμος Canny Edge de ec ion
Smoo hing : Εξομάλυνση της εικόνας ώστε να μειωθεί ο θόρυβος
Finding g adien s: Οι ακμές γίνονται εντονότερες εκεί όπου η κλίση γίνεται
μεγαλύτερη
Non-maxima supp ession: Μόνο τα μέγιστα μπορούν να σημειωθούν ως ακμές
Double h esholding : Οι σημαντικές ακμές επιλέγονται με βάση ένα πάνω και ένα
κάτω όριο
Edge acking by hys e esis: Οι τελικές ακμές καθορίζονται από την αφαίρεση
όλων των ακμών που δε συνδέονται σε μια συγκεκριμένη ακμή (s ong edge)
Περιγραφή του κάθε βήματος :
Smoo hing
Ο θόρυβος που υπάρχει στις εικόνες στις οποίες η λήψη έγινε με τη χρήση κάμερας είναι
αναπόφευκτος Για να μην υπάρχουν λανθασμένες ακμές αυτός ο θόρυβος πρέπει να
αφαιρεθεί. Για τον λόγο αυτό η εικόνα πρώτα εξομαλύνεται χρησιμοποιώντας ένα
Gaussian φίλτρο. Ο πυρήνας ενός Gaussian φίλτρου με τυπική απόκλισης 𝜎, είναι ένας
πίνακας με σταυρωτά στοιχεία ώστε τα μεγαλύτερα βάρη να γειτονεύουν με το κεντρικό
pixel όπως φαίνεται στο παράδειγμα:
𝛣= 1
159∙
(
2 4 5 4 2
4 9 12 9 4
512 15 12 5
4 9 12 9 4
2 4 5 4 2
)
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 25
Finding G adien s
O αλγόριθμος Canny βρίσκει ακμές όπου η g ayscale ένταση της εικόνας εμφανίζει τη
μεγαλύτερη αλλαγή. Αυτές οι περιοχές βρίσκονται υπολογίζοντας τις παραγώγους της
εικόνας. Η παράγωγος του κάθε pixel στην εικόνα που έχει εξομαλυνθεί θα
προσδιορίζεται εφαρμόζοντας τον τελεστή Sobel [3]. Το πρώτο βήμα είναι η σύγκλιση της
παραγώγου στην x και y διεύθυνση αντίστοιχα από την εφαρμογή των πυρήνων που
φαίνεται στην παρακάτω εξίσωση:
𝛫𝐺𝑥=(−1 0 1
−2 0 2
−1 0 1)
𝛫𝐺𝑦=(1 2 1
0 0 0
−1 −2 −1)
Το μέτρο του ολικού g adien υπολογίζεται από τα Gx, Gy σαν το μέτρο της απόστασης
τους όπως φαίνεται παρακάτω. Πολλές φορές απλοποιείται εφαρμόζοντας για μέτρο την
απόσταση Manha an ώστε να περιοριστεί η πολυπλοκότητα.
|𝐺|=√𝐺𝑥2+𝐺𝑦2
|𝐺|=|𝐺𝑥|+|𝐺𝑦|
Εικόνα 2: Αρχική εικόνα
Εικόνα 3: Gaussian blu
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 32
2.3 Εντοπισμός ευθειών
Όταν μια εικόνα θα υποστεί επεξεργασία και θα περάσει από διαφορετικές περιοχές της
ανάλυσης εικόνων όπως αναγνώριση αντικειμένων, είναι σημαντική η μείωση των
δεδομένων διατηρώντας τα σημαντικά χαρακτηριστικά της και τη δομική της πληροφορία.
Τεχνικές ανίχνευσης ακμών καθιστούν δυνατή τη μείωση ενός ποσοστού δεδομένων. Εάν
γραμμές, ελλείψεις και άλλες γεωμετρικές πληροφορίες μπορούσαν να προσδιοριστούν
μέσω συγκεκριμένων μαθηματικών σχέσεων η ποσότητα δεδομένων θα περιοριζόταν
ακόμα περισσότερο. Αυτός ήταν και ο λόγος του σχεδιασμού του μετασχηματισμού
Hough [8] [9] από τους Richa d Duda και Pe e Ha το 1972 [7], οποίος αρχικά
σχεδιάστηκε για την αναγνώριση των περισσότερων πιθανών γραμμών σε μια εικόνα.
Ωστόσο, ο συνδυασμός γραμμών μπορεί να προσεγγίσει πολλά άλλα σχήματα και έτσι η
χρήση του μετασχηματισμού Hough έχει γενικευτεί στην ανίχνευση αντικειμένων
καθιστώντας τον μια από τις πιο διαδεδομένες τεχνικές εντοπισμού ορίων σε περιοχές.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 33
2.3.1 Hough T ans o m
Ευθείες στον Hough Χώρο
Κάθε ευθεία σε μια 2D εικόνα μπορεί να περιγραφεί μοναδικά από δυο παραμέτρους α
και β όπως παρουσιάζεται στην εξίσωση 16.
𝑦 = 𝑎𝑥+𝑏 (16)
όπου (𝑥,𝑦) είναι ένα σημείο του χώρου της εικόνας.
Κάθε ευθεία στον δυσδιάστατο χώρο της εικόνας μπορεί να περιγραφεί μέσω ενός
σημείου (𝛼,𝑏) στον χώρο του Hough όπου
𝑏 = −𝛼𝑥 + 𝑦 (17)
Αυτή η μορφή δεν εξυπηρετεί την αναπαράσταση κάθετων ευθειών. Γι' αυτό το λόγο αντί
να γίνεται η χρήση των παραπάνω ευθειών χρησιμοποιούνται οι πολικές συντεταγμένες.
Χρησιμοποιούνται δυο παράμετροι, 𝜃 και 𝑟, για να περιγραφούν οι ευθείες στο χώρο,
όπου 𝜃 είναι κλίση της ευθείας και 𝑟 η απόσταση από τον άξονα αντίστοιχα. Κάθε σημείο
στον χώρο (𝑥,𝑦) αντιστοιχίζεται σε σημεία της καμπύλης 𝑥𝑖𝑐𝑜𝑠𝜃+ 𝑦𝑖𝑐𝑜𝑠𝜃 = 𝑟 στον
Hough χώρο (Εικόνα 13). 𝑟=𝑥𝑐𝑜𝑠𝜃+𝑦𝑠𝑖𝑛𝜃 (18)
𝑦= −𝑐𝑜𝑠𝜃
𝑠𝑖𝑛𝜃𝑥+𝑟
𝑠𝑖𝑛𝜃 (19)
Όλες οι γραμμές μπορούν να περιγραφούν με αυτή τη μορφή για 𝜃 [0 ,180] και 𝑟 ∈ℝ.
Επομένως, στον Hough χώρο κάθε γραμμή περιγράφεται από μόνο ένα σημείο
συναρτήσει ενός μοναδικού σετ παραμέτρων (𝜃𝜊,𝑟𝑜). Η αντιστοιχία του κάθε σημείου
φαίνεται στην Εικόνα 11.
Εικόνα 11: Αντιστοίχηση μιας μοναδικής γραμμής σε ένα σημείο στον Hough
χώρο
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 34
Η κύρια ιδέα του μετασχηματισμού Hough [7], είναι η αντιστοίχηση ενός σημείου σε
πολλές ευθείες . Από ένα σημείο περνάνε άπειρες ευθείες και κάθε ευθεία αναπαρίσταται
στον Hough χώρο ως ένα σημείο (𝜃𝜊,𝑟𝑜). Επομένως, η μετατροπή της κάθε ευθείας σε
σημείο του χώρου Hough δημιουργεί μια νέα ευθεία που θα περιγράφει το αρχικό σημείο.
Δηλαδή, ένα σημείο στον Ευκλείδειο χώρο αποτελεί μια ευθεία στον Hough χώρο όπως
εμφανίζεται στην παρακάτω εικόνα (Εικόνα 12)
Οι τεχνικές ανίχνευσης ακμών διακρίνονται στις τοπικές οι οποίες χρησιμοποιούν
πληροφορία σε μια γειτονιά της εικόνας και τις καθολικές που χρησιμοποιούν όλη την
πληροφορία της εικόνας.
Αλγόριθμος
Ο αλγόριθμος που ανιχνεύει ευθείες γραμμές μπορεί να χωριστεί στα παρακάτω βήματα:
Βήμα 1 : Εύρεση των ακμών χρησιμοποιώντας ανιχνευτή ακμών π.χ. Canny [2]
Βήμα 2 : Χαρτογράφηση των ακμών στο χώρο Hough και αποθήκευση σε πίνακες
συσσώρευσης.
Βήμα 3 : Ερμηνεία του συσσωρευτή να αποδώσει γραμμές απείρου μήκους. Η
ερμηνεία γίνεται από κατωφλίωση και ενδεχομένως και άλλους περιορισμούς
Βήμα 4 : Μετατροπή των γραμμών που εκτείνονται μέχρι το άπειρο σε πεπερασμένες
γραμμές.
Μετασχηματισμός στο χώρο του Hough
Ο μετασχηματισμός Hough παίρνει ως είσοδο ένα δυαδικό χάρτη ακμών και επιχειρεί να
εντοπίσει ακμές που έχουν τοποθετηθεί σαν ευθείες γραμμές. Η βασική ιδέα του
Εικόνα 12: Αντιστοίχηση κάθε σημείου σε μια ευθεία και την ευθεία που διέρχεται
ως το σημείο τομείς στον Hough χώρο
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 35
μετασχηματισμού Hough είναι ότι κάθε ακμή στον χάρτη ακμών έχει μετασχηματιστεί σε
κάθε πιθανή γραμμή που θα μπορούσε να περάσει από αυτό το σημείο.
Εικόνα 13: Η ευθεία που διέρχεται από δύο σημεία στον Ευκλείδειο χώρο είναι το σημείο
που τέμνονται οι ευθείες των σημείων στο χώρο Hough
Ένας τυπικός χάρτης ακμών περιλαμβάνει πολλά σημεία όμως η αρχή για την ανίχνευση
γραμμών είναι η εξής: Κάθε ακμή μετατρέπεται σε γραμμή στο χώρο του Hough και
περιοχές όπου οι περισσότερες γραμμές στο χώρο Hough τέμνονται ονομάζονται
αληθινές γραμμές στον χάρτη ακμών.
Πίνακας συσσώρευσης Hough
Για να ορίσουμε τις περιοχές όπου οι περισσότερες γραμμές στο χώρο Hough τέμνονται
χρησιμοποιούμε έναν πίνακα συσσώρευσης (accumula o ), ο οποίος καλύπτει όλο τον
Hough χώρο. Όταν μια ακμή μετασχηματίζεται, οι θέσεις του πίνακα αυξάνονται για όλες
τις γραμμές που μπορούν να περάσουν από αυτό το σημείο. Η ανάλυση του συσσωρευτή
ορίζει την ακρίβεια με την οποία μπορούν να ανιχνευθούν οι γραμμές. Οι μεταβλητές 𝑟
και 𝜃 χρησιμοποιούνται για να ορίσουν ένα pixel και μία μοίρα αντίστοιχα. Σε γενικές
γραμμές, ο αριθμός διαστάσεων του πίνακα συσσώρευσης αντιστοιχεί στον αριθμό των
αγνώστων παραμέτρων στο πρόβλημα του μετασχηματισμού Hough. Έτσι για μια
έλλειψη, απαιτείται ένας πενταδιάστατος χώρος ( οι συντεταγμένες του κέντρου, το μήκος
των κύριων και δευτερευόντων αξόνων και η γωνία τους). Για γραμμές δύο διαστάσεων
αρκούν οι μεταβλητές και θ. Γι’ αυτό το λόγο, είναι δυνατή η απεικόνιση του
περιεχομένου του συσσωρευτή. Κάθε κελί του πίνακα συσσώρευσης είναι ένα ζεύγος
(𝑟,𝜃) που περιγράφει μια ευθεία η οποία μπορεί να τέμνει πολλά σημεία της εικόνας . Για
να αποφύγει η ο αλγόριθμος Hough τα ανεπιθύμητα αποτελέσματα, χρησιμοποιεί ένα
σύστημα ψήφων. Έτσι, κάθε φορά που μια γραμμή περνάει από ένα κελί, η τιμή του
κελιού αυτού αυξάνεται κατά μια μονάδα. Έπειτα από όλο τον υπολογισμό για κάθε κελί
του πίνακα συσσώρευσης, καταλήγουμε με μια συσσωρευμένη εικόνα όπου σημεία
δίνουν ψήφους σε σημεία.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 36
Ανίχνευση γραμμών στο άπειρο:
Ένα παράδειγμα ανίχνευσης ευθειών και μετατροπή τους σε πεπερασμένες ακμές
φαίνεται στην Εικόνα 15.
Ο πιο βασικός τρόπος για να ανιχνευθούν είναι να τεθεί ένα κάτω όριο και να θεωρηθούν
όλες οι γραμμές του πίνακα συσσώρευσης ως ακμές αν βρίσκονται πάνω από το όριο
που έχει οριστεί. Το όριο θα μπορούσε να είναι το 30% των μεγαλύτερων τιμών του
συλλέκτη (accumula o ). Αυτή η προσέγγιση κάποιες στιγμές αρκεί, όμως σε πολλές
περιπτώσεις πρέπει να εφαρμόζονται επιπλέον περιορισμοί. Για αρκετές εισόδους του
πίνακα συσσώρευσης τα κελιά γύρω από μια πραγματική γραμμή θα παίρνουν μεγάλες
τιμές. Κατά συνέπεια, ένα απλό άνω όριο έχει την τάση να ανιχνεύει διάφορες γραμμές
(σχεδόν ίδιες) για κάθε πραγματική γραμμή. Για να αποφευχθεί αυτό παίρνονται ως τιμές
τα τοπικά μέγιστα μέσα σε μια γειτονιά (supp ession neighbo hood) έτσι ώστε να
αποφευχθεί να εντοπιστούν γειτονικές γραμμές και οι δύο αυτές γραμμές να έχουν
σημαντικές διαφορές πριν εντοπιστούν.
Εικόνα 14: Δεξιά η αρχική εικόνα σε g ayscale, αριστερά η εικόνα μετά από εφαρμογή του
αλγρίθμου Canny
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 37
Εικόνα 15: Δεξιά η ανίχνευση ευθειών και αριστερά η μετατροπή τους σε πεπερασμένες
Ο τρόπος που γίνεται η κβάντιση του πίνακα συσσώρευσης για τα 𝑟 και τα 𝜃 καθώς και
το σύστημα ψήφου που θεωρούμε, μπορεί να επηρεάσει σημαντικά τα αποτελέσματα της
τελικής εικόνας. Αν για κάθε pixel που περνάει η ευθεία αυξάνουμε κάθε κελί του
accumula o κατά μια μονάδα, δίνουμε αυτομάτως την ίδια βαρύτητα σε όλες τις ευθείες
αρκεί να περνάνε ακόμα και από ένα πολύ μικρό κομμάτι του pixel αυτού. 'Όσο η κβάντιση
μεγαλώνει και έχουμε περισσότερα pixel ανά κελί τα αποτελέσματα χάνουν την
εγκυρότητά τους. Λύση σε αυτό το πρόβλημα δίνει το σύστημα ψηφοφορίας με βάρη
σύμφωνα με το οποίο διαφοροποιούνται οι ψήφοι που θα δοθούν σε κάθε ευθεία ανάλογα
με το που τέμνει τα pixel της εικόνας.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 38
2.4 Homog aphy
Ο γενικότερος μετασχηματισμός που αφορά τον χώρο των δύο διαστάσεων και είναι
ιδιαίτερα σημαντικός για την φωτογραμμετρία είναι ο προβολικός μετασχηματισμός ή
αλλιώς ομογραφία (homog aphy). Η φωτογραφική μηχανή που χρησιμοποιούμε για την
απεικόνιση της δομής του χώρου εκτελεί ουσιαστικά έναν προβολικό μετασχηματισμό.
Δεν αφορά μετασχηματισμούς μεταξύ απεικονίσεων (αναλογική και ψηφιακή εικόνα,
χάρτης) που μετρούνται σε διαφορετικά συστήματα αναφοράς. Η βασική χρήση του είναι
στην φωτογραμμετρική απόδοση (αποτύπωση) του χώρου από μετρήσεις σε εικόνες.
Εξαιτίας του δισδιάστατου χαρακτήρα του είναι δυνατή μόνον η απόδοση αντικειμένων
(απολύτως η κατά ικανή προσέγγιση) επιπέδων. Οι ιδιότητες προβολικού
μετασχηματισμού:
● Δεν διατηρεί το σχήμα, το μήκος των ευθύγραμμων τμημάτων, γωνίες ,
αποστάσεις και λόγους μηκών. Για παράδειγμα, ένας κύκλος ενδέχεται να
μετασχηματιστεί σε έλλειψη και ένα ορθογώνιο σε ρόμβο με χρήση προβολικού
μετασχηματισμού
● Διατηρείται η ευθύτητα. Αυτό σημαίνει ότι συνευθειακά σημεία θα
μετασχηματιστούν σε συνευθειακά σημεία. Αυτή η ιδιότητα, η διατήρηση δηλαδή
των ευθειών είναι ουσιαστικά αυτή που ορίζει τους προβολικούς
μετασχηματισμούς.
Προβολικότητα ή προβολικός μετασχηματισμός είναι ένας αντιστρέψιμος
μετασχηματισμός h από το P2 στον εαυτό του έτσι ώστε τρία σημεία x1, x2, x3 ανήκουν
στην ίδια ευθεία αν και μόνο αν τα ℎ(𝑥1) ℎ(𝑥2) και ℎ(𝑥3) είναι συνευθειακά. Η αντιστροφή
ενός προβολικού μετασχηματισμού καθώς και ο συνδυασμός δύο προβολικών
μετασχηματισμών αποτελούν νέους προβολικούς μετασχηματισμούς. Μια απεικόνιση h
από τον P2 στον εαυτό του (P2→P2) συνιστά προβολικό μετασχηματισμό εάν υφίσταται
ένας πίνακας Η 3x3 τέτοιος ώστε για κάθε σημείο x του P2 να ισχύει η ισότητα
ℎ(𝑥)=𝐻𝑥
Εικόνα 16: Ο μετασχηματισμός της επιφάνειας με τη χρήση
Homog aphy
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 39
Πράγματι έστω ότι έχουμε τρία συνευθειακά σημεία x1, x2, x3 τα οποία ανήκουν στην
ευθεία Ι.
Τότε 𝛪𝛵𝑥𝑖 = 0 για 𝑖 = 1,…,3. Έστω ότι Η είναι ένας μη αντιστρέψιμος 3 x 3 πίνακας.
Ισχύει ότι
𝛪𝛵𝛨−1𝛨𝑥𝑖 = 0 (21)
Επομένως τα σημεία Ηxi ανήκουν στην ευθεία Η-ΤΙ άρα είναι συνευθειακά. Τελικά
διατηρείται η ιδιότητα της συγγραμικότητας και άρα πρόκειται για προβολικό
μετασχηματισμό.
Ο επίπεδος προβολικός μετασχηματισμός είναι γραμμικός μετασχηματισμός που
εφαρμόζεται σε ομογενή διανύσματα τριών στοιχείων και εκφράζεται από έναν πίνακα
3x3 σύμφωνα με τη σχέση.
(𝑥1 ′
𝑥2′
𝑥3′)=(ℎ11 ℎ12 ℎ13
ℎ21 ℎ22 ℎ23
ℎ31 ℎ32 ℎ33)∙(𝑥1
𝑥2
𝑥3)↔𝑥′=𝐻𝑥 (22)
Εάν στην παραπάνω εξίσωση ο πίνακας H πολλαπλασιαστεί με μη μηδενική σταθερά , ο
προβολικός μετασχηματισμός παραμένει ανεπηρέαστος. Ο Η αποτελεί έναν ομογενή
πίνακα εφόσον σημασία έχει μόνο ο λόγος των στοιχείων του πίνακα. Στον προβολικό
μετασχηματισμό υπάρχουν οκτώ βαθμοί ελευθερίας μεταξύ των εννέα στοιχείων και
μπορούν να σχηματιστούν οκτώ διαφορετικοί λόγοι. Η συνηθέστερη εφαρμογή του
προβολικού μετασχηματισμού είναι η διόρθωση της παραμόρφωσης της οπτικής που
εμφανίζουν οι εικόνες. Είναι γνωστό πως η κεντρική προβολή ενός επίπεδου αντικειμένου
στην εικόνα συνδέεσαι με το επίπεδο του χώρου μέσω ενός προβολικού
μετασχηματισμού. Αποτέλεσμα της εφαρμογής του μετασχηματισμού αυτού, είναι η
αντιστοίχηση μιας νέας εικόνας στην οποία τα αντικείμενα του επιπέδου εμφανίζονται με
το σωστό τους γεωμετρικό σχήμα και υπό σωστή κλίμακα. Ο υπολογισμός του
προβολικού μετασχηματισμού στηρίζεται στην αντιστοίχηση τεσσάρων τουλάχιστον
σημείων της εικόνας με τέσσερα σημεία του επιπέδου. Κάθε σημείο p’ του νέου επιπέδου
μπορεί να περιγραφεί συναρτήσει του σημείου p(𝑥,𝑦) με εξισώσεις της μορφής:
𝑥′=ℎ11𝑥+ℎ12𝑦+ℎ13
ℎ31𝑥+ℎ32𝑦+ℎ33 (23)
𝑦′=ℎ21𝑥+ℎ22𝑦+ℎ23
ℎ31𝑥+ℎ32𝑦+ℎ33 (24)
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 40
3. ΤΕΧΝΙΚΕΣ ΔΙΟΡΘΩΣΗΣ ΠΡΟΟΠΤΙΚΗΣ ΚΑΙ ΑΦΑΙΡΕΣΗΣ
ΠΕΡΙΘΩΡΙΟΥ
3.1 Υπάρχουσες Τεχνικές
Η διόρθωση της προοπτικής είναι από μόνης της ένα μεγάλο και σημαντικό κομμάτι της
επεξεργασίας εικόνας. Εξετάζει πληθώρα παραμέτρων και προβλημάτων και συνεχώς
εξελίσσονται οι προτάσεις και οι μεθοδολογίες που στοχεύουν στην απλούστευση και
την επίλυση αυτών των προβλημάτων. Παρόλο που υπάρχουν πολλές προσεγγίσεις,
στην πραγματικότητα είναι πολύ περιορισμένες καθώς όλες έχουν περιορισμούς στα
μοντέλα που εξετάζουν. Ελάχιστες προτάσεις είναι γενικές, καλύπτοντας όλες τις
περιπτώσεις, και συνήθως αποτελούν βάση για την διαμόρφωση νέων εξειδικευμένων
μοντέλων. Οι διαφορετικές παραδοχές καθώς και το πρόβλημα που προσεγγίζεται και
μοντελοποιείται στα πλαίσια μιας μεθοδολογίας οδηγεί και σε μια πρώτη
κατηγοριοποίησή της. Το πρόβλημα εδώ αποτελεί η προοπτική παραμόρφωση που
προκύπτει από τη φωτογράφιση με ψηφιακή κάμερα. Ο παρατηρητής που φωτογραφίζει
το αντικείμενο δεν βρίσκεται στο ίδιο επίπεδο με αυτό με αποτέλεσμα να μην απεικονίζεται
η μπροστινή όψη με τα χαρακτηριστικά που την αντιλαμβάνεται ο παρατηρητής,
αλλοιώνοντας έτσι τις διαστάσεις του αντικειμένου που εικονίζεται είτε πρόκειται για
πρόσωπο είτε για έγγραφο είτε για μια σκηνή. Οι διαστάσεις που βρίσκονται πιο κοντά
στη φωτογραφική κάμερα απεικονίζονται μεγαλύτερες από τις πιο απομακρυσμένες.
Έτσι, κάτι που στην αντίληψη του παρατηρητή θα σχεδιαζόταν σαν ένα
παραλληλόγραμμο μπορεί στην εικόνα να έχει διαστάσεις τραπεζίου ή τριγώνου. Ένα
χαρακτηριστικό παράδειγμα φαίνεται στην παρακάτω εικόνα.
Στόχος λοιπόν είναι η διόρθωση αυτής της οπτικής παραμόρφωσης και η αποκατάσταση
των αρχικών διαστάσεων του αντικειμένου. Εάν η εικόνα που εξετάζουμε περιέχει μια
σκηνή ή κάποιο αντικείμενο, ένας τρόπος είναι η προσέγγιση των γεωμετρικών
χαρακτηριστικών του είτε αναζητώντας γεωμετρικά σχήματα είτε εφαρμόζοντας ένα
πλαίσιο για την εύρεση του περιγράμματος, είτε διαχωρίζοντας το υπόβαθρο από την
Εικόνα 17: Αλλοίωση των διαστάσεων του
αντικειμένου μέσω της κάμερας
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 41
εικόνα. Πολλοί μέθοδοι και τεχνικές ασχολούνται με τη γεωμετρία της εικόνας εξετάζοντας
τα όρια του εικονιζόμενου αντικειμένου. Εάν η εικόνα περιέχει κείμενο, θα μπορούσαν να
εφαρμοστούν τεχνικές ανάλυσης κειμένου οι οποίες θα έφερναν ποιοτικότερα
αποτελέσματα και λιγότερες απώλειες πληροφορίας. Μια πρώτη κατηγοριοποίηση εδώ
θα μπορούσε να έχει σχέση με το είδος των φωτογραφιών αν περιέχουν ή όχι κείμενο.
Παρακάτω παρουσιάζονται κάποιες γενικές μέθοδοι για την διόρθωση της προοπτικής σε
έγγραφα από κάμερα.
3.2 Μεθοδολογίες που χρησιμοποιούν την εύρεση των ορίων του εγγράφου
Ένα σημαντικό κομμάτι στις εικόνες που αναπαριστούν έγγραφα είναι το όριο
διακριτότητας, δηλαδή ένα ελάχιστο όριο κατά το οποίο μπορούμε να διακρίνουμε και να
διαβάσουμε τα κείμενα του εγγράφου. Για να μπορεί να γίνει αυτό είναι πολύ χρήσιμο να
μπορούν να προσδιοριστούν τα όρια του εγγράφου μέσα σε ένα σαφές ορθογώνιο
σύνορο. Προχωρώντας σε αυτό το βήμα μπορούμε στη συνέχεια να διορθώσουμε την
εικόνα χρησιμοποιώντας διάφορες τεχνικές που βασίζονται στον προσδιορισμό των
ορίων του εγγράφου [18]-[20]. Η μεθοδολογία που ακολουθήσαμε στα πλαίσια της
πτυχιακής ανήκει σε αυτή την κατηγορία και περιγράφεται αναλυτικότερα παρακάτω.
Μερικές υποκατηγορίες που μπορούμε να διακρίνουμε σύμφωνα με [21] είναι :
a) Εύρεση του aspec a io του εγγράφου
Στις περισσότερες φωτογραφίες εγγράφων η εύρεση ενός τετράπλευρου ορίου
που αντιστοιχεί στα όρια του εγγράφου είναι πολύ εύκολη. Με χρήση του
προβολικού μετασχηματισμού το τετράπλευρο μετατρέπεται σε
παραλληλόγραμμο. Οι κορυφές του αρχικού τετράπλευρου χρησιμοποιούνται σαν
είσοδο [10] ( βλέπε 3.2.1 Εικόνα 18)για να υπολογιστεί και να εφαρμοστεί η
homog aphy ανάμεσα στην όψη από την οποία τραβήχτηκε η φωτογραφία και την
πρόσοψη η οποία είναι ιδανική για επεξεργασία εγγράφων. Στην περίπτωση που
οι αρχικές αναλογίες του ορθογωνίου είναι γνωστές τότε οι κορυφές του
τετράπλευρου της εικόνας μπορούν να αντιστοιχηθούν με τις γωνίες του
ορθογωνίου. Έτσι θα μπορούσε να επιτευχθεί η διόρθωση.
b) Εύρεση των παραλλήλων και κάθετων γραμμών.
Ένας άλλος τρόπος είναι η εύρεση 2 ζευγών παραλλήλων και δύο ζευγών κάθετων
γραμμών στο έγγραφο [18] [11] [14]. Αυτή η τακτική (βλέπε 3.2.2 ) είναι χρήσιμη
αν η ακριβής αναλογία δεν είναι διαθέσιμη. Επιπλέον η ανίχνευση γραμμών είναι
πιο αξιόπιστη από την ανίχνευση σημείων . Η γραμμή που διέρχεται από τα δύο
σημεία της τομής των ζευγών γραμμών είναι ένας προβολικός μετασχηματισμός
της γραμμής αυτής στο άπειρο. Ο μετασχηματισμός που αντιστοιχεί στην
παρατηρούμενη γραμμή στο άπειρο εφαρμόζεται για την αφαίρεση του
προβολικού στοιχείου της homog aphy. Αν
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 48
Ο μετασχηματισμός δίνεται από την επίλυση όπως εξηγήθηκε παραπάνω. Το στοιχείο
Α1-s δίνεται από:
:
[
𝑋1 𝑌1 1 0 0 0 −𝑋1∙𝑥1 −𝑌1∙𝑥1
0 0 0 𝑋1 𝑌1 1 −𝑋1∙𝑦1 −𝑌1∙𝑦1
𝑋2 𝑌2 1 0 0 0 −𝑋2∙𝑥2 −𝑌2∙𝑦2
0 0 0 𝑋2 𝑌2 1 −𝑋2∙𝑦2 −𝑌2∙𝑦2
𝑋3 𝑌3 1 0 0 0 −𝑋3∙𝑥3 −𝑌3∙𝑥3
0 0 0 𝑋3 𝑌3 1 −𝑋3∙𝑦3 −𝑌3∙𝑦3
𝑋4 𝑌4 1 0 0 0 −𝑋4∙𝑥4 −𝑌4∙𝑥4
0 0 0 𝑋4 𝑌4 1 −𝑋4∙𝑦4 −𝑌4∙𝑦4
]
Και τα διανύσματα δίνονται ως
h1-s = (α11, α12, α13, α21, α22, α23, α31, α32)Τα ,
Α9 = (x1, y1, x2, y2, x3, y3, x4, y4)T
Όταν ο μετασχηματισμός εφαρμόζεται σε παραμορφωμένες εικόνες η παραμόρφωση θα
διορθωθεί.
Συνοψίζοντας ο μετασχηματισμός ακολουθεί τα εξής:
Α) Εισάγει την κατακερματισμένη εικόνα και τα τέσσερα γωνιακά σημεία
Β) Ο προβολικός μετασχηματισμός εφαρμόζεται στις συντεταγμένες της εικόνας εισόδου
Γ) Η εικόνα που προκύπτει είναι η μετασχηματισμένη εικόνα.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 49
3.3 Μεθοδολογίες που χρησιμοποιούν τη διάταξη της σελίδας.
Η διάταξη του αρχείου μπορεί να χρησιμοποιηθεί για διόρθωση της προοπτικής σε μια
εικόνα εγγράφου. Ένα μεγάλο πλήθος τεχνικών προσδιορίζει τα χαρακτηριστικά της
εικόνας και τη χωρίζει σε τμήματα (εικόνα, κείμενο, γραφικά βλέπε Εικόνα 21 ). Με βάση
τη δουλειά των Syed Saqib Bukha i, Faisal Sha ai , Thomas M. B euel [22], αφαιρώντας
τα γραφικά στοιχεία και κάνοντας κατάτμηση κειμένου σε επίπεδο γραμμών είναι εύκολο
να προσδιοριστούν τα όρια του κειμένου και να γίνει η διόρθωση της εικόνας (Εικόνα 20).
Εικόνα 20: Bo de noise emo al h ough page ame de ec ion
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 50
Εικόνα 21: Co ec ion o Pe spec i e Dis o ion using Layou In o ma ion. Κατάτμηση σε εικόνα ,
κείμενο , γραφικά.
Η διόρθωση των πινάκων και μορφών οδηγεί σε μεγάλο αριθμό εξισώσεων για την
εκτίμηση της homog aphy και τη διόρθωση της προοπτικής. Όταν υπάρχουν πάνω από
τέσσερα σημεία ανταπόκρισης (ή 8 εξισώσεις) για την εκτίμηση της homog aphy η
διόρθωση μπορεί να γίνει καλύτερα. Για τον υπολογισμό της νέας εικόνας χρησιμοποιείται
το homog aphy και τα τέσσερα σημεία ανταπόκρισης λύνοντας την
𝑥𝑖=𝐻𝑥′𝑖
Για παραπάνω από τέσσερα σημεία το σύστημα των ομογενών εξισώσεων είναι της
μορφής Ah = 0 όπου η Ηοmog aphy Η διατάσσεται σαν ένα 9 x 1 διάνυσμα h. Η λύση
αυτού του συστήματος εξισώσεων είναι το ιδιοδιάνυσμα που αντιστοιχεί στη μικρότερη
ιδιοτιμή του ΑΤΑ. Για την αριθμητική σταθερότητα, οι συντεταγμένες της εικόνας στον Α
είναι κανονικοποιημένες ώστε να είναι επικεντρωμένες γύρω από το 0 και έχουν μονάδες
διακύμανσης. Τα όρια του κειμένου μπορούν να χρησιμοποιηθούν για τον υπολογισμό
της Homog aphy [11]. Όταν η εικόνα δεν περιέχει γραφικά στοιχεία, η homog aphy
προκύπτει από την δομή του ίδιου του κειμένου.
3.4 Μεθοδολογίες που χρησιμοποιούν ειδικές διορθώσεις περιεχομένου
Τα όρια του εγγράφου και η διάταξη της σελίδας δίνουν χρήσιμες πληροφορίες που
μπορούν να χρησιμοποιηθούν στη διόρθωση της προοπτικής της εικόνας. Όμως, όταν
το κείμενο δεν περιέχει αρκετές προτάσεις ή λέξεις, λίγα πράγματα είναι γνωστά για την
διάταξη της σελίδας ή για τα όριά της. Η ακριβής γνώση για τα ορθογώνια ή τα
τετράπλευρα δεν υπάρχει και ως εκ τούτου χρειαζόμαστε συγκεκριμένες πληροφορίες
που είναι χρήσιμοι για την διόρθωση της προοπτικής.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 51
Αυτή η κατηγορία μεθόδων χρησιμοποιεί κάθε γραμμή του κειμένου για να διορθώσει την
παραμόρφωση της προοπτικής. Η μέθοδος που προτείνεται στο «Goal-o ien ed
Rec i ica ion o Came a-Based Documen Images» [23] διορθώνει την προοπτική και την
καμπυλότητα που παρουσιάζεται στην εικόνα εφαρμόζοντας το μετασχηματισμό μια
φορά στα όρια του κειμένου όπως γίνεται με τις τεχνικές τις προηγούμενης κατηγορίας
και στη συνέχεια εφαρμόζει για δεύτερη φορά έναν μετασχηματισμό στις γραμμές που
έχει κάνει κατάτμηση λειτουργώντας με παρόμοιο τρόπο αλλά σε επίπεδο γραμμής αυτή
τη φορά.
Μια άλλη βασική ιδέα που παρουσιάζεται στο [21] στηρίζεται στην εύρεση των οριζόντιων
και κάθετων anishing poin s. Πρώτα, προσδιορίζονται τα οριζόντια anishing poin s με
τον αλγόριθμο του [21] και στη συνέχεια με τη χρήση της τεχνικής του μετασχηματισμού
Ηough φέρνονται ευθείες, από τις οποίες απορρίπτονται όσες βρίσκονται κοντά στο
οριζόντιο anishing poin και τέμνονται στο κάθετο anishing poin . Με αυτή τη διαλογή
υπολογίζεται ένα σετ ευθειών από τις οποίες υπολογίζεται το κάθετο anishing poin .
Εικόνα 22: Pe spec i e co ec ion o Hindi Tex . Προσδιορισμός των οριζόντιων και καθετων
anishing poin s
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 52
3.5 Εργαλεία και υπάρχουσες εφαρμογές
Κάποιες εφαρμογές που συναντούμε στην αγορά :
• E e no e Scanable
h ps://e e no e.com/p oduc s/scannable/
• Genius-scan
h p://appc awl .com/and oid/genius-scan-pd -scanne
• Cam scanne
h ps://play.google.com/s o e/apps/de ails?id=com.in sig.camscanne
• O ice lens
h ps://www.mic oso .com/el-g /s o e/apps/o ice-lens/9wzdnc j3 8
• Cap u eboa d
h ps://i unes.apple.com/g /app/cap u eboa dp o-scan-whi eboa d/id619547169?m =8
• Finescanne
h p://www. inescanne .com/
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 53
Εικόνα 23: Finescanne
Εικόνα 24: Genius Scan
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 54
Εικόνα 25: O ice Lens
Εικόνα 26:Scannable
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 55
Εικόνα 27: Cap u e Boa d
4. ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΜΕΘΟΔΟΙ
Στο κεφάλαιο αυτό θα παρουσιαστούν κάποιες επεκτάσεις που προσαρτήθηκαν στις
παραπάνω μεθοδολογίες [10] [11] ανά στάδιο για να βελτιωθούν τα αποτελέσματα που
παρουσίασαν.
4.1 Μέθοδος Ha is
Με βάση τη μεθοδολογία που προτάθηκε από τους Gee ha Ki an A και Mu ali S [10]
πραγματοποιήθηκε η υλοποίηση και η εξέταση τρόπων βελτίωσης των αποτελεσμάτων.
Στα βήματα που αναφέρθηκαν στο κεφάλαιο 3 παράγραφος 3.2.1 έγιναν κάποιες
αλλαγές, τα αποτελέσματα των οποίων συγκρίνουμε με τα αποτελέσματα της
κοντινότερης στο [10] μεθοδολογίας. Συνοπτικά οι αλλαγές είναι:
Προσθήκη Smoo hing με (Gaussian blu ή median blu )
Αλλαγή μεθόδου εύρεσης ακμών (Canny algo i hm)
Προσθήκη δυνατότητας αλλαγής παραθύρου στο dila ion
Αντικατάσταση του e osion με εύρεση των con ou s
Χρήση του μεγίστου con ou και απομάκρυνση του θορύβου
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 56
Εύρεση του μέγιστου τετραπλεύρου
Αλλαγή στον υπολογισμό της ομογραφίας
Διαστάσεις νέας εικόνας (πλάτος : μικρότερη οριζόντια απόσταση, μήκος :
μικρότερη κάθετη απόσταση μεταξύ δυο σημείων)
Υπολογισμός ομογραφίας με δυο τρόπους είτε για ||H|| = 1 , είτε h33 = 1
Υπολογισμός εικόνας μέσω της αντιστροφής της ομογραφίας
Σαν υλοποίηση του [10] θεωρούμε τα αποτελέσματα που προκύπτουν από τα παραπάνω
βήματα για τη χρήση median blu στο στάδιο εξομάλυνσης και Sobel ope a o στην
ανίχνευση ακμών .Πιο αναλυτικά η περιγραφή των σταδίων περιγράφεται παρακάτω.
Αρχικά, μετά την μετατροπή της εικόνας σε g ayscale, εφαρμόζεται ένα Gaussian φίλτρο
για διάφορες τιμές της τυπικής απόκλισης 𝜎 ώστε να εξομαλυνθεί και να είναι ευκολότερο
να εντοπιστούν τα σημαντικά χαρακτηριστικά της. Στο στάδιο της κατάτμησης έγιναν
κάποιες αλλαγές για καλύτερα αποτελέσματα. Αρχικά, στη μέθοδο για εύρεση ακμών
χρησιμοποιήθηκε εναλλακτικά ο αλγόριθμος Canny που κάνει καλύτερη εκτίμηση των
ακμών. Επίσης η μέθοδος Sobel που χρησιμοποιείται ως αρχική ανίχνευση ακμών είναι
ενσωματωμένη στη συνάρτηση του Ha is. Μετά την εύρεση ακμών ακολουθεί το κομμάτι
που αναφέρεται ως κατάτμηση εικόνας στο οποίο σύμφωνα με την εργασία των Gee ha
Ki an.A και Mu ali.S [10] εφαρμόζεται dila ion και ακολουθείται από e osion. Στην πράξη
παρατηρήθηκε ότι τα αποτελέσματα μετά την εφαρμογή του e osion δεν ήταν
ικανοποιητικά και όπως παρουσιαζόταν στο [10] (Εικόνα 17) με αποτέλεσμα το επόμενο
βήμα που ήταν η ανίχνευση γωνιών να μη μπορεί να δώσει τα αναμενόμενα
αποτελέσματα. Δοκιμάστηκαν διάφορες τιμές για το στάδιο της κατάτμησης αλλά κανένας
συνδυασμός δεν βελτίωνε πολύ τα αποτελέσματα. Οι γωνίες που ανιχνεύονταν από τον
αλγόριθμο Ha is βρίσκονταν τυχαία σε όλη την έκταση της εικόνας και δεν ήταν δυνατό
να περιοριστούν στις τέσσερις πραγματικές καθώς δεν υπήρχαν κάποια κριτήρια. Κάθε
περίπτωση χρειαζόταν ξεχωριστό h eshold για να έχει έγκυρα αποτελέσματα. Ο
αλγόριθμος Ha is φαίνεται να μη δουλεύει τόσο καλά όσο φαίνονται λεπτομέρειες της
εικόνας. Ο μόνος τρόπος για τη σωστή ανίχνευση γωνιών με τον αλγόριθμο αυτό είναι η
βελτίωση του τμήματος της προεπεξεργασίας.
Αρχικά ,δοκιμάστηκε η εφαρμογή του lood ill, του OpenCV μια άλλη μορφολογική πράξη
που γεμίζει το εσωτερικό του περιγράμματος ενός αντικειμένου μετατρέποντάς το σε
πολύ καλή είσοδο για την ανίχνευση γωνιών. Αυτό είχε καλύτερα αποτελέσματα αλλά
δούλευε μόνο για περιορισμένες εικόνες. Η λύση δόθηκε προσδιορίζοντας το περίγραμμα
του αντικειμένου με τη χρήση indcondou s OpenCV. Έτσι μετά το στάδιο του dila ion
βρίσκονται όλα τα περιγράμματα και γεμίζουμε το εσωτερικό του μέγιστου. Γίνεται
έλεγχος εάν έχει κλείσει το περίγραμμα πριν αφαιρεθεί οποιαδήποτε χρήσιμη
πληροφορία. Επιλέγεται το μέγιστο περίγραμμα εφόσον το μέγεθός του ξεπερνάει ένα
κατώτερο όριο που έχει τεθεί και αποτελεί ένα ποσοστό του μεγέθους της εικόνας (15%).
Με τη χρήση των con ou s διαχωρίζεται το υπόβαθρο από την πληροφορία και οι γωνίες
που προκύπτουν από την εφαρμογή του αλγορίθμου Ha is και S ephens είναι σε ομάδες
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 57
συγκεντρωμένες στις τέσσερις γωνίες του εγγράφου. Επομένως, επιλέγεται η τετράδα
που δημιουργεί το μεγαλύτερο τετράπλευρο (Εικόνα 32 )και εφαρμόζεται η ομογραφία.
Παρακάτω βλέπουμε ένα διάγραμμα ροής του αλγορίθμου που υλοποιήθηκε.
Ha is Co ne De ec ion
S ep 1: Εξομάλυνση εικόνας με τη χρήση Gaussian Blu ή Median Blu
S ep 2: Χρήση ενός αλγορίθμου ανίχνευσης ακμών στην εξομαλυμένη g ayscale εικόνα.
Για το edge de ec ion γίνεται χρήση του Sobel ope a o ή του αλγορίθμου Canny
ανάλογα με την τιμή μιας μεταβλητής που έχουμε ορίσει, τη me hod_ lag, η οποία παίρνει
τιμές 2 και 1 αντίστοιχα.
S ep 3: Χρήση του μορφολογικού τελεστή Dila ion με δομικό στοιχείο το RECT και
μέγεθος παραθύρου να ισούται με τρία ή πέντε αναλόγως την τιμής της blu _ lag
μεταβλητής (1 , 0 αντίστοιχα)
Σχήμα 1: Διάγραμμα ροής αλγορίθμου Ha is
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 64
Κβάντιση του πίνακα για τις τιμές ρ και θ
Αλλαγή της συνάρτησης που επιστρέφει τις ευθείες (αντί για τη συνάρτηση
P obabilis ic hough που επιστρέφει ευθύγραμμα τμήματα υλοποιήθηκε η κλασική
μέθοδος hough και χρησιμοποιήθηκαν ως σημεία για την ομογραφία τα σημεία
τομής.
Αλλαγή της κλασικής συνάρτησης που βρίσκει τις ευθείες με 2 παραλλαγές
Πρώτη παραλλαγή:
o Εύρεση ολικού μέγιστου του πίνακα συσσώρευσης
o Εύρεση των τιμών του ρ και θ
o Υπολογισμός της ευθείας που του αντιστοιχεί
o Διαγραφή των γειτονικών στοιχείων σε μικρού μεγέθους γειτονιά που
εξαρτάται σε ένα βαθμό από την κβάντιση των ρ και θ.
o Επανάληψη της διαδικασίας αυτής για την εύρεση μιας ευθείας με κοντινές
τιμές του θ στον πίνακα συσσώρευσης με τη χρήση ενός περιθωρίου
ανοχής
o Επανάληψη της διαδικασίας αυτής για την εύρεση μιας ευθείας με κοντινές
τιμές του θ+90 στον πίνακα συσσώρευσης με τη χρήση του ίδιου
περιθωρίου ανοχής
o Εύρεση τεσσάρων ευθειών
o Εύρεση των σημείων τομής
Δεύτερη παραλλαγή:
o Εύρεση τοπικού μέγιστου του πίνακα συσσώρευσης με βάση ένα κατώφλι
o Τιμή κατωφλίου είτε ως παράμετρος είτε συναρτήσει των μεγεθών της
εικόνας
o Εύρεση των τιμών του ρ και θ
o Υπολογισμός της ευθείας που αντιστοιχεί στο παραπάνω μέγιστο
o Διαγραφή των γειτονικών στοιχείων σε μικρού μεγέθους γειτονιά που
εξαρτάται σε ένα βαθμό από την κβάντιση των ρ και θ.
o Επανάληψη της διαδικασίας αυτής όλα τα pixel
o Επιστροφή πολλών ευθειών
o Έλεγχος ευθειών μέσω συνθηκών καθετότητας και παραλληλίας ώστε να
περιοριστούν
o Εύρεση των σημείων τομής
o Έλεγχος των σημείων ανά τριάδες ώστε να απορριφθούν τα εξωτερικά και
τα εσωτερικά
o Υπολογισμός μεγαλύτερου τετράπλευρου με βάση τις γωνίες που έχουν
μείνει.
Η μεθοδολογία που αποτέλεσε τη βάση, συγκρίθηκε με τις υπόλοιπες που προτάθηκαν
και είναι πιο κοντά στην [11] περιγράφεται από τα βήματα του 3.2.2 και τις αλλαγές που
προσαρτήθηκαν και αναφέρονται παραπάνω χρησιμοποιώντας τον κλασικό Hough
ans o m για την εξαγωγή των ευθειών. Παρακάτω παρουσιάζονται πιο αναλυτικά πως
κινηθήκαμε:
Η μέθοδος που αναφέρεται στο [11] έχει ως σύμβαση την ύπαρξη άνω και κάτω ορίων
του εγγράφου, χωρίς να ενδιαφέρεται για τα δεξιά και αριστερά όρια. Κατατάσσει τις
ευθείες που ανιχνεύει σε άνω και κάτω ευθείες σύμφωνα με το κέντρο και στη συνέχεια
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 65
επιλέγει για δυο ευθείες ένα μέσο όρο της κάθε κατηγορίας. Τα αποτελέσματα που
παρουσιάζονται στη μέθοδο αυτή φαίνεται να περιέχουν και backg ound (υπόβαθρο)
καθώς για δεξιά και αριστερά όρια επιλέγονται τα όρια της ίδιας της εικόνας. Ένα άλλο
αρνητικό που παρουσιάζει είναι στο σημείο που επιλέγονται για δυο ευθείες οι μέσες
τιμές των άνω ευθειών και κάτω για κάθε περίπτωση. Αυτό το βήμα δεν παρουσιάζει τα
αναμενόμενα αποτελέσματα. Για να δουλέψει απαραίτητη προϋπόθεση είναι όλες οι
ευθείες να είναι μεταξύ τους κοντινές και να βρίσκονται στην περιοχή που είναι τα
πραγματικά όρια του εγγράφου απορρίπτοντας όλες τις εσωτερικές και εξωτερικές
ευθείες που μπορεί να ανιχνεύσει ο αλγόριθμος. Για να επιτευχθεί κάτι τέτοιο πρέπει να
γίνει ιδανικό segmen a ion της εικόνας κάτι που αναφέρθηκε στον προηγούμενο
αλγόριθμο και αντιμετωπίστηκε σαν πρόβλημα. Δηλαδή, για να δουλέψει σωστά αυτή η
μέθοδος πρέπει να τεθεί και δεύτερος περιορισμός που αφορά το περίγραμμα.( να μπορεί
να ανιχνευτεί και να κλείνει).
Η μέθοδος που ακολουθήσαμε στην παρούσα πτυχιακή για την βελτίωση των
αποτελεσμάτων στηρίζεται στην κλασική ανίχνευση ευθειών του μετασχηματισμού hough
και στοχεύει στην εύρεση όλων των ορίων του εγγράφου για την αποτελεσματική
αφαίρεση του περιθωρίου της εικόνας. Με τη χρήση με 2 ζευγών ευθειών κάθετων και
παράλληλων προσδιορίζεται το περίγραμμα του εγγράφου και τα τέσσερα σημεία τομείς
χρησιμοποιούνται για τον υπολογισμό της homog aphy όπως περιγράφηκε και πιο πάνω.
Αυτός ο τρόπος θα αναφέρεται για συντομία και ευκολία ως Classic Hough
Αρχικά, χρησιμοποιείται η Classic Hough η οποία θεωρείται ότι είναι πιο κοντά στην
πρόταση [11]. Σε μια εικόνα που έχει γίνει καλή ανίχνευση ακμών οι ευθείες που θα
περνάνε από τις ακμές θα σημειώνουν μεγαλύτερη τιμή στον πίνακα συσσώρευσης. Έτσι,
μια πρώτη προσέγγιση των πραγματικών ακμών είναι η εύρεση των ευθειών των
τεσσάρων μεγίστων τιμών στον accumula o . Κάτι τέτοιο φαίνεται να λειτουργεί σε
ιδανικές εικόνες. Οι εικόνες που έχουν τραβηχτεί από κάμερα κινητού έχουν μεγάλα
ποσοστά θορύβου με αποτέλεσμα να ανιχνεύονται πολλά σημεία για σημεία ακμών, Τα
τέσσερα ολικά μέγιστα δεν φαίνονται να δουλεύουν σε αυτή την περίπτωση καθώς οι
τέσσερις ευθείες ανιχνεύονται πολύ κοντά μεταξύ τους, Ένας τρόπος για να βελτιωθεί η
παραπάνω περίπτωση είναι η χρήση του local maxima supp ession. Η ανίχνευση γίνεται
σε μια γειτονιά από την οποία προκύπτει ένα τοπικό μέγιστο και έτσι εντοπίζονται
τέσσερα τοπικά μέγιστα.
O accumula o έχει στον οριζόντιο άξονα τις τιμές των θ και στον κάθετο τις τιμές των ρ.
Αρχικά η συμπλήρωση του πίνακα γινόταν ανά ένα pixel και ανά μια μοίρα. Στη συνέχεια,
για καλύτερη απόδοση έγινε κβάντιση του πίνακα ως προς τα θ και ρ και
χρησιμοποιήθηκαν κάποιες μεταβλητές που καθορίζουν πόσες τιμές θ και ρ αντιστοιχούν
σε κάθε κελί του πίνακα.
Η χρήση των τοπικών μεγίστων φαίνεται να βελτιώνει τα αποτελέσματα όμως δεν παύει
να επιλέγει λανθασμένες ευθείες για ακμές. Μια καλύτερη προσέγγιση είναι η προσθήκη
περιορισμών για την καλύτερη ανίχνευση ευθειών. Αρχικά, υπολογίζεται το ολικό μέγιστο
στον πίνακα συσσώρευσης και με βάση τις τιμές που έχει για τις παραμέτρους θ και ρ
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 66
γίνεται μια αναζήτηση στον πίνακα συσσώρευσης ευθειών που είναι παράλληλες (με
κάποιο περιθώριο ανοχής) στην ευθεία που αντιπροσωπεύει το μέγιστο κελί. Οι ευθείες
αναζητούνται ανά γειτονιές όπως περιεγράφηκε και πιο πάνω και επιλέγεται η ευθεία με
τη μέγιστη τιμή. Η ίδια διαδικασία εφαρμόζεται για την επιλογή δυο κάθετων ευθειών με
το ίδιο περιθώριο ανοχής.
Η παραπάνω μέθοδος παρουσίασε το μεγαλύτερο ποσοστό εγκυρότητας σε
αποτελέσματα. Για λόγους συντομίας θα αναφέρεται ως Hough Ve ical Pa allel
(Hough_VP). Ωστόσο, παρουσιάζει κάποιες λανθασμένες εκτιμήσεις και απορρίπτει
κάποιες εξωτερικές ευθείες. Γι’ αυτό χρησιμοποιήθηκε και μια τρίτη παραλλαγή σύμφωνα
με την οποία επιλέγονται περισσότερες ευθείες και θα αναφέρεται ως Hough_Th eshold
(Hough_Th). Για να μην απορριφθούν ευθείες θέτεται ένα όριο (κατώφλι) για την επιλογή
τους ανά γειτονιές και γίνεται διαλογή των σημείων μετά την εύρεση τους από τις τομές
των ευθειών. Με περιορισμούς που θέτονται επιλέγονται τα σημεία που σχηματίζουν το
μέγιστο τετράπλευρο απορρίπτοντας τα εσωτερικά σημεία. Η παραλλαγή αυτή φαίνεται
να συμπληρώνει την προηγούμενη παραλλαγή καθώς καλύπτει κάποιες περιπτώσεις
λαθών που εμφανίζει. Ωστόσο, δεν παρουσιάζει καλύτερα ποσοστά εγκυρότητας από την
Hough_VP καθώς απορρίπτει πολλά σημεία και εμφανίζει περιπτώσεις που δεν βρίσκει
σημεία.
Παρακάτω φαίνεται το διάγραμμα ροής της μεθόδου (Σχήμα 2). Με διακεκομμένες
αναπαρίσταται το μεταβλητό κομμάτι των παραλλαγών. Στη θέση των Hough lines
μπαίνει μια από τις Classic Hough ,Hough_VP, Hough_Th.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 67
Σχήμα 2: Διάγραμμα ροής μεθόδου Baumann- Blackwell - B en Seales [11].
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 68
Hough T ans o m
S ep 1: Εξομάλυνση εικόνας με τη χρήση Gaussian Blu .
S ep 2 : Χρήση ενός αλγορίθμου ανίχνευσης ακμών στην εξομαλυμένη g ayscale εικόνα.
Για το edge de ec ion γίνεται χρήση του αλγορίθμου Canny .
S ep 3 : Χρήση του μορφολογικού τελεστή Dila ion με στοιχείο το RECT και Ke nel size
ισούται με τρία.
S ep 4 : Δημιουργία του accumula o ma ix για κβαντισμένες τιμές του ρ και του θ.
Αύξηση κάθε κελιού του πίνακα κατά 1 αν η ευθεία που αντιπροσωπεύει περνάει από
ένα pixel της εικόνας. Η διαδικασία αυτή γίνεται για κάθε pixel και συμπληρώνεται ο
πίνακας συσσώρευσης.
S ep 5 : Επιλογή τεσσάρων ή περισσότερων ευθειών που παρουσιάζουν μέγιστες τιμές
στον πίνακα συσσώρευσης, υποθέτοντας πως με καλή ανίχνευση των ακμών ,
υψηλότερες τιμές στον accumula o ma ix θα εμφανίζουν ευθείες που περνάνε από τις
πραγματικές ακμές.
S ep 6 : Εύρεση των σημείων τομής των τεσσάρων ευθειών. Σε περίπτωση που έχει γίνει
επιλογή μεγαλύτερου πλήθους ευθειών γίνεται έλεγχος και απορρίπτονται κάποιες
ευθείες και σε επόμενο βήμα γίνεται η επιλογή των σημείων.
S ep 7 : Εφαρμογή της homog aphy
Παρακάτω παρουσιάζονται τα αποτελέσματα από την υλοποίηση της μεθόδου:
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 69
S ep 2: Edge De ec ion (Canny)
S ep 4: C ea e accumula o ma ix
Εικόνα 46: Αρχική εικόνα με
παραμόρφωση προοπτικής
Εικόνα 47: Ανίχνευση ακμών με
τον αλγόριθμο JF Canny
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 70
Εικόνα 48: Accumula o των εικόνων 31, 32, 33, 34
S ep 5: Ge Lines
Hough_VP Hough_Th
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 71
Εικόνα 49: Η δεξιά στήλη εικόνων παρουσιάζει την εύρεση ευθειών με τη χρήση
τεσσάρων τοπικών μεγίστων (μέθοδος 2) και η αριστερή στήλη απεικονίζει την
επιλογή ευθειών με τη χρήση της κατωφλίωσης.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 72
Σύγκριση αποτελεσμάτων των μεθόδων
Classic Hough Hough_VP Hough_Th
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 73
Εικόνα 50: Σύγκριση μεθόδων ανίχνευσης ευθειών. Τελικό Στάδιο -ανίχνευσης γωνιών. Η πρώτη
στήλη παρουσιάζει τη Classic Hough η δεύτερη τη Hough_Ve ical_Pa allel και η τρίτη
Hpugh_Th eshold 3 στο τελικό στάδιο πριν την εφαρμογή ομογραφίας.
4.3 Homog aphy
Τελευταίο βήμα αποτελεί ο υπολογισμός και η εφαρμογή του πίνακα της ομογραφίας. Για
την επίλυση του πίνακα και την εύρεση των εννέα στοιχείων που τον απαρτίζουν
χρησιμοποιείται η μέθοδος Gaussian elimina ion ή αλλιώς Gauss–Jo dan elimina ion.
Αποτέλεσμα αυτής είναι η εύρεση του διαγώνιου πίνακα , επομένως και λύση του
συστήματος. Σε επόμενο βήμα βρίσκεται ο αντίστροφος πίνακας της ομογραφίας και με
βάση αυτού συμπληρώνονται οι τιμές των πεδίων του τελικού πίνακα-εικόνας.
Γνωρίζοντας τις θέσεις των pixel που θα έχει ο τελικός πίνακας χρησιμοποιούμε τους
ίδιους τύπου από Homog aphy και κινούμαστε αντίστροφα. Για την συμπλήρωση του
κάθε pixel της τελικής εικόνας χρησιμοποιούνται οι τύποι (22) - (24) για την εύρεση των
θέσεων της αρχικής εικόνας και στη συνέχεια αντιγράφεται η του pixel της θέσης που
βρήκαμε στην θέση που αναζητάμε στην τελική εικόνα. Παρακάτω βλέπουμε μερικά
αποτελέσματα από αυτό το βήμα.
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 80
που αναγράφονται στην κάθε παράμετρο. Παρακάτω παρουσιάζονται τα αποτελέσματα
από το e alua ion για κάθε μέθοδο
Πίνακας 2: Παράμετροι προγράμματος
Pa ame e s
Ac ions/Values
lag_me hod
Hough Classical
lag alue = 1
de aul op ion
Hough_VP
lag alue = 2
Hough_Th
lag alue = 3
lag_homog aphy
Flag alue = ue
Compu e Homog aphy
Homog aphy ( lag)
Case ||H|| = 1
lag alue = 0
Case H33 = 1
lag alue = 1
ho_scaling
T ansla ion o neighbo lines
Heigh o accumula o ma ix
he a_scaling
S ep o angle θ
Wid h o accumula o ma ix
lag_edge_de ec ion
Edge de ec ion
Me hod
Sobel ope a o +
Dila ion
lag alue = 1 : de aul
Edge de ec ion Me hod
Canny
lag alue = 0
lag_dila ion
Ke nel size (3,3)
lag alue = 1 : de aul
Ke nel size
(5,5)
lag alue = 1
lag_blu
GaussianBlu
lag alue = 1 : de aul
Mean blu
lag alue = 2
lag_p in
Show me hod in s eps
Th esh
h eshold alue →[0 -200]
Hough T ans o m
Πίνακας 3: Αποτελέσματα εκτέλεσης των διαφορετικών συνδυασμών τιμών παραμέτρων των
μεθόδων Hough T ans o m
Me hod
ho
he a
Name
e alua ion
e o 5%
e alua ion
e o 10%
e alua ion
e o 20%
1
0.5
me hod_1_ ho_1.0_ he
a_0.5
52.00%
57.00%
60.00%
1
1
me hod_1_ ho_1.0_ he
a_1.0
51.00%
53.00%
57.00%
1
1.5
me hod_1_ ho_1.0_ he
a_1.5
52.00%
57.00%
60.00%
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 81
1.5
0.5
me hod_1_ ho_1.5_ he
a_0.5
45.00%
51.00%
56.00%
1.5
1
me hod_1_ ho_1.5_ he
a_1.0
47.00%
56.00%
60.00%
Classic
Hough
1.5
1.5
me hod_1_ ho_1.5_ he
a_1.5
41.00%
47.00%
48.00%
2
0.5
me hod_1_ ho_2.0_ he
a_0.5
45.00%
47.00%
50.00%
2
1
me hod_1_ ho_2.0_ he
a_1.0
43.00%
46.00%
48.00%
2
1.5
me hod_1_ ho_2.0_ he
a_1.5
36.00%
42.00%
45.00%
1
0.5
me hod_2_ ho_1.0_ he
a_0.5
63.00%
67.00%
70.00%
1
1
me hod_2_ ho_1.0_ he
a_1.0
65.00%
68.00%
72.00%
1
1.5
me hod_2_ ho_1.0_ he
a_1.5
61.00%
67.00%
72.00%
1.5
0.5
me hod_2_ ho_1.5_ he
a_0.5
52.00%
60.00%
67.00%
Hough_VP
1.5
1
me hod_2_ ho_1.5_ he
a_1.0
58.00%
70.00%
76.00%
1.5
1.5
me hod_2_ ho_1.5_ he
a_1.5
56.00%
65.00%
67.00%
2
0.5
me hod_2_ ho_2.0_ he
a_0.5
58.00%
63.00%
68.00%
2
1
me hod_2_ ho_2.0_ he
a_1.0
62.00%
67.00%
70.00%
2
1.5
me hod_2_ ho_2.0_ he
a_1.5
52.00%
58.00%
62.00%
1
0.5
me hod_3_ ho_1.0_ he
a_0.5
57.00%
65.00%
66.00%
1
1
me hod_3_ ho_1.0_ he
a_1.0
62.00%
68.00%
70.00%
1
1.5
me hod_3_ ho_1.0_ he
a_1.5
56.00%
57.00%
58.00%
1.5
0.5
me hod_3_ ho_1.5_ he
a_0.5
58.00%
70.00%
70.00%
Hough_Th
1.5
1
me hod_3_ ho_1.5_ he
a_1.0
57.00%
68.00%
72.00%
1.5
1.5
me hod_3_ ho_1.5_ he
a_1.5
58.00%
66.00%
72.00%
2
0.5
me hod_3_ ho_2.0_ he
a_0.5
50.00%
61.00%
68.00%
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 82
2
1
me hod_3_ ho_2.0_ he
a_1.0
51.00%
61.00%
68.00%
2
1.5
me hod_3_ ho_2.0_ he
a_1.5
48.00%
62.00%
68.00%
Ha is Algo i hm
Πίνακας 4: Αποτελέσματα εκτέλεσης των διαφορετικών συνδυασμών τιμών παραμέτρων των
μεθόδων Ha is
Me hod
Dila ion
Ke nel
Size
Blu
Name
e alua io
n e o
5%
e alua ion
e o 10%
e alua ion
e o 20%
(3,3)
Mean
co ne _1_dila ion_1.0_blu
37.00%
41.00%
56.00%
(3,3)
Gaussia
n
co ne _1_dila ion_1.0_gaussia
n_blu
38.00%
42.00%
57.00%
Canny
(5,5)
Mean
co ne _1_dila ion_2.0_blu .cou
32.00%
39.00%
48.00%
(5,5)
Gaussia
n
co ne _1_dila ion_2.0_gaussia
n_blu
33.00%
40.00%
50.00%
(3,3)
Mean
co ne _2_dila ion_1.0_blu
31.00%
38.00%
50.00%
(3,3)
Gaussia
n
co ne _2_dila ion_1.0_gaussia
n_blu
31.00%
38.00%
50.00%
Sobel
(5,5)
Mean
co ne _2_dila ion_2.0_blu
31.00%
30.00%
46.00%
(5,5)
Gaussia
n
co ne _2_dila ion_2.0_gaussia
n_blu
31.00%
30.00%
46.00%
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 83
Σχήμα 3 : Διάγραμμα Classic Hough : Ανίχνευση τεσσάρων ολικών μεγίστων σε ποσοστά ανοχής
5-20%
Σχήμα 4: Διάγραμμα Hough_VP: Ανίχνευση τεσσάρων τοπικών μεγίστων σε ποσοστά ανοχής 5-
20%
60.00% 57.00% 60.00%
56.00%
60.00%
48.00% 50.00% 48.00% 45.00%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
θ = 0.5 θ = 1.0 θ = 1.5 θ = 0.5 θ = 1.0 θ = 1.5 θ = 0.5 θ = 1.0 θ = 1.5
Hough Classic
5%
10%
20%
ρ = 1.0 ρ = 1.5 ρ = 2.0
70.00% 72.00% 72.00%
67.00%
76.00%
67.00% 68.00% 70.00%
62.00%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
θ = 0.5 θ = 1.0 θ = 1.5 θ = 0.5 θ = 1.0 θ = 1.5 θ = 0.5 θ = 1.0 θ = 1.5
Hough Ve ical Pa allel
5%
10%
20%
ρ = 1.0 ρ = 1.5 ρ = 2.0
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 84
Σχήμα 6: Διάγραμμα Hough_Th : Ανίχνευση με h eshold
66.00%
70.00%
58.00%
70.00% 72.00% 72.00%
68.00% 68.00% 68.00%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
θ = 0.5 θ = 1.0 θ = 1.5 θ = 0.5 θ = 1.0 θ = 1.5 θ = 0.5 θ = 1.0 θ = 1.5
Hough Th eshold
5%
10%
20%
ρ = 1.0 ρ = 1.5 ρ = 2.0
Σχήμα 5: Διάγραμμα μεθόδων Ha is σε ποσοστά ανοχής 5-20%
56.00% 57.00%
48.00% 50.00%50.00% 50.00%
46.00% 46.00%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
Co ne De ec ion
5% 10% 20% 5%
Canny Sobel
Canny Sobel
Dila ion (3,3 ) - blu Dila ion(3,3) - Gaussian Dila ion(5,5) –blu Dila ion(5,5) -Gaussian
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 85
Σχήμα 7: Παρουσίαση καλύτερων ποσοστών των μεθόδων
Η Hough_VP βγάζει καλύτερα αποτελέσματα σύμφωνα με τα ποσοστά εγκυρότητας σε
σχέση με τις άλλες δυο περιπτώσεις. Στη μέθοδο Baumann - Seales [11] οι ευθείες
εξάγονται από τον πίνακα συσσώρευσης χρησιμοποιώντας μια τετράδα τοπικών
μεγίστων ενώ η Hough_VP είναι παραλλαγή της πρώτης με μόνη διαφορά κάποιους
παραπάνω ελέγχους που απαιτούν την εύρεση ακριβώς δυο κάθετων και δυο
παράλληλων μεταξύ τους ευθειών. Είναι λογικό να εμφανίζουν τέτοιες διαφορές στα
ποσοστά. Η Hough_Th λειτουργεί λίγο διαφορετικά καθώς δέχεται για ευθείες όλες εκείνες
που η ψήφος τους στο αντίστοιχο κελί βρίσκεται πάνω από ένα ποσοστό κοντά στο 30%
των μεγίστων τιμών, επιλέγοντας έτσι τα τέσσερα σημεία από πολλές ευθείες
απορρίπτοντας σημεία και όχι ευθείες. Η Hough_Th δεν βγάζει τις ίδιες λανθασμένες
περιπτώσεις με την Hough_VP. Μάλιστα υπερέχει για κάποια δεδομένα έναντι της
Hough_VP καθώς δεν απορρίπτει ευθείες αλλά τις επιλέγει όλες πάνω από ένα h eshold
και κάνοντας τους ελέγχους μετά καταλήγει στα σωστά ενώ η Hough_VP μπορεί να χάνει
σε κάποιες περιπτώσεις που επιλέγονται γειτονικές ευθείες παίρνοντας σαν αποτέλεσμα
ένα τμήμα του εικονιζόμενου αντικειμένου. Αυτό ίσως λυθεί με αύξηση του παραθύρου
της γειτονιάς αλλά αν η γειτονιά είναι πολύ μεγάλη υπάρχει περίπτωση να χαθούν
κάποιες ευθείες. Από τη άλλη, η Hough_Th σε κάποιες περιπτώσεις απορρίπτει ευθείες
που δεν ικανοποιούν τα κριτήριά της με αποτέλεσμα στην έξοδο να υπάρχουν λιγότερες
52%
65% 62%
38%
31%
57%
70% 68%
42%
38%
60%
76%
72%
57%
50%
0%
10%
20%
30%
40%
50%
60%
70%
80%
Σύγκριση μεθόδων
5%
10%
20%
Baumann - Hough_VP Hough_Th Ha is_Canny Mu ali-
Seales [11] Mohan [14]
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 86
από τέσσερις γωνίες . Σε αντίθεση με τη Classic Hough και Hough_VP , οι οποίες βγάζουν
πάντα τέσσερα σημεία σαν έξοδο. Παρακάτω βλέπουμε περιπτώσεις που υπερισχύει η
κάθε μέθοδος.
Εικόνα 61: Hough_VP
λανθασμένη ανίχνευση ευθειών
Εικόνα 62: Hough_Th σωστή
ανίχνευση ευθειών
Εικόνα 63: Γωνίες που
προκύπτουν από την Εικόνα 61
Εικόνα 64: Γωνίες που
προκύπτουν από την Εικόνα 62
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 87
Εικόνα 65: Αριστερά το αποτέλεσμα της εφαρμογής της Hough_VP, δεξιά το αποτέλεσμα της
Hough_Th
Εικόνα 66: Αριστερά το αποτέλεσμα της εφαρμογής της Hough_VP δεξιά το αποτέλεσμα
τηςHough_Th
Εικόνα 67: Αριστερά το αποτέλεσμα της εφαρμογής της Hough_VP, δεξιά το αποτέλεσμα της
Hough_Th
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 88
Εικόνα 68: Αριστερά το αποτέλεσμα της εφαρμογής της Hough_VP, δεξιά το αποτέλεσμα της
Hough_Th
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 89
6. ΥΛΟΠΟΙΗΣΗ
Η υλοποίηση μπορεί να χωριστεί σε δυο τμήματα. Το πρώτο κομμάτι, έχει να κάνει με
την επεξεργασία εικόνας και τους αλγορίθμους που χρησιμοποιήθηκαν για τη διόρθωση
της προοπτικής παραμόρφωσης. Το δεύτερο κομμάτι, περιλαμβάνει τη Web εφαρμογή
που ουσιαστικά αποτελείται από το Use In e ace με το οποίο ο χρήστης θα
χρησιμοποιεί τα προγράμματα που αναπτύσσονται στο πρώτο κομμάτι και που
υλοποιήθηκαν σύμφωνα με τις μεθόδους [10],[11] . Τα προγράμματα υλοποιήθηκαν σε
γλώσσα προγραμματισμού C++ σε συνδυασμό με τη βιβλιοθήκη της C++ OpenCV.
Προϋποθέσεις της OpenCV
GCC 4.4.x o la e
GNU C++ compile g++-4.4.x
CMake 2.8.7 o highe
Gi
GTK+2.x o highe , including heade s (libg k2.0-de )
pkg-con ig
[op ional] Py hon 2.6 o la e and Numpy 1.5 o la e wi h de elope packages
(py hon-
de , py hon-numpy)
mpeg o liba de elopmen packages: liba codec-de , liba o ma -de ,
libswscale-de
[op ional] lib bb2 lib bb-de
[op ional] libdc1394 2.x
[op ional] libjpeg-de , libpng-de , lib i -de , libjaspe -de , libdc1394-22-de
[op ional] CUDA Toolki 6.5 o highe
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 96
3. Καλεί τη συνάρτηση Dila ion
4. Καλεί τη συνάρτηση h esh_callback για την εύρεση ενός περιγράμματος
που αντιστοιχεί στο αντικείμενο της εικόνας και το γεμίζει
5. Καλεί τη συνάρτηση Ha is_co ne _de ec ion η οποία επιστρέφει έναν
πίνακα γωνιών
6. Αποθηκεύει τα σημεία και τα ταξινομεί clockwise
7. Ανοίγει ένα αρχείο με όνομα το περιεχόμενο της μεταβλητής ilename
8. Γράφει τα σημεία που επιστρέφει η συνάρτηση Ha is_co ne _de ec ion
Ou pu : αρχείο ilename
ec o <Poin 2 > Ha is_co ne _de ec ion(Ma & image)
Inpu : κατώφλι για το κριτήριο γωνιότητας , μέγεθος παραθύρου
Use: Επιλέγει τις γωνίες σένα μέγεθος παραθύρου που έχουν μεγαλύτερη τιμή από το
κατώφλι
Ou pu : ένα ec o με τις γωνίες που υπολογίστηκαν
Ma Sobel_ope a o (Ma & image)
Inpu : Εικόνα
Use: Υπολογίζει τις ακμές με τη μέθοδο Sobel
1. Υπολογίζει ξεχωριστά G adien X και G adien Υ
2. Καλεί την addWeigh ed για να προσεγγίσει το ολικό G adien
3. Ελέγχει τη μεταβλητή p in _ lag για να εμφανίσει τα αποτελέσματα
4. Επιστρέφει την εικόνα
Ou pu : Εικόνα με ακμές
Πίνακας 6: Συναρτήσεις της υλοποίησης Ha is
Ha is Co ne De ec ion
Sobel_ope a o
E osion
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 97
Dila ion
h esh_callback
Ha is_co ne _de ec ion
ou _poin _es ima ion
so Co ne s
Homog aphy
oid jo dan( loa x1, loa y1, loa x2, loa y2, loa x3, loa y3, loa x4, loa y4, loa
X1, loa Y1, loa X2, loa Y2, loa X3, loa Y3, loa X4, loa Y4, loa H[9], in lag =
0)
Inpu : δυο τετράδες σημείων, η μια είναι οι γωνίες του αντικειμένου της εικόνας και η
άλλη τα σημεία της νέας επιφάνειας στην οποία θα προβληθεί (sou ce poin s ,
des ina ion poin s) , έναν πίνακα για τη Homog aphy και μια μεταβλητή lag η οποία
καθορίζει την συνθήκη υπολογισμού της Homog aphy , ||H|| = 1 ή H33 = 1.
Use: Βρίσκει τον διαγώνιο πίνακα Α και επιλύει το σύστημα για να υπολογιστεί ο
πίνακας Η στον οποίο αποθηκεύει τα αποτελέσματα.
Ou pu : -
oid Compu eHomog aphy( ec o <Poin 2 >& s c_co ne s, ec o <Poin 2 >&
ds _co ne s, Ma s c)
Inpu : ένας ec o με τις γωνίες της αρχικής εικόνας , ένας ec o με τις γωνίες της
τελικής εικόνας και η αρχική εικόνα
Use: Υπολογίζει τη Homog aphy και εφαρμόζει το μετασχηματισμό για να
δημιουργηθεί η νέα εικόνα.
1. Καλεί τη συνάρτηση jo dan για να υπολογίζει τον πίνακα Η
2. Υπολογίζει τον αντίστροφο του πίνακα Η
3. Γεμίζει τα στοιχεία της εικόνας βρίσκοντας τη θέση που αντιστοιχεί στην
αρχική εικόνα και αντιγράφει το περιεχόμενό της
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 98
Ou pu : -
ec o <Poin 2 > indRec angle( ec o <Poin 2 >& co ne s)
Inpu : ένας ec o με τις γωνίες της αρχικής εικόνας
Use:
1. Ταξινομεί τα σημεία καλώντας τη so Co ne s
2. Υπολογίζει το πλάτος της νέας εικόνας παίρνοντας την μέγιστη απόσταση
των δυο άνω σημείων και των δυο κάτω.
3. Υπολογίζει το ύψος παίρνοντας την μέγιστη απόσταση των δυο αριστερών
σημείων και των δυο δεξιών
4. Έχοντας βρει ύψος και πλάτος της νέας εικόνας κατασκευάζει τα σημεία με
βάση αυτά και ότι το πρώτο είναι το (0,0)
5. Επιστρέφει τον πίνακα με τα νέα σημεία
Ou pu : ένας ec o με τις γωνίες της νέα ς εικόνας
Πίνακας 7 : Συναρτήσεις της υλοποίησης Homog aphy
Jo dan
Compu eHomog aphy
indRec angle
6.2 Web Εφαρμογή
Στόχος είναι η υλοποίηση ενός use in e ace με το οποίο ο χρήστης θα έχει τη
δυνατότητα να κάνει upload μια εικόνα και η εφαρμογή θα επιστρέφει τη διορθωμένη
εικόνα.
Στην εφαρμογή που υλοποιήθηκε γίνεται χρήση των παραπάνω προγραμμάτων που
αναπτύχθηκαν για τη μελέτη των μεθόδων και την εξαγωγή συμπερασμάτων.
Συγκεκριμένα, επιλέγονται οι παράμετροι που έδωσαν καλύτερα ποσοστά και για τις δυο
μεθόδους , Hough και Ha is.
Για τη μέθοδο Hough χρησιμοποιήθηκαν οι τιμές ρ = 1.5 , θ = 1.0 και για την εύρεση των
ακμών χρησιμοποιήθηκε η παραλλαγή 2 της μεθόδου. Για τη μέθοδο Ha is
χρησιμοποιήθηκε Gaussian Blu με μέγεθος πυρήνα 3 και σ = 1.5, για την ανίχνευση
ακμών χρησιμοποιήθηκε o Canny Edge de ec o με h eshold = 100 , για Dila ion
χρησιμοποιήθηκε το δομικό στοιχείο RECT (τετράγωνο) με μέγεθος φίλτρου 3x3 και για
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 99
τον αλγόριθμο των Ha is και S ephens χρησιμοποιήθηκε μέγεθος block = 3 και h eshold
= 100. Ο χρήστης μπορεί να επιλέξει με ποια μέθοδο θα γίνει η διόρθωση της εικόνας και
αν η επιλογή του δεν έχει ικανοποιητικά αποτελέσματα μπορεί να συγκρίνει επιλέγοντας
την άλλη.
Η συγκεκριμένη εφαρμογή χρησιμοποίησε τον Nginx ως web se e . Ένας se e
(διακομιστής), μπορεί να είναι οποιοσδήποτε υπολογιστής που σαν στόχο έχει να
εξυπηρετεί άλλους υπολογιστές. Παρακάτω, βλέπουμε κάποια απαραίτητα βήματα που
πρέπει να γίνουν και κάποιες προϋποθέσεις που πρέπει να έχει ένας υπολογιστής για
να φιλοξενήσει την παρούσα εφαρμογή ως se e .
6.2.1 Απαιτήσεις του συστήματος
Μια λίστα με τις απαιτήσεις για να μπορέσει να λειτουργήσει ο web se e :
RAM (minimum) 256 MB
disk space (minimum) 10 GB disk space
OS: Ένα από τα παρακάτω λειτουργικά συστήματα x86_64 Linux la o s: Redha (RHEL
5/6), Debian GNU/Linux s able, Ubun u LTS. Any 64-bi Linux είναι εντάξει και συνίσταται
για την υποστήριξη που διαθέτη και τη σταθερότητά που προσφέρει.
Web se e : nginx ( e sions > 1.2.0) (η e sion που χρησιμοποιήθηκε: nginx/1.4.6
Ubun u 4.17)
PHP: php5- pm ( e sions > 5.3.8) (mine PHP 5.5.9-1)
Τα βήματα για τη λειτουργία ενός Nginx web se e
S ep 1 : Ins all sou ce eposi o ies
S ep 2 : Ins all he NGINX web se e
S ep 3 : Ins all PHP-FMP o p ocessing
S ep 4 : Se up NGINX
S ep 5 : Se up PHP-FPM
S ep 6 : Con igu e NGINX o use PHP P ocesso (enable php)
S ep 7 : Tes con igu a ion
6.2.2 Ανάπτυξη
Η εφαρμογή υλοποιήθηκε σε γλώσσα προγραμματισμού PHP (για το κομμάτι του se e )
και Ja asc ip (για το κομμάτι του clien ). Μετά την εγκατάσταση της PHP 5.5.9-1 θα
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 100
πρέπει να γίνουν ρυθμίσεις στο αρχείο php.ini. Οι αλλαγές που έγιναν αφορούσαν το
μέγιστο μέγεθος αρχείου που μπορεί να ανεβάσει ο χρήστης , το χρόνο αναμονής μετά
από κάθε αίτημα καθώς και το πλήθος των ταυτόχρονων uploads που μπορεί να
επεξεργαστεί.
Οι γλώσσες προγραμματισμού που υποστηρίζει ο Nginx web se e είναι η Pe l, py hon
και php. Μπορούμε να τρέχουμε παραπάνω από ένα web se e όταν αντιστοιχίσουμε
κάθε se e στη δικιά του ξεχωριστή θύρα και διεύθυνση. Συνήθως με την πρώτη
εγκατάσταση ενός se e η πρώτη θύρα που επιλέγεται είναι η θύρα 80. Εάν δεν έχουμε
καταχωρίσει κάποια υπαρκτή διεύθυνση μπορούμε, για τους σκοπούς ανάπτυξης της
εφαρμογών, να χρησιμοποιήσουμε την 127.0.0.1. Όταν θα τρέχουμε τον Nginx θα
δέχεται αιτήσεις που θα έχουν προορισμό την καθορισμένη θύρα και διεύθυνση που
έχουμε καταχωρήσει. Υπάρχουν δυο αρχεία καταγραφής που είναι σημαντικά και θα
πρέπει να αναφερθούμε σε αυτά, είναι το αρχείο καταγραφής access_log και το
e o _log. Το access_log είναι το αρχείο που περιέχει όλες τις αιτήσεις που στέλνονται
από τους πελάτες (clien ) στους εξυπηρετητές (se e ). Σημαντικές πληροφορίες που
μπορούμε να αντλήσουμε από το αρχείο access_log είναι η διεύθυνση ip του clien , το
όνομα του έγγραφου που στάλθηκε, την κατάσταση που βρίσκεται ο h p κώδικας, την
ώρα που συνέβη η αίτηση του έγγραφου. Το e o _log είναι το αρχείο καταγραφής που
περιέχει σημαντικές πληροφορίες για την λειτουργία του se e . Συνήθως όταν
παρουσιάζεται ένα πρόβλημα στο se e θα πρέπει να ανατρέξουμε στο αρχείο e o _log
για την επίλυση του.
Μετά την εγκατάσταση του NGINX μπορούν να ρυθμιστούν οι διευθύνσεις που θα του
αντιστοιχούν ( i ual hos s). Στον φάκελο /e c/nginx/ μπορούν να γίνουν οι κατάλληλες
ρυθμίσεις όλων των διευθύνσεων που θα φιλοξενεί ο εξυπηρετητής. Συγκεκριμένα στον
φάκελο si es-a ailable βρίσκονται όλα τα i ual hos s που φιλοξενούνται από τον se e
ενώ στο φάκελο si es-enabled, βρίσκονται όλα τα i ual hos s εφόσον είναι ήδη ενεργά.
Ο φάκελος si es-a ailable περιέχει ένα con igu a ion ile των i ual hos s. Ο φάκελος
si es-enabled ουσιαστικά έχει ένα link (σύνδεσμο) που δείχνει στο αρχείο του φακέλου
si es-a ailable. Αυτό επιτυγχάνεται με την παρακάτω εντολή
ln -s /e c/nginx/si es-a ailable/THE.VIRTUAL.HOST.FILENAME /e c/nginx/si es-
enabled/THE.VIRTUAL.HOST.FILENAME
Αλλαγές στο con igu a ion ile
Αλλαγή ονόματος εξυπηρετητή ( Se e name)
Αλλαγή αριθμού θύρας που θα χρησιμοποιηθεί
Αλλαγή της τοποθεσίας oo / a /www/de aul /h ml στον αντίστοιχο φάκελο που
βρίσκεται η εφαρμογή
Αποσχολιασμός του κώδικα για PHP και προσθήκη του φακέλου που βρίσκεται
η PHP
Αλλαγή του hash_bucke _size στο αρχείο e c/nginx/nginc.con
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 101
Στη συνέχεια για να ξεκινήσει ο Se e χρησιμοποιούμε την εντολή
Nginx es a and php5- mp es a
Παρακάτω παρουσιάζονται κάποιες εικόνες από την υλοποίηση.
.
Εικόνα 69: Αρχική σελίδα
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 102
Εικόνα 70: Upload Image
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 103
Εικόνα 71: Homog aphy wi h Co ne De ec ion
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 104
Εικόνα 72: Homog aphy wi h Hough T ans o m
Αφαίρεση περιθωρίου και διόρθωση παραμόρφωσης σε έγγραφα από κάμερα
Πάνου Ν. Δήμητρα 105
7. ΣΥΜΠΕΡΑΣΜΑΤΑ
Στην παρούσα πτυχιακή ερευνήθηκαν και υλοποιήθηκαν δυο μέθοδοι διόρθωσης της
προοπτικής παραμόρφωσης σε εικόνες από κάμερα .Η μια μέθοδος βασίζεται στην
εργασία των Gee ha Ki an A. και Mu ali S [10] και χρησιμοποιεί ανίχνευση γωνιών με
τη χρήση του Ha is co ne de ec o και η άλλη μέθοδος βασίζεται στην εργασία των
Ryan Baumann, Ch is ophe Blackwell και W. B en Seale [11] και χρησιμοποιεί
ανίχνευση ευθειών με Hough T ans o m. Η υλοποίηση που έγινε στα πλαίσια της
παρούσας πτυχιακής μελετά τις παραπάνω μεθοδολογίες και αποσκοπεί στην βελτίωση
των αποτελεσμάτων τους. Χρησιμοποιήθηκε το ίδιο σετ δεδομένων και για τις δυο
υλοποιήσεις ώστε να μπορεί να γίνει η αποτίμησή τους.
Αρχικά στην πρώτη μέθοδο, εξετάστηκαν τρόποι βελτίωσης των ενδιάμεσων σταδίων
ώστε να επιτευχθεί καλύτερη ανίχνευση γωνιών στο προτελευταίο στάδιο που είναι η
εφαρμογή του Ha is . Επίσης, έγινε εισαγωγή κάποιων παραμέτρων για την εύρεση
κάποιας αποδοτικότερης λύσης. Με βάση τα αποτελέσματα των πινάκων του πέμπτου
κεφαλαίου διαπιστώνουμε πως με τη χρήση ανιχνευτή ακμών Canny ανεβαίνουν πολύ
τα ποσοστά σε εγκυρότητα (10% διαφορά σε σύγκριση με Sobel που προτάθηκε στο
[10]), ενώ αλλαγές στον τρόπο εξομάλυνσης και στο μέγεθος του δομικού στοιχείου κατά
την εφαρμογή μορφολογικών πράξεων παρουσιάζουν μικρές διακυμάνσεις στα ποσοστά
(1%-3%). Επομένως, διαπιστώνουμε πως μεγαλύτερη έμφαση πρέπει να δοθεί στον
τρόπο που θα γίνει η ανίχνευση ακμών. Με μια καλύτερη ανίχνευση ακμών που βασίζεται
σε machine lea ning (μηχανική μάθηση) θα βελτιώνονταν σημαντικά τα αποτελέσματα
και η εγκυρότητα της μεθόδου.
Στη δεύτερη μέθοδο χρησιμοποιήθηκαν τρεις διαφορετικοί τρόποι για την εξαγωγή των
ευθειών από τον πίνακα συσσώρευσης. Ο πρώτος ακολουθεί τη μέθοδο που προτείνεται
στο [11] και είναι η κλασική ανίχνευση ευθειών hough . Χρησιμοποιήθηκε σα βάση για τη
σύγκριση των άλλων δυο παραλλαγών. Με βάση των πίνακα σύγκρισης του πέμπτου
κεφαλαίου παρατηρούμε πως και οι δύο τρόποι Hough_VP και Hough_Th έχουν
υψηλότερα ποσοστά από τον κλασικό τρόπο που χρησιμοποιήθηκε ως βάση (10-16%
διαφορά). Η Hough_VP ήταν πολύ κοντά σε ποσοστά με την Hough_Th , που δεν φάνηκε
να την επηρεάζει σημαντικά ο τρόπος που κβαντίζεται ο πίνακας συσσώρευσης και αυτό
γιατί τα αποτελέσματά της βασίζονται στην επιλογή ενός κατωφλίου. Με βάση τα
αποτελέσματα και των τριών η Hough_VP σε αυτήν την περίπτωση είχε τα καλύτερα
αποτελέσματα. Στηρίζεται στην εύρεση τεσσάρων τοπικών μεγίστων του πίνακα
συσσώρευσης με σχέσεις παραλληλίας και καθετότητας στα ζεύγη ευθειών. Η αδυναμία
που παρουσιάζει μπορεί να επιλυθεί με καλύτερη ανίχνευση ακμών ή αύξηση του
παραθύρου της γειτονιάς κατά τον έλεγχο των τοπικών μεγίστων. Η απόδοση της
Hough_Th εξαρτάται από την τιμή του h eshold που θα εφαρμοστεί για την επιλογή των
ευθειών.
Με τη σύγκριση των δυο διαφορετικών μεθοδολογιών διαπιστώνουμε πως η μέθοδος
που χρησιμοποιεί το μετασχηματισμό Hough, παρουσιάζει μεγαλύτερα ποσοστά
εγκυρότητας ενώ η μέθοδος που στηρίζεται σε ανίχνευση γωνιών, παρουσιάζει
μεγαλύτερη ευαισθησία στο θόρυβο και είναι λιγότερο σταθερή συγκριτικά με τις
μεθόδους του Hough.
Μια πρόταση βελτίωσης της πρώτης μεθόδου είναι χρήση του FAST που βασίζεται σε
εκπαίδευση του αλγορίθμου εύρεσης γωνιών και θα έχει πολύ καλύτερα αποτελέσματα