Procesamiento de imagen y visión hiperespectral para el control de calidad en la industria de la patata

Departamento de Inform´atica Procesamiento de imagen y visi´ on hiperespectral para el control de calidad en la industria de la patata Tesis Doctora

3 downloads 87 Views 11MB Size

Story Transcript

Departamento de Inform´atica

Procesamiento de imagen y visi´ on hiperespectral para el control de calidad en la industria de la patata

Tesis Doctoral para optar al grado de Doctor por la Universidade de Vigo

Autor: ´ Angel Dacal Nieto

Directores: Dr. Arno Formella Dra. Pilar Isabel Carri´ on Pardo

Ourense, Julio de 2011

v

Direcci´ on:

Dr. Arno Formella

Dra. Pilar Isabel Carri´ on Pardo

Profesor Contratado Doctor

Profesor Contratado Doctor

Lenguajes y Sistemas Inform´ aticos

Lenguajes y Sistemas Inform´aticos

Departamento de Inform´ atica

Departamento de Inform´atica

Universidade de Vigo

Universidade de Vigo

HACEN CONSTAR Que la memoria titulada Procesamiento de imagen y visi´ on hiperespectral para el control de calidad en la industria de la patata ha sido ´ realizada por D. Angel Dacal Nieto bajo nuestra direcci´on en el Departamento de Inform´ atica de la Universidade de Vigo, y constituye la Tesis que presenta para optar al grado de Doctor por la Universidade de Vigo.

Ourense, 2011

Dr. Arno Formella Codirector de la Tesis

Dra. Pilar Isabel Carri´ on Pardo Codirectora de la Tesis

Agradecimientos Esta tesis es el producto de casi cuatro a˜ nos de trabajo, desde Septiembre de 2007, momento en que comenc´e el programa de doctorado que me ha certificado para el desarrollo de mi trabajo de tesis, hasta la fecha. Por ello, quiero acordarme de aquellos que han ayudado, en mayor o menor parte, a que consiga este objetivo. En primer lugar, como no podr´ıa ser de otra manera, gracias a mi familia, que dentro de su humildad me ha permitido llegar hasta aqu´ı. Sin ellos nada de esto ser´ıa posible. Gracias por algo tan evidente para mi generaci´on como darme cobijo, comida, cari˜ no y todo aquello que posibilita que nos podamos preocupar de otras cosas adem´ as de sobrevivir. Que nunca se nos olvide lo privilegiados que somos en el mundo occidental. Gracias a Ant´ıa por seguir acompa˜ n´ andome en el camino. Ya ves que, lo que parec´ıa una broma en aquel paseo por Allariz hace unos a˜ nos, se ha vuelto realidad. Gracias a todos mis amigos por ayudarme a desconectar, por las pesicolas nocturnas y semanales, los viajes, las dornas, las terracitas, y todos los ratos juntos. Gracias a mis directores de tesis, el Dr. Arno Formella y la Dra. Pilar Carri´on, por creer en mi, no solamente como estudiante de doctorado, sino tambi´en como investigador, y apoyarme cuando m´ as lo necesitaba. Gracias a Esteban V´ azquez por su ayuda, inspiraci´on, y por todo lo que he aprendido de ´el. Y a su director de tesis, el Dr. Fernando Mart´ın, por ser un apoyo m´ as en este trabajo. Gracias a Jos´e Miguel V´ azquez, por su compa˜ n´ıa durante las clases de los cursos de doctorado, sus consejos y su aliento. ´ Gracias a mis compa˜ neros en el Lia: Kote, V´ıctor, Alex, Math´ıas, Leo, Breog´ an, Adri´ an y Federico, por amenizar las horas de trabajo. Gracias a otros investigadores que me han ayudado durante el desarrollo de vii

viii mi tesis: Encarnaci´ on Gonz´ alez, el Dr. Manuel Fern´andez Delgado, el Dr. Daniel Gonz´ alez Pe˜ na, y la Dra. Alma Mª G´ omez. Gracias a la gente del Laboratorio Oficial de Metrolox´ıa de Galicia (Lomg) por mi primera experiencia laboral, durante casi tres a˜ nos. Especialmente al Dr. ´ Higinio Gonz´ alez por apostar por mi, y a V´ıctor Alvarez por su ayuda en la fase de dise˜ no de sistemas de adquisici´ on. Gracias a los investigadores del Centro Tecnol´oxico da Carne (Ceteca), especialmente a la Dra. Camino Garc´ıa y a Lucio Garc´ıa, por su colaboraci´on, complicidad y profesionalidad. Gracias al resto de socios involucrados en los proyectos de investigaci´on relacionados con esta tesis, especialmente a Manuel Castro (Vitivin´ıcola do Ribeiro ´ S.C.G.), y al Dr. C´esar Alvarez (Coren). Tambi´en a Nicol´as Avil´es (Infaimon) por su asesoramiento en la adquisici´ on de material. Y gracias tambi´en a todos aquellos que, sin aparecer en esta lista y a su manera, hayan aportado su granito de arena para terminar este trabajo. Por u ´ltimo, quiero nombrar a las instituciones que, directa o indirectamente, han aportado financiaci´ on relacionada con esta tesis doctoral, o han permitido su desarrollo: El Laboratorio Oficial de Metrolox´ıa de Galicia (Lomg), perteneciente a la Fundaci´ on para o Fomento da Calidade Industrial e o Desenvolvemento Tecnol´ oxico de Galicia, en el que trabaj´e como investigador durante casi tres a˜ nos, entre 2007 y 2009. En este per´ıodo mi contrato fue subvencionado durante dos a˜ nos gracias al programa Lucas Labrada (2008) de la Direcci´ on Xeral de I+D+i de la Conseller´ıa de Econom´ıa e Industria de la Xunta de Galicia. El grupo de investigaci´ on Laboratorio de Inform´atica Aplicada (Lia) del Departamento de Inform´ atica de la Universidade de Vigo, en el que trabajo como investigador desde el 1 de Enero de 2010. En este per´ıodo mi contrato fue subvencionado gracias al proyecto Detepre, concedido en los Programas Sectoriales de Investigaci´on aplicada, Peme I+D e I+D Suma del plan Incite de la Direcci´on Xeral de I+D+i de la Conseller´ıa de Econom´ıa e Industria de la Xunta de Galicia. La Xunta de Galicia, que ha subvencionado los proyectos de investigaci´on Visiocal, Medgrasa y Copevi (Programas Sectoriales de Investigaci´on aplicada, Peme I+D e I+D Suma del plan Incite de la Direcci´on Xeral de I+D+i de la Conseller´ıa de Econom´ıa e Industria), Ovovip (Fomento da Investigaci´ on e Innovaci´ on empresarial del plan Incite de la Direcci´on

ix Xeral de I+D+i de la Conseller´ıa de Econom´ıa e Industria), y Vitical (Conseller´ıa de Medio Rural). La Universidade de Vigo, que ha subvencionado el proyecto de investigaci´ on Leame (Ayudas a grupos de investigaci´ on). El Ministerio de Ciencia e Innovaci´on, que ha subvencionado el proyecto de investigaci´ on Redilasdi (Investigaci´on fundamental no orientada, Plan Nacional de I+D 2008-2011). Estos proyectos han permitido la realizaci´ on de viajes para la asistencia a congresos, y compra de material diverso necesario para el desarrollo de mi tesis doctoral.

x

Resumen La automatizaci´ on sigue siendo un ´ area de trabajo esencial en algunas industrias, como la agroalimentaria. Por ello, es necesario fomentar el uso de nuevas tecnolog´ıas como v´ıa para mejorar la competitividad y eficiencia de las empresas. La visi´ on por computador es un ´ area de conocimiento multidisciplinar que ha contribuido notablemente a la mejora de la industria durante los u ´ltimos a˜ nos. Uno de sus m´ ultiples usos ha sido el desarrollo de sistemas para el control de la calidad que permiten una inspecci´ on de la totalidad de la producci´on (en lugar de una muestra aleatoria), de modo no destructivo, objetivo y autom´atico. En esta tesis doctoral se han desarrollado soluciones para el control de calidad en la industria de la patata, usando visi´on por computador en el espectro visible y visi´ on hiperespectral en el espectro infrarrojo. As´ı, se detectan problemas externos de los tub´erculos como la sarna com´ un, el verdeo o la podredumbre seca, y enfermedades internas como el coraz´ on hueco. La motivaci´on nace de un proyecto de investigaci´ on llamado Visiocal en el que el doctorando ha estado involucrado durante su desarrollo. Para ello se han desarrollado distintos sistemas de adquisici´on que han sido puestos a punto y aplicados en varios proyectos de investigaci´on relacionados entre s´ı, que han servido como punto de partida y aprendizaje. Posteriormente, estos sistemas de adquisici´on han sido adaptados al caso espec´ıfico del control de calidad en la industria de la patata, y se han realizado varias campa˜ nas de captura, tras las que se han obtenido diversas bases de datos de im´ agenes que representan los problemas a abordar. Tras ciertas tareas de procesamiento de imagen, segmentaci´ on, y extracci´on de caracter´ısticas, dichos problemas se han tratado como procesos de reconocimiento de patrones. As´ı, se han aplicado unos algoritmos de selecci´ on de caracter´ısticas y clasificaci´on que evaluamos a trav´es de sus porcentajes de acierto. Por su novedad, una de los principales puntos de inter´es de esta tesis es la aplicaci´ on de una tecnolog´ıa emergente como la visi´on hiperespectral para la xi

xii detecci´ on de caracter´ısticas externas e internas de la patata, y la puesta a punto de un sistema de adquisici´ on hiperespectral infrarrojo de prop´osito general que ya se est´ a utilizando en nuevos problemas. Adem´as, se han adaptado algoritmos de procesamiento de imagen al an´ alisis hiperespectral, y se han utilizado algoritmos de selecci´ on de caracter´ısticas como m´etodo para la determinaci´on del subconjunto ´ optimo de longitudes de onda dentro del espectro abarcado.

Abstract Automation remains an important challenge in many industries and, as a special case, in agrofood industries. Hence, providing new technologies to increase the efficiency and the productivity in these industries is a necessary and very welcomed contribution. On the other hand, computer vision is a multidisciplinary field of knowledge that has contributed to this general goal over the last years. Regarding quality control systems, automatic computer vision systems allow to inspect the entire production, instead of inspecting more or less well suited random samples—as it is usually done—, in a non–destructive and objective way. In this Ph.D. research, solutions for certain aspects of quality control in the potato industry have been developed. They use computer vision in the visible spectra and hyperspectral imaging in the infrared spectra. In the end, external defects as common scab, greening, and rottening are detected, as well as the internal disease hollow heart. The motivation of this Ph.D. stems from an R&D project, called Visiocal. The author has belonged to the project team. For the computer vision system, several image acquisition systems have been developed, set up, and eventually used in several inter-related research projects. The image acquisition systems have been adapted to specific problems in the potato industry. The corresponding images have been acquired and supervised pattern recognition experiments have been developed in order to find a good set of algorithms in the different steps of computer vision system, such as segmentation, image processing, feature extraction, feature selection, classification and evaluation, by comparing their accuracy percentages. The main challenges of this Ph.D. research are the application of an emergent technology like hyperspectral imaging for detecting external and internal features of the potato tubers, as well as the set-up of a general purpose infrared hyperspectral image acquisition system, which is already employed in further research projects. Additionally, image processing algorithms have been adapted to xiii

xiv specific hyperspectral analysis, and the performance of several feature selection algorithms has been tested for a wavelength importance determination.

´Indice general 1. Introducci´ on 1.1. Motivaci´ on . . . . . . . . . . . . . . . . . . . 1.1.1. El proyecto de I+D: VISIOCAL . . . 1.1.2. Objetivos de VISIOCAL . . . . . . . . 1.1.3. Equipos de proyecto . . . . . . . . . . 1.1.4. Primera fase del proyecto (2008-2009) 1.1.5. Colaboraci´ on LOMG-LIA (2010) . . . 1.2. Objetivos y contexto . . . . . . . . . . . . . . 1.2.1. Antecedentes . . . . . . . . . . . . . . 1.2.2. Objetivos principales . . . . . . . . . . 1.2.3. Objetivos secundarios . . . . . . . . . 1.2.4. Etapas de la tesis . . . . . . . . . . . . 1.2.5. Aplicabilidad . . . . . . . . . . . . . . 1.2.6. Interdisciplinaridad . . . . . . . . . . . 1.2.7. Novedad . . . . . . . . . . . . . . . . . 1.2.8. Impacto . . . . . . . . . . . . . . . . . 1.3. Producci´ on cient´ıfica . . . . . . . . . . . . . . 1.4. Investigaciones relacionadas . . . . . . . . . . 1.4.1. Otros proyectos de investigaci´on . . . 1.4.2. Colaboraciones . . . . . . . . . . . . . 1.5. Evoluci´ on temporal . . . . . . . . . . . . . . . 1.6. Organizaci´ on de la memoria . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

1 1 2 2 4 4 5 6 6 6 7 8 8 9 9 10 10 10 10 14 15 15

2. Visi´ on artificial 17 2.1. Etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 xv

´INDICE GENERAL

xvi 3. An´ alisis de textura en el espectro visible 3.1. Introducci´ on . . . . . . . . . . . . . . . . . 3.1.1. Motivaci´ on . . . . . . . . . . . . . 3.2. Experimento . . . . . . . . . . . . . . . . 3.2.1. Adquisici´ on de imagen . . . . . . . 3.2.2. Clasificaci´ on por expertos . . . . . 3.2.3. Preprocesado y segmentaci´on . . . 3.2.4. Extracci´ on de caracter´ısticas . . . 3.2.5. Clasificaci´ on . . . . . . . . . . . . 3.2.6. Selecci´ on de caracter´ısticas . . . . 3.3. Resultados y discusi´ on . . . . . . . . . . . 3.4. Conclusiones y l´ıneas futuras . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

23 23 24 26 26 33 35 39 41 41 45 47

4. Sistema de adquisici´ on hiperespectral 4.1. Introducci´ on . . . . . . . . . . . . . . . . . . 4.1.1. Motivaci´ on . . . . . . . . . . . . . . 4.1.2. Estado del arte . . . . . . . . . . . . 4.1.3. Objetivo del sistema . . . . . . . . . 4.2. Adquisici´ on de imagen . . . . . . . . . . . . 4.2.1. Material . . . . . . . . . . . . . . . . 4.2.2. Software de adquisici´ on . . . . . . . 4.2.3. Construcci´ on del cubo hiperespectral 4.3. Conclusiones . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

49 49 50 51 55 55 58 60 63 63

5. Detecci´ on de sarna 5.1. Introducci´ on . . . . . . . . . . . . . . . 5.1.1. Objetivos . . . . . . . . . . . . 5.2. Experimento . . . . . . . . . . . . . . 5.2.1. Descripci´ on . . . . . . . . . . . 5.2.2. Segmentaci´ on . . . . . . . . . . 5.2.3. Extracci´ on de caracter´ısticas . 5.2.4. Selecci´ on de caracter´ısticas . . 5.2.5. Algoritmos de clasificaci´on . . . 5.2.6. Evaluaci´ on de clasificadores . . 5.2.7. Mapeo de la superficie afectada 5.3. Resultados y Discusi´ on . . . . . . . . . 5.4. Sistema multiespectral . . . . . . . . . 5.5. Conclusiones . . . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

65 66 66 67 68 69 70 72 74 75 77 77 82 83

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

´INDICE GENERAL

xvii

6. Detecci´ on de coraz´ on hueco 6.1. Introducci´ on . . . . . . . . . . . . . . 6.1.1. Motivaci´ on . . . . . . . . . . 6.2. Experimento . . . . . . . . . . . . . 6.2.1. Segmentaci´ on . . . . . . . . . 6.2.2. Extracci´ on de caracter´ısticas 6.2.3. Selecci´ on de caracter´ısticas . 6.2.4. Algoritmos de clasificaci´ on . . 6.2.5. Procedimiento de evaluaci´ on 6.3. Resultados . . . . . . . . . . . . . . . 6.4. Conclusiones . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

85 . 85 . 87 . 88 . 89 . 90 . 93 . 94 . 94 . 95 . 106

7. Conclusiones 7.1. Conclusiones . 7.2. Contribuciones 7.3. L´ıneas futuras . 7.4. Proyectos . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

109 109 110 113 114

8. Publicaciones relacionadas 8.1. Clasificaci´ on de patatas mediante textura . . . 8.2. Sistema hiperespectral gen´erico . . . . . . . . . 8.3. Visi´ on hiperespectral: coraz´ on hueco en patatas 8.4. Visi´ on hiperespectral: sarna com´ un en patatas .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

115 116 124 130 140

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

xviii

´INDICE GENERAL

´Indice de figuras 1.1. Ejemplos de defectos en patatas. Arriba izquierda: verdeo. Arriba derecha: podredumbre. Abajo izquierda: sarna com´ un. Abajo derecha: coraz´ on hueco. . . . . . . . . . . . . . . . . . . . . . . . 3.1. Diagrama de bloques del experimento de an´alisis de patatas en el espectro visible. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. C´ amara del sistema de an´ alisis de patata en el espectro visible: JAI BB-500GE, junto con su ´ optica. . . . . . . . . . . . . . . . . 3.3. Montaje para el soporte de la c´ amara en sistema de an´alisis de patata en el espectro visible. . . . . . . . . . . . . . . . . . . . . 3.4. Sistema de adquisici´ on del experimento de an´alisis de patata en el espectro visible (vista lateral). Observamos a la izquierda PC y fuente de alimentaci´ on. En la parte superior c´amara e iluminaci´ on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Sistema de adquisici´ on del experimento de an´alisis de patata en el espectro visible (vista frontal). . . . . . . . . . . . . . . . . . . 3.6. Interfaz de usuario del software de la parte de adquisici´on en el sistema de an´ alisis de patata en el espectro visible. . . . . . . . . 3.7. Caja para la automatizaci´ on de la iluminaci´on necesaria en el sistema de adquisici´ on del experimento de an´alisis de patata en el espectro visible. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8. Una de las n im´ agenes escogidas para el conjunto de aprendizaje en el experimento de an´ alisis de patata en el espectro visible. . . 3.9. Cuatro patatas afectadas por verdeo. . . . . . . . . . . . . . . . 3.10. Cuatro patatas afectadas por podredumbre. . . . . . . . . . . . xix

7 25 28 29

30 31 32

33 34 34 35

xx

´INDICE DE FIGURAS 3.11. Etapas de la detecci´ on de ´ areas en el experimento de an´alisis de patata en el espectro visible: (a) B − S, (b) B 0 − R, (c) G − R, (d) resultado final. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.12. Detecci´ on de agrupaciones en patatas (im´agenes y proyecciones) en el experimento de an´ alisis de patata en el espectro visible. a) imagen original; b) imagen rotada 48◦ , con un valle de 109 ocurrencias de profundidad; c) imagen rotada 60◦ , con un valle de 78 ocurrencias de profundidad; d) corte ´optimo encontrado a 60◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.13. Patata finalmente segmentada en el experimento de an´alisis de patata en el espectro visible. . . . . . . . . . . . . . . . . . . . . 3.14. Interfaz del software de manejo del experimento de an´alisis de patata en el espectro visible. . . . . . . . . . . . . . . . . . . . . 3.15. Dos ejecuciones de ejemplo del GA en el experimento de an´alisis de patata en el espectro visible: mejor fitness del ejemplo 1 (a), mejor fitness del ejemplo 2 (b), media de fitness del ejemplo 1 (c) y media de fitness del ejemplo 2 (d). El eje x representa el n´ umero de generaciones (entre 1 y 500), mientras que el eje y representa el valor de fitness. . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1. Explicaci´ on del funcionamiento del espectr´ografo en el sistema de adquisici´ on hiperespectral. Imagen cortes´ıa de Specim Ltd. . . . 4.2. Arriba: ejemplos de im´ agenes espectrales tomadas a distintas l´ıneas del objeto: 1) l´ınea 99, 2) l´ınea 144, 3) l´ınea 230. Abajo: bandas en 978 nm, 1173 nm y 1608 nm, como ejemplos de la correspondencia entre im´ agenes espectrales y cubo hiperespectral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Posibilidades para proporcionar movimiento al sistema de adquisici´ on hiperespectral. . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Cuatro im´ agenes espaciales tras la reconstrucci´on del cubo hiperespectral. Arriba izquierda: 979.99 nm, arriba derecha: 1172.53 nm, abajo izquierda: 1342.60 nm, abajo derecha: 1608.20 nm. . . . . . 4.5. Imagen frontal del sistema de adquisici´on hiperespectral sin (izquierda) y con (derecha) difusor de luz. . . . . . . . . . . . . . . 4.6. Imagen frontal del sistema de adquisici´on hiperespectral sin (arriba) y con (abajo) difusor de luz. . . . . . . . . . . . . . . . . . . 4.7. Imagen del sistema de adquisici´on hiperespectral. . . . . . . . .

36

38 39 44

45 56

56 57

57 58 59 60

´INDICE DE FIGURAS 4.8. Componentes del sistema de adquisici´on hiperespectral: Specim Mirror Scanner (izquierda), Specim Imspector N17E (centro) y Xenics Xeva 1.7-320 (derecha). . . . . . . . . . . . . . . . . . . . 4.9. Opciones de iluminaci´ on descartadas para el sistema de adquisici´ on hiperespectral: Schott DCR III Plus. . . . . . . . . . . . . . 4.10. Interfaz de usuario del software de manejo del sistema de adquisici´ on hiperespectral y de an´ alisis de datos. . . . . . . . . . . . . 4.11. Sistema de adquisici´ on hiperespectral. Izquierda: posici´on inicial de escaneo, en 70◦ . Derecha: posici´ on final de escaneo, en 110◦ . La flecha indica el sentido de escaneo. Esquema del sistema de adquisici´ on hiperespectral: a) c´ amara, b) espectr´ografo, c) esc´aner de espejos, d) objeto, e) difusor pl´ astico, f) l´amparas hal´ogenas. 4.12. Gr´ afica de luminosidad media por banda de una ventana de inter´es en el sistema de adquisici´ on hiperespectral. . . . . . . . . . 5.1. Cuatro ejemplos de patatas afectadas por sarna com´ un. . . . . . 5.2. Diagrama de bloques del experimento de detecci´on de sarna com´ un. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Segmentaci´ on en el experimento de detecci´on de sarna com´ un. Arriba izquierda: imagen tras la binarizaci´on de Otsu. Arriba derecha: imagen tras suavizado gaussiano. Centro izquierda: imagen tras segunda binarizaci´ on. Centro derecha: imagen tras etiquetado de ´ areas conexas. Abajo izquierda: m´ascara para segmentaci´ on del cubo. Abajo derecha: imagen de ejemplo tras aplicar la m´ ascara. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Extracci´ on de caracter´ısticas en el experimento de detecci´on de sarna com´ un. Roi izquierda: superficie sana. Roi derecha: superficie afectada con sarna. . . . . . . . . . . . . . . . . . . . . . . . 5.5. Gr´ aficas de niveles de gris por banda de dos muestras en el experimento de detecci´ on de sarna com´ un. . . . . . . . . . . . . . . . 5.6. Resumen de resultados, en funci´ on del conjunto de datos y del clasificador. El eje y representa el acierto medio de las permutaciones sobre los conjuntos de test usando los par´ametros ´optimos obtenidos durante la fase de validaci´on. . . . . . . . . . . . . . . 5.7. Evoluci´ on de la fase de validaci´ on de la mejor opci´on. El eje x representa las distintas combinaciones de par´ametros, mientras que el eje y representa el porcentaje de acierto medio de las 10 permutaciones con los conjuntos de validaci´on. . . . . . . . . . .

xxi

60 61 61

62 64 67 69

71 72 73

79

79

xxii

´INDICE DE FIGURAS

5.8. Gr´ aficas de cuatro muestras (dos de cada clase) para mostrar las bandas seleccionadas en el experimento de detecci´on de sarna com´ un. Las columnas negras marcan las zonas seleccionadas por el algoritmo de selecci´ on de caracter´ısticas Cfs. El resto de bandas no fueron seleccionadas. El eje x representa las bandas por longitud de onda. El eje y representa el nivel de gris medio por banda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9. Cuatro ejemplos del funcionamiento del sistema de detecci´on de sarna. De izquierda a derecha: cubo hiperespectral original, cubo hiperespectral segmentado, mapa de sarna preliminar, mapa de sarna sin ruido, cubo hiperespectral segmentado con el mapa de sarna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.10. Diagrama de explicaci´ on de la creaci´on de un sistema multiespectral espec´ıfico a partir del sistema hiperespectral experimental. .

80

81 83

6.1. Patatas afectadas por coraz´ on hueco. . . . . . . . . . . . . . . . 86 6.2. Diagrama de fases del experimento de detecci´on del coraz´on hueco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 6.3. Segmentaci´ on en el experimento de detecci´on del coraz´on hueco. 1: binarizaci´ on usando el m´etodo de Otsu. 2: suavizado gaussiano. 3: segunda binarizaci´ on, de umbral fijo. 4: etiquetado de ´areas conexas. 5: m´ ascara para segmentaci´on full. 6: imagen tras aplicar segmentaci´ on full. 7: imagen tras aplicar segmentaci´on core. 8: imagen tras aplicar segmentaci´on border. 9: imagen tras aplicar segmentaci´ on core. . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.4. Gr´ afica de niveles de gris por banda de una muestra en el experimento de detecci´ on del coraz´on hueco. . . . . . . . . . . . . . . 93 6.5. Gr´ afica que representa el porcentaje de acierto en funci´on del m´etodo de segmentaci´ on y del m´etodo de selecci´on de caracter´ısticas en el experimento de detecci´on de coraz´on hueco en patata. La l´ınea indica el acierto medio por m´etodo de segmentaci´on. . . 103 6.6. Gr´ afica que representa el porcentaje de acierto en funci´on del m´etodo de selecci´ on de caracter´ısticas en el experimento de detecci´ on de coraz´ on hueco en patata. . . . . . . . . . . . . . . . . 104 6.7. Gr´ afica que representa el porcentaje de acierto en funci´on del algoritmo de clasificaci´ on en el experimento de detecci´on de coraz´on hueco en patata. . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

´INDICE DE FIGURAS

xxiii

6.8. Bandas seleccionadas tras el experimento de detecci´on de coraz´on hueco en patata. A estas bandas hay que a˜ nadir las tres caracter´ısticas morfol´ ogicas. . . . . . . . . . . . . . . . . . . . . . . . 106 8.1. Art´ıculo del peri´ odico La Regi´ on del 20 de Febrero de 2009. . . . 152

xxiv

´INDICE DE FIGURAS

´Indice de tablas 1.1. Principales hitos de la tesis. . . . . . . . . . . . . . . . . . . . . .

16

3.1. Matriz de confusi´ on con 60 caracter´ısticas del experimento de an´ alisis de patata en el espectro visible. El porcentaje de acierto total es del 86.26 % (226 instancias bien clasificadas de 262). . . .

46

3.2. Matriz de confusi´ on con las 8 caracter´ısticas seleccionadas en el experimento de an´ alisis de patata en el espectro visible. El porcentaje de acierto total es del 87.40 % (229 instancias bien clasificadas de 262). . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

5.1. Porcentajes de acierto en funci´ on del conjunto de datos y el clasificador en el experimento de detecci´on de sarna en patata. . . .

78

5.2. Experimento de detecci´ on de sarna en patata. Matriz de confusi´ on media obtenida con el conjunto de datos Cfs usando el clasificador Svm. El acierto global es 97.1 %. . . . . . . . . . . . .

80

6.1. Porcentaje de acierto de las opciones correspondientes al m´etodo de segmentaci´ on full en el experimento de detecci´on de coraz´on hueco en patata. . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

6.2. Porcentaje de acierto de las opciones correspondientes al m´etodo de segmentaci´ on core en el experimento de detecci´on de coraz´on hueco en patata. . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

6.3. Porcentaje de acierto de las opciones correspondientes al m´etodo de segmentaci´ on border en el experimento de detecci´on de coraz´on hueco en patata. La mejor opci´ on est´a resaltada en color gris. . .

99

xxv

xxvi

´INDICE DE TABLAS

6.4. Porcentaje de acierto de las opciones correspondientes al m´etodo de segmentaci´ on scab en el experimento de detecci´on de coraz´on hueco en patata. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5. Matriz de confusi´ on de la mejor opci´on en el experimento de detecci´ on del coraz´ on hueco (border, genetic, Svm–Lin). El acierto global es del 89.1 %, sobre las 162 muestras del conjunto de test (25 % del total). . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6. Porcentaje de acierto en funci´on del m´etodo de segmentaci´on y del m´etodo de selecci´ on de caracter´ısticas en el experimento de detecci´ on de coraz´ on hueco en patata. . . . . . . . . . . . . . . . 6.7. Porcentaje de acierto en funci´on del m´etodo de selecci´on de caracter´ısticas en el experimento de detecci´on de coraz´on hueco en patata. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8. Porcentaje de acierto en funci´on del algoritmo de clasificaci´on en el experimento de detecci´ on de coraz´on hueco en patata. . . . . .

100

101 102 104 105

´INDICE DE TABLAS

xxvii

xxviii

´INDICE DE TABLAS

Cap´ıtulo 1

Introducci´ on En este cap´ıtulo se contextualiza el trabajo de tesis, hablando de los motivos que han llevado a su realizaci´ on, sus principales objetivos, y un resumen de las actividades llevadas a cabo para ello. Como antecedente a esta tesis doctoral, el alumno ha cursado las titulaciones “Ingenier´ıa T´ecnica en Inform´ atica de Gesti´ on” (2005) e “Ingenier´ıa Inform´atica” (2007) en la Universidade de Vigo. Posteriormente ha cursado el programa de doctorado “Tecnolog´ıas Avanzadas en el Desarrollo de Software Inteligente” (Tadsi), en el bienio 2007/2009 por la Universidade de Vigo. Este programa de doctorado ostenta la menci´ on de calidad otorgada por la Agencia Nacional de Evaluaci´ on de la Calidad y Acreditaci´ on (Aneca). En Julio de 2009 el alumno obtiene el “Diploma de Estudios Avanzados” (Dea) que le permite continuar con el desarrollo de su tesis.

1.1.

Motivaci´ on

Detectar e identificar defectos y enfermedades en patatas (Solanum tuberosum) sigue siendo un desaf´ıo para la ingenier´ıa agroalimentaria. La industria ha usado un gran abanico de tecnolog´ıas, siendo la visi´on artificial una de las opciones m´ as exitosas [Lefebvre et al., 1993, Zhou et al., 1998, Muir et al., 1999, Noordam et al., 2000, Barnes et al., 2010]. Sin embargo, existen nuevos m´etodos que deben ser probados para mejorar el estado del arte en el control de calidad no destructivo en patata. La importancia de la industria de la patata es extrema, ya que la patata 1

2

´ CAP´ITULO 1. INTRODUCCION

es uno de los productos m´ as consumidos en el mundo. En 2007 era el cuarto cultivo alimentario m´ as importante del mundo. La producci´on anual se situaba en 325 millones de toneladas y mov´ıa 6 billones de d´olares. Adem´as, el consumo anual per c´ apita es de 31 kg [Potato World, 2008].

1.1.1.

El proyecto de I+D: VISIOCAL

Visiocal (Sistema para el control de calidad en la industria de la patata y la casta˜ na mediante visi´ on artificial), es un proyecto de investigaci´on iniciado en 2008 en r´egimen de colaboraci´ on por dos centros tecnol´ogicos p´ ublicos gallegos: el Laboratorio Oficial de Metrolox´ıa de Galicia (Lomg) y el Centro Tecnol´oxico da Carne e da Calidade Alimentaria (Ceteca o Ctc). En esta secci´on veremos c´ omo el desarrollo de Visiocal ha condicionado en parte la evoluci´on de esta tesis. El proyecto fue subvencionado por la Conseller´ıa de Econom´ıa e Industria de la Xunta de Galicia (Espa˜ na). Concretamente, recibi´o 173.398,30 euros de los Programas Sectoriales de Investigaci´on aplicada, Peme I+D e I+D Suma del plan Incite de la Direcci´ on Xeral de I+D+i, para las anualidades 2008-2011. El Lomg es un centro tecnol´ ogico p´ ublico dependiente de la Fundaci´on para o Fomento da Calidade Industrial e o Desenvolvemento Tecnol´oxico de Galicia (dependiente a su vez de la Conseller´ıa de Econom´ıa e Industria de la Xunta de Galicia, Espa˜ na), que oferta servicios de metrolog´ıa y calibraci´on a empresas de Galicia y otras partes de la pen´ınsula Ib´erica. El Ceteca es un centro tecnol´ ogico p´ ublico dependiente de la Conseller´ıa de Medio Rural de la Xunta de Galicia (Espa˜ na) que presta servicios a empresas en materia de an´ alisis, seguridad, calidad alimentaria y asesoramiento, y lleva a cabo proyectos de I+D+i como herramienta para servir de apoyo a la industria agroalimentaria gallega.

1.1.2.

Objetivos de VISIOCAL

El objetivo principal del proyecto era dise˜ nar un sistema de inspecci´on no destructivo que permitiese garantizar par´ametros de calidad en la industria de la patata. Para ello, el proyecto fue dividido en las siguientes tareas: 1. Revisi´ on bibliogr´ afica y definici´ on de requisitos (Lomg + Ceteca). 2. Dise˜ nar en las instalaciones del Ceteca una peque˜ na l´ınea de producci´ on que simule las condiciones de luminosidad, color y forma de una l´ınea

´ 1.1. MOTIVACION

3

de envasado de patata (Ceteca). 3. Seleccionar una cantidad suficiente de muestras de patata con diferentes caracter´ısticas varietales, productivas, externas e internas a determinar por el sistema de visi´ on (Ceteca). 4. Crear una base de datos de fotograf´ıas, tomadas en el simulador, que las relacione con sus caracter´ısticas (Ceteca). 5. Dise˜ nar algoritmos para el reconocimiento de variedades de patata mediante visi´ on artificial (Lomg). 6. Dise˜ nar algoritmos para el reconocimiento de caracter´ısticas productivas de patata mediante visi´ on artificial (Lomg). 7. Dise˜ nar algoritmos para el reconocimiento de caracter´ısticas externas en patata mediante visi´ on artificial (Lomg). 8. Dise˜ nar algoritmos para el reconocimiento de caracter´ısticas internas de patata mediante visi´ on artificial, utilizando para ello visi´on hiperespectral (Lomg). 9. Fusi´ on de los algoritmos en un u ´nico software (Lomg). 10. Implementar un sistema piloto para el control de calidad en patata basado en t´ecnicas de visi´ on artificial en una industria procesadora de patatas (Lomg + Ceteca). 11. Estudiar la aplicabilidad de estos algoritmos a otros procesos de la industria alimentaria, como el procesado de casta˜ na (Lomg + Ceteca). A medida que el proyecto avanzaba, esta distribuci´on de tareas fue evolucionando. En primer lugar, y dado que la duraci´on del proyecto era de tres a˜ nos, se decidi´ o efectuar tres campa˜ nas de recogida, de periodicidad anual, en lugar de una sola tarea de selecci´ on de muestras. Esto provoc´o que el sistema se fuese desarrollando de manera iterativa e incremental, mejor´andolo tras la llegada de nuevas muestras, y ampliando sus funcionalidades cada anualidad. Por otro lado, los objetivos se concretaron. La relaci´on de primera mano del Ceteca con la industria de la patata oblig´ o a definir el problema de la detecci´on del coraz´ on hueco en las patatas como el m´ as importante, debido a que contin´ ua siendo especialmente dif´ıcil de resolver, incluso por un operador humano. Esta funcionalidad condicion´ o la mayor parte del presupuesto para inventariable del proyecto.

4

1.1.3.

´ CAP´ITULO 1. INTRODUCCION

Equipos de proyecto

El equipo de proyecto del Ceteca estaba formado inicialmente por el Dr. Jos´e Manuel Lorenzo (como investigador principal del subproyecto), la Dra. Camino Garc´ıa, el investigador Lucio Garc´ıa, y un ingeniero/a t´ecnico agr´ıcola a contratar durante el desarrollo del proyecto. Por su parte, el equipo de proyecto del Lomg estaba formado inicialmente por el Dr. Higinio Gonz´ alez (como responsable del subproyecto), y los investiga´ dores Angel Dacal y Esteban V´ azquez. La situaci´on contractual del doctorando en el Lomg fue un contrato por obra en relaci´on a una subvenci´on “Lucas Labrada” (plan Incite) concedida al centro por la Xunta de Galicia, con duraci´on de dos a˜ nos a lo largo de 2008 y 2009. Con anterioridad, durante 2007, el doctorando trabaj´ o en el Lomg en situaci´on de becario. El papel del doctorando en el subproyecto Lomg fue el de responsable t´ecnico, tanto en la compra de material, como en las reuniones con el Ceteca. As´ı mismo, el doctorando llevaba a cabo la mayor parte de las tareas asignadas al Lomg, apoyado en la fase de implementaci´on de los sistemas de adquisici´on ´ por Esteban V´ azquez, y V´ıctor Alvarez. A finales de 2008, cuando la financiaci´on es concedida, Lomg y Laboratorio de Inform´ atica Aplicada (Lia) de la Universidade de Vigo (grupo al que pertenec´ıan sus directores de tesis) acuerdan que la tesis del doctorando se desarrolle en el marco del proyecto Visiocal, de modo que ciertos objetivos del proyecto sean comunes a la tesis.

1.1.4.

Primera fase del proyecto (2008-2009)

A finales de 2008, tras la concesi´on de la subvenci´on al proyecto, Lomg y Ceteca dieron comienzo a las compras necesarias para llevar a cabo las actividades programadas. As´ı, el Ceteca adquiri´o una l´ınea piloto de envasado que situ´ o en sus instalaciones. Por su parte el Lomg adquiri´o algunas de las piezas necesarias para el montaje de un sistema hiperespectral experimental sensible en el rango infrarrojo. Debido a retrasos provocados por los distintos plazos de ejecuci´on del presupuesto, impuestos por el agente subvencionador, el sistema hiperespectral no pudo ser adquirido en su totalidad hasta mediados de 2009. Por ello, se decidi´ o efectuar una primera campa˜ na de adquisici´on de im´agenes en el rango visible, correspondiente a muestras obtenidas en la recogida de 2008. Para ello, el Lomg realiz´ o un montaje usando una c´amara en color matricial sobre la planta piloto del Ceteca. Esta c´ amara hab´ıa sido adquirida con anterioridad por

´ 1.1. MOTIVACION

5

el Lomg en relaci´ on a una partida presupuestaria independiente de Visiocal. Con estas im´ agenes, el doctorando efectu´o una primera investigaci´on, centrada en la detecci´ on de patatas afectadas por verdeo y podredumbre, mediante an´ alisis de textura en el espectro visible. Este trabajo ser´a tratado en el Cap´ıtulo 3. A mediados de 2009 se termina el montaje del sistema hiperespectral y se comienza su puesta a punto. En el tercer cuarto de 2009 se finaliza dicha puesta a punto, tras el desarrollo de un software espec´ıfico de captura. Veremos todo lo relacionado con el sistema de adquisici´ on hiperespectral en el Cap´ıtulo 4. En el u ´ltimo cuarto del a˜ no, se comienza la adquisici´on de muestras de 2009 mediante el sistema hiperespectral. Esta campa˜ na se adquiere con la intenci´on de ser utilizada principalmente para la detecci´on de coraz´on hueco pero finalmente se utiliza tambi´en para la identificaci´ on de sarna com´ un. La adquisici´on es realizada en su totalidad por el doctorando.

1.1.5.

Colaboraci´ on LOMG-LIA (2010)

A finales de 2009, el equipo de proyecto del Lomg sufre graves contratiempos. As´ı, a principios de 2010, el investigador principal por el Lomg pas´o a ser la Dra. Soledad Torres, en sustituci´ on del Dr. Higinio Gonz´alez, que abandonaba el centro. A finales del 2010 es Jos´e Miguel V´ azquez el que toma la responsabilidad del proyecto. Tambi´en dejaba el Lomg el investigador Esteban V´azquez, rumbo a Gradiant (Galician R&D Center in Advanced Telecommunications). Por ´ u ´ltimo, el contrato que vinculaba al doctorando Angel Dacal con el Lomg expira. El doctorando empezaba as´ı una nueva etapa en el grupo Lia. Ante la imposibilidad por parte del Lomg de continuar con el proyecto por falta de recursos humanos, Lia y Lomg alcanzan un acuerdo de colaboraci´on. En esta colaboraci´ on se definen una serie de objetivos comunes entre Visiocal y la tesis del doctorando, de modo que los resultados obtenidos por el doctorando ser´ an compartidos con el Lomg, mientras que el Lomg pondr´a a disposici´on del Lia sus instalaciones, adem´ as de seguir proporcionando nuevas campa˜ nas de adquisici´ on de imagen. Durante la primera mitad de 2010, el Lomg adquiere una segunda campa˜ na de im´ agenes hiperespectrales, con la intenci´ on de detectar coraz´on hueco, sarna com´ un y clasificar las muestras en funci´ on de su cantidad de materia seca. Lamentablemente, esta segunda campa˜ na de im´agenes hiperespectrales no puede ser utilizada debido a que el protocolo utilizado para la adquisici´on de imagen no es constante y adem´ as fue distinto al de la primera campa˜ na (se cambiaron la iluminaci´ on y el tiempo de exposici´ on, entre otros par´ametros). La falta de

6

´ CAP´ITULO 1. INTRODUCCION

supervisi´ on (el doctorando ya se encontraba en el Lia durante esta campa˜ na), impidi´ o que estas im´ agenes pudiesen ser u ´tiles para esta tesis. Por su parte el doctorando, ya en el Lia, se dedica al estudio de dichas enfermedades y caracter´ısticas, tal y como se reflejar´a en el resto de esta documentaci´ on. Durante la etapa en el Lia, se desarrolla la totalidad de los trabajos de an´ alisis hiperespectral (que veremos en los Cap´ıtulos 5 y 6).

1.2. 1.2.1.

Objetivos y contexto Antecedentes

Esta tesis doctoral parte de los siguientes antecedentes en cuanto a visi´on hiperespectral agroalimentaria: La visi´ on hiperespectral agroalimentaria es una tecnolog´ıa emergente, y es necesario continuar aplic´ andola en nuevos problemas. En los trabajos desarrollados hasta el momento en visi´on hiperespectral agroalimentaria, pocos son los trabajos que emplean un espectr´ografo en el rango infrarrojo, siendo la gran mayor´ıa usuarios de un espectr´ografo en el rango visible. En lo que a visi´ on hiperespectral agroalimentaria infrarroja aplicada a patatas se refiere, los trabajos hasta el inicio de esta tesis se hab´ıan limitado a distinguir patatas de terrones. El resto de contribuciones trabajan en otros rangos de longitudes de onda, usan otro tipo de m´etodos espectrales, o bien realizan un estudio invasivo de las muestras. En el rango visible, ya se han realizado contribuciones en los u ´ltimos a˜ nos.

1.2.2.

Objetivos principales

Como se ha comentado, esta tesis doctoral comparte varios de sus objetivos con el proyecto de investigaci´ on Visiocal. Sin embargo, no todos los objetivos de Visiocal se recogen en esta tesis, y existen objetivos de esta tesis que no se contemplan en Visiocal. Podemos resumir los objetivos principales en las dos siguientes ideas: Dise˜ no y an´ alisis de t´ecnicas de procesamiento de imagen y visi´on hiperespectral para la automatizaci´ on no destructiva de ciertas tareas relativas al

1.2. OBJETIVOS Y CONTEXTO

7

control de calidad en la industria de la patata que hasta el momento se han realizado mediante el uso de recursos humanos y/o de manera destructiva. Entre los problemas de automatizaci´ on, se afrontar´an la clasificaci´on en el espectro visible por podredumbre, verdeo y patatas sanas, y en visi´on hiperespectral infrarroja la detecci´ on del coraz´on hueco, y la estimaci´on del porcentaje de superficie afectada por sarna com´ un. Podemos ver ejemplos de estos defectos en la Figura 1.1

Figura 1.1: Ejemplos de defectos en patatas. Arriba izquierda: verdeo. Arriba derecha: podredumbre. Abajo izquierda: sarna com´ un. Abajo derecha: coraz´on hueco.

1.2.3.

Objetivos secundarios

Para llevar a cabo estos objetivos, ha sido necesario definir una serie de objetivos secundarios: 1. Dise˜ no y montaje de un sistema de adquisici´on en el espectro visible integrado en una planta piloto de procesado de patata. 2. Dise˜ no y montaje de un sistema hiperespectral experimental en el rango infrarrojo.

8

´ CAP´ITULO 1. INTRODUCCION 3. En cada problema, dise˜ no e implementaci´on de experimentos de reconocimiento de patrones que apliquen y adapten algoritmos de procesamiento de imagen para segmentaci´ on y extracci´on de caracter´ısticas, algoritmos de selecci´ on de caracter´ısticas y algoritmos de clasificaci´on. 4. En cada problema, proporcionar una soluci´on compuesta por un subconjunto de caracter´ısticas que maximicen el acierto de un clasificador ajustado. 5. En aquellos problemas en los que el tiempo de ejecuci´on final no es el adecuado, proporcionar un dise˜ no para una soluci´on m´as r´apida.

1.2.4.

Etapas de la tesis

La primera mitad de la tesis se puede entender como de investigaci´on aplicada y desarrollo, por estar en contacto directo con el cliente–socio (Ceteca), ser parte activa del proyecto de investigaci´on Visiocal, y tener acceso a los sistemas de adquisici´ on, compras y burocracia. Durante esta fase se es tambi´en gestor a bajo nivel del proyecto, a niveles econ´omico, temporal, documental y t´ecnico. La segunda mitad de la tesis ha supuesto mayor esfuerzo en investigaci´on b´ asica, sin tanto contacto directo con el cliente final (Ceteca y empresas del sector), ni con la parte f´ısica del sistema (sistemas de adquisici´on). Sin embargo, las decisiones se toman con el conocimiento que se ha adquirido en la anterior mitad, buscando un enfoque aplicado dentro de las limitaciones del nuevo papel. Este cambio en el rol del doctorando se puede apreciar en su participaci´on en las publicaciones y en las distintas metodolog´ıas empleadas. Mientras en la primera mitad el objetivo es dar una soluci´on lo antes posible, y poner a punto los sistemas de adquisici´ on junto con peque˜ nos acercamientos, en la segunda mitad se busca contrastar m´ as las decisiones a tomar, y el enfoque se aleja ligeramente de la implementabilidad inmediata del trabajo desarrollado, dentro de la aplicabilidad general de la tesis.

1.2.5.

Aplicabilidad

El proyecto Visiocal parte de la necesidad de la industria gallega de la patata de mayor automatizaci´ on en sus procesos. En esta industria, el Ceteca es organismo imparcial en la tasaci´ on de precios de producciones de patatas. Por lo tanto, es un interlocutor v´ alido, ya que a´ una las experiencias de un gran n´ umero de empresas envasadoras y productoras de patata con las que habr´ıa

1.2. OBJETIVOS Y CONTEXTO

9

sido imposible contactar en su totalidad. Podemos decir, por consiguiente, que el Ceteca es cliente y socio al mismo tiempo. As´ı pues, la toma de decisiones durante el proyecto ha contado con la visi´on de realidad que provee el Ceteca, que ha puesto voz a las necesidades de la industria. En esta l´ınea, el Ceteca puso ´enfasis en la detecci´on del coraz´on hueco como el mayor desaf´ıo del proyecto, ya que el resto de problemas eran detectables por medios humanos no destructivos, pero el coraz´on hueco segu´ıa siendo un problema a resolver. No obstante, se realizaron visitas a varias empresas de la industria de la patata para conocer de primera mano los procesos y condiciones de trabajo, tanto a nivel procedimental, como de limpieza, distancias entre los distintos componentes, y naturaleza de los distintas piezas de los sistemas. Esto ha ayudado a enriquecer el d´ıa a d´ıa para que no quedase en el tintero que el objetivo u ´ltimo era aportar herramientas u ´tiles que facilitasen estas actividades en la medida de lo posible.

1.2.6.

Interdisciplinaridad

Esta tesis ha sido desarrollada en un ambiente interdisciplinar, en el que la relaci´ on con Ingenieros Industriales, F´ısicos e Ingenieros en Telecomunicaci´on, ha sido continua. Por otra parte, el equipo de proyecto del Ceteca ha estado formado por Ingenieros Agr´ onomos y Bi´ ologos. Esto ha fomentado el intercambio de conocimiento entre todas las partes, siendo la base sobre la que se ha asentado la tesis. Adem´ as, el campo de aplicaci´ on, la industria de la patata, y la agroalimentaria en general, ha marcado gran parte de la investigaci´on. Ha sido necesario profundizar en la problem´ atica de este campo, hasta el punto de que m´as del 50 % de las referencias provienen de aplicaciones en el campo de la ingenier´ıa de alimentos.

1.2.7.

Novedad

La visi´ on hiperespectral es un campo todav´ıa desconocido en el mundo industrial, especialmente en el agroalimentario. Por ello, la introducci´on de estas tecnolog´ıas es fundamental para incentivar el continuo desarrollo innovador en las empresas, aportando soluciones que no eran posibles con anterioridad, o hacerlo de un modo m´ as r´ apido o eficiente. Muestra de la novedad de la tecnolog´ıa hiperespectral, la gran mayor´ıa de las referencias en relaci´ on a este campo datan de fechas posteriores al a˜ no 2007.

10

´ CAP´ITULO 1. INTRODUCCION

Esta tesis pretende ser una contribuci´on m´as en esta tem´atica.

1.2.8.

Impacto

En una industria tan deficitaria tecnol´ogicamente como la agroalimentaria, la introducci´ on de nuevas tecnolog´ıas que automaticen los procesos se convierte en un elemento esencial para su modernizaci´on. Las visitas a varias empresas de la industria de la patata fueron vitales a la hora de comprobar las abundantes necesidades en materia de automatizaci´on y mecanizaci´on, que esta tesis pretende ayudar a paliar dentro de su ´ambito y en la medida de lo posible. Como muestra, podemos observar que existen varias iniciativas en los u ´ltimos a˜ nos para realizar un control de calidad exhaustivo de la producci´on mediante t´ecnicas de visi´ on por computador, con mayor o menor ´exito, pero sin embargo a d´ıa de hoy la mayor´ıa de tareas se siguen realizando de manera manual, con operadores humanos, de modo que el personal necesario es considerable, adem´as de conllevar los consiguientes errores por subjetividad, fatiga o inexperiencia.

1.3.

Producci´ on cient´ıfica

Fruto directo de esta tesis son cuatro publicaciones que se adjuntan en el Cap´ıtulo 8. Una ya ha sido presentada [Dacal-Nieto et al., 2009a], mientras que las otras tres han sido aceptadas para su publicaci´on durante 2011 [Dacal-Nieto et al., 2011a, Dacal-Nieto et al., 2011b, Dacal-Nieto et al., 2011c]. Los resultados tambi´en fueron recogidos en un art´ıculo en prensa [Dacal-Nieto et al., 2009b].

1.4.

Investigaciones relacionadas

1.4.1.

Otros proyectos de investigaci´ on

En esta secci´ on hablaremos de proyectos de investigaci´on que han contado con la participaci´ on del doctorando y que est´an relacionados con esta tesis doctoral. LEAME A lo largo de 2007 y la primera mitad de 2008, se lleva a cabo el proyecto Sistema de lecturas autom´ atico para aplicaciones en metrolog´ıa mediante visi´ on por computador (Leame), dotado con 7500 € por la Universidade de Vigo, cuyo

1.4. INVESTIGACIONES RELACIONADAS

11

objetivo es automatizar ciertas tareas de calibraci´on en el Lomg mediante el uso de t´ecnicas de visi´ on por computador para el reconocimiento de displays de dispositivos digitales. Este proyecto conlleva el primer acercamiento del doctorando con el mundo de la investigaci´ on, y supone el desarrollo de un complejo sistema de adquisici´ on de imagen donde la iluminaci´on juega un papel fundamental. Estos avances han ayudado a planificar e implementar la iluminaci´on en las investigaciones de estudio de patatas. La c´ amara utilizada es una C-Cam BCi4USB (con sensor Cmos color, 1280 × 1024, 14fps, Usb). Fruto de este proyecto son varias publicaciones en revistas [Vazquez-Fernandez et al., 2009a, Mart´ın et al., 2011] y congresos internacionales [Mart´ın et al., 2008a, Vazquez-Fernandez et al., 2008] y nacionales [Mart´ın et al., 2008b, Mart´ın et al., 2009a, Mart´ın et al., 2009b, Vazquez-Fernandez et al., 2009c] en los que ha participado el doctorando. VITICAL El proyecto Sistema para el control de calidad en uva mediante visi´ on artificial (Vitical), se desarrolla durante 2008 y 2009 en colaboraci´on con el Ceteca y la Cooperativa Vitivin´ıcola do Ribeiro, recibiendo alrededor de 190000 € de financiaci´ on de la Conseller´ıa de Medio Rural de la Xunta de Galicia. Su sistema de adquisici´ on coincide con el utilizado en el an´alisis visible en patatas: c´amara JAI BB-500GE (sensor Ccd color 2/3”, 2456 × 2058, 15 fps, GigE Vision) y optica Schneider Cinegon Xenoplan 1.4/17 mm 2/3”, serie Compact 400-1000. ´ En este proyecto el doctorando colabora en la fase de montaje del sistema, muy compleja al tratarse de un sistema que funciona en exteriores y que abarca una zona de inter´es de m´ as de 2 m2 . Tambi´en es el responsable del software a utilizar por el usuario durante el desarrollo del proyecto. La parte de adquisici´on de Vitical y Visiocal (visible) se realiza casi en paralelo y con una abundante retroalimentaci´ on entre ambos. Fruto de este proyecto son dos publicaciones en revistas [Vazquez-Fernandez et al., 2009b, Vazquez-Fernandez et al., 2010a] y congresos nacionales [Vazquez-Fernandez et al., 2010b] en los que ha participado el doctorando. REDILASDI El proyecto Patr´ on de referencia dimensional basado en un interfer´ ometro con l´ aseres de diodo sintonizables de ancho de banda estrecho (Redilasdi), dotado en 2008 con alrededor de 77000 € del Programa de Investigaci´on Fundamental No Orientada del Ministerio de Ciencia e Innovaci´on, utiliza un sistema de adquisici´ on similar a Visiocal y Vitical. Debido a las caracter´ısticas del

12

´ CAP´ITULO 1. INTRODUCCION

proyecto, se adquieren im´ agenes con distintas c´amaras, en un intento por evaluar la mejor opci´ on. As´ı, el doctorando configura sistemas de adquisici´on con varias c´ amaras: la c´ amara JAI BM-500GE, exacta a la utilizada en Vitical y Visiocal, pero en monocromo (sensor Ccd monocromo 2/3”, 2456 × 2058, 15 fps, GigE Vision), la c´ amara JAI CB-200GE muy similar a la anterior (sensor Ccd color 1/1.8”, 1620 × 1236, 25 fps, GigE Vision), la c´amara C-Cam BCi4USB utilizada en Leame (sensor Cmos color, 1280 × 1024, 14 fps, Usb), y una c´ amara Thorlabs DC210C (sensor Ccd, 640 × 480, FireWire). Este proyecto supone un desaf´ıo en las capacidades del doctorando en el dise˜ no de sistemas de adquisici´ on, al utilizar distintas tecnolog´ıas, interfaces y modelos. Al igual que con Vitical, Redilasdi se desarrolla en paralelo a Visiocal, y tambi´en usa la misma c´ amara que la parte visible de Visiocal. MEDGRASA Producci´ on de carne con alta infiltraci´ on intramuscular a partir de terneros frisones castrados de 18 meses de edad; Calidad de la canal y de la carne (Medgrasa) es un proyecto llevado a cabo entre el Ceteca y Coren, dotado con aproximadamente 170000 € proporcionados por el plan Incite de la Xunta de Galicia, que cont´ o en su d´ıa con una peque˜ na colaboraci´on a lo largo de 2009 del Lomg, para la realizaci´ on de un sistema de visi´on artificial para la medici´ on de grasa intramuscular en filetes de vacuno. Este sistema utiliza el sistema de adquisici´ on visible de Visiocal, adaptado a las necesidades espec´ıficas de Medgrasa. Cambia principalmente la iluminaci´on, muy tenue para evitar reflejos innecesarios, ya que la carne est´a reci´en cortada y brilla. Tambi´en se modificaron aspectos relacionados con el enfoque, tiempo de exposici´on y balance de blancos. Las labores del doctorando en este proyecto se centraron en el sistema de adquisici´ on y pruebas preliminares de segmentaci´on y procesamiento de imagen. OVOVIP Ovovip (Determinaci´ on in-ovo del sexo en aves mediante visi´ on hiperespectral), es un estudio de viabilidad dotado con 10000 € de la Xunta de Galicia que coincide a lo largo de 2009 con el desarrollo del sistema hiperespectral y supone un nuevo problema con el que ponerlo a punto. En este caso el objetivo es testar las capacidades del sistema hiperespectral para el sexado de huevos de gallina antes de su eclosi´ on. Se prueba una iluminaci´on hal´ogena por fibra Schott DCR III Plus, con terminaci´ on puntual. Finalmente se opta por el mismo sistema

1.4. INVESTIGACIONES RELACIONADAS

13

utilizado en Visiocal, con focos hal´ ogenos y una campana difusora, ya que la potencia lum´ınica de la fuente no es suficiente para obtener im´agenes de una calidad razonable. Los resultados muestran porcentajes de acierto bajos, debido principalmente a la baja resoluci´ on del sistema y a las inadecuadas condiciones de iluminaci´ on. DETEPRE El proyecto Detepre (Desarrollo e implantaci´ on de nuevas tecnolog´ıas y protocolos en el estudio de ecolog´ıa reproductiva pesquera) nace en 2008 fruto de una colaboraci´ on entre el Instituto de Investigaciones Marinas del Csic (IimCsic), el Departamento de Electr´ onica y Computaci´on de la Universidade de Santiago de Compostela y el grupo Lia del Departamento de Inform´atica de la Universidade de Vigo. Financiado por el plan Incite de la Xunta de Galicia, su principal objetivo es la automatizaci´ on de las tareas de estudios reproductivos llevados a cabo en el Iim-Csic mediante la aplicaci´on de t´ecnicas de visi´on artificial y clasificaci´ on. En este proyecto el doctorando ha supervisado la base de datos del proyecto y colaborado con el desarrollo de la herramienta Govocitos, que es la interfaz de usuario final de manejo del sistema. CARNEVIP-SEGALI En 2009 y 2010, Lomg y Lia (respectivamente) proponen un proyecto de investigaci´ on utilizando el sistema hiperespectral, en este caso colaborando con Ceteca. El objetivo de este proyecto es inspeccionar carne envasada de vacuno y pollo para detectar su salubridad, utilizando el sistema existente infrarrojo, y planteando la adquisici´ on de nuevos componentes que permitan una inspecci´on en el rango visible (400 nm a 1000 nm). Se solicita financiaci´on en convocatorias p´ ublicas durante dos a˜ nos consecutivos, con las denominaciones Carnevip y Segali, pero en ambas ocasiones es denegada. No obstante, el proceso de planificaci´ on y an´ alisis de requisitos resulta beneficioso para el trabajo de tesis y de experiencia con el sistema hiperespectral. ANHIMIGA A mediados de 2010, en paralelo al desarrollo de los trabajos correspondientes a la detecci´ on de sarna y coraz´ on hueco mediante el sistema hiperespectral, surge en el Lia la idea de usar el sistema para la clasificaci´on de miel seg´ un su origen floral. Para asegurar su viabilidad, se realiza un estudio previo que

14

´ CAP´ITULO 1. INTRODUCCION

arroja un porcentaje de ´exito en torno al 98 % de acierto. Esto provoca que se solicite financiaci´ on en una convocatoria p´ ublica, en colaboraci´on con el grupo de Palinolog´ıa de la Facultad de Ciencias de Ourense (Universidade de Vigo), con la denominaci´ on Anhimiga (Estudio de la eficacia del an´ alisis hiperespectral en la caracterizaci´ on del origen bot´ anico de la miel). Al igual que en Ovovip, se prueba una iluminaci´ on por transmisi´on y reflexi´on, pero la carencia de una fuente hal´ ogena con salida puntual de potencia suficiente hizo que se utilizase el m´etodo por reflexi´ on. Esta iniciativa ayuda a generalizar el software creado y el sistema hiperespectral, probando el desarrollo en un problema distinto. COPEVI En 2010, la empresa Josmar S.L., el Centro de Ingenier´ıa Mec´anica y Automoci´ on (Cima) de la Universidad de Vigo y el grupo Lia de la Universidade de Vigo se unen para la realizaci´ on de un proyecto para automatizar el despiece de merluza mediante la aplicaci´ on de t´ecnicas de visi´on artificial. El proyecto, denominado Copevi (Desarrollo de una herramienta de corte ´ optimo de merluza mediante el uso de t´ecnicas de visi´ on artificial), pretende detectar la cola y aletas de los individuos para cortar dichas partes de manera independiente a su tama˜ no, al contrario que de manera fija, tal y como se realiza en la actualidad. Nuevamente el proyecto supone un desaf´ıo para el doctorando en lo referente a adquisici´ on de imagen, componentes y empleo y aplicaci´on de algoritmos de procesamiento de imagen. Otras actividades Durante la fase de puesta a punto del sistema, a lo largo de 2009, tambi´en se prob´ o la eficacia del sistema hiperespectral en otros objetos, como fruta y diversos pl´ asticos. Una de las primeras pruebas del sistema se realiz´o en tiras de madera, con el objetivo de detectar la l´ınea en la que el tronco cambia a su zona central. Este ensayo se realiza por petici´on del centro tecnol´ogico CIS-Madera. Sin embargo, el problema no se pudo resolver, posiblemente debido a que las longitudes de onda no fueron las adecuadas.

1.4.2.

Colaboraciones

El sistema hiperespectral usado es de los primeros montados en Espa˜ na con esas caracter´ısticas. El distribuidor en Espa˜ na, Infaimon, confirma que el sistema presentado es el 5º vendido en Espa˜ na (conjunto Xenics Xeva 1.7-320

´ TEMPORAL 1.5. EVOLUCION

15

+ Imspector N17E), y que a mediados de 2010 se hab´ıan distribuido 8 sistemas en total. Por ello, han sido varios los grupos de investigaci´on que se han puesto en contacto con el doctorando para el asesoramiento en el funcionamiento del sistema. As´ı, el Dr. Javier Tard´ aguila, del “Instituto de Ciencias de la Vid y del Vino” de la Universidad de La Rioja, se puso en contacto para conocer en m´as detalle las partes que conforman el sistema con el objetivo de una futura adquisici´on del mismo, y para asesor´ıa tecnol´ ogica acerca de las decisiones de dise˜ no a tomar. El alumno Enrique Mu˜ noz, de la Ets de Ingenieros Industriales y de Telecomunicaci´ on de la Universidad de Cantabria, tutorizado por la Dra. Olga Mª Conde, tambi´en contact´ o con el doctorando para resolver ciertas dudas t´ecnicas acerca del sistema y problemas encontrados. El Grupo de Ingenier´ıa Fot´onica (Gif), donde el alumno desarrollaba su proyecto fin de carrera, hab´ıa adquirido recientemente el sistema, que se encontraba en una fase de puesta a punto. Este grupo ha comenzado una intensa actividad en visi´on hiperespectral en los u ´ltimos a˜ nos, aplicada a m´ ultiples sectores como el textil y el c´arnico.

1.5.

Evoluci´ on temporal

Durante el desarrollo de esta tesis, y debido en parte a su car´acter aplicado y de relaci´ on directa con otros socios, ha sido necesaria la definici´on de una serie de hitos que han marcado los principales acontecimientos del trabajo realizado. Se presentan en la Tabla 1.1.

1.6.

Organizaci´ on de la memoria

La memoria se organiza del siguiente modo. En el Cap´ıtulo 2 introduciremos brevemente los fundamentos de la visi´ on artificial y el reconocimiento de patrones. A continuaci´ on, los experimentos realizados se detallan en los Cap´ıtulos 3, 4, 5 y 6. Un cap´ıtulo de conclusiones globales (Cap´ıtulo 7) tratar´a de recoger las principales conclusiones que dan respuesta a los objetivos e hip´otesis planteadas. Finalmente se adjunta la producci´ on cient´ıfica directamente relacionada con esta tesis.

16

´ CAP´ITULO 1. INTRODUCCION

A˜ no 2007

Fecha Septiembre

2008

Abril Julio Octubre Octubre

2009

Enero Febrero Marzo Mayo Julio Septiembre Octubre Noviembre

2010

2011

Noviembre Diciembre Todo 2010 Enero Octubre Junio Julio Julio Agosto Septiembre

Hito Inicio del primer curso del programa de doctorado Tadsi. Solicitud de financiaci´on del proyecto Visiocal. Fin del primer curso del programa de doctorado Tadsi. Concesi´ on de financiaci´on para el proyecto Visiocal. Inicio del per´ıodo de Dea del programa de doctorado Tadsi. Dise˜ no y montaje de sistema de adquisici´on visible. Fin de primera campa˜ na de adquisici´on visible. Justificaci´ on anualidad 2008 Visiocal (Lomg). Recepci´ on del sistema hiperespectral. Presentaci´ on y obtenci´on de Dea. Aprobaci´ on de proyecto de tesis por Departamento de Inform´ atica. Justificaci´ on anualidad 2009 Visiocal (Lomg). Presentaci´ on de contribuci´on en conferencia Iecon 2009. Fin puesta a punto de sistema hiperespectral. Campa˜ na de adquisici´on hiperespectral. Investigaci´ on en el ´area hiperespectral. Fin etapa Lomg - Inicio etapa en Lia. Justificaci´ on anualidad 2010 Visiocal (Lia). Fin del proyecto Visiocal. Presentaci´ on y defensa de Tesis. Presentaci´ on de contribuci´on en conferencia Icme 2011. Presentaci´ on de contribuci´on en conferencia Caip 2011. Presentaci´ on de contribuci´on en conferencia Iciap 2011.

Tabla 1.1: Principales hitos de la tesis.

Cap´ıtulo 2

Visi´ on artificial La visi´ on artificial o visi´ on por computador (Computer Vision) es el ´area de conocimiento que estudia teor´ıas y m´etodos para el an´alisis autom´atico de la informaci´ on contenida en im´ agenes [Shapiro & Stockman, 2001]. El desarrollo de los sistemas de visi´ on por computador se ha visto enormemente impulsado por las necesidades de la industria en materia de automatizaci´ on en procesos de inspecci´ on en l´ıneas de montaje o envasado [Crowley & Christensen, 1995]. Esta tecnolog´ıa ha hecho evolucionar especialmente a industrias tradicionalmente deficitarias de automatizaci´ on, como por ejemplo la industria agroalimentaria. Desde este punto de vista, la visi´on por computador ha ayudado a solucionar tareas desempe˜ nadas hist´ oricamente por el ser humano, realiz´andolas de un modo autom´ atico, m´ as r´ apido y controlado. As´ı, podemos decir que la visi´ on por computador ha colaborado en el acercamiento de la industria agroalimentaria al nivel de calidad de otras industrias como la automovil´ıstica, la naval o la aeron´ autica [Brosnan & Sun, 2004]. La visi´ on por computador ha trabajado tambi´en para la sustituci´on del operador humano en materia de detecci´ on, reconocimiento y clasificaci´on de objetos, y de apoyo en la toma de decisiones [Pajares & De la Cruz, 2001]. Aunque el t´ermino visi´ on artificial es el m´as extendido entre los hispanohablantes, la traducci´ on m´ as acertada del t´ermino ingl´es computer vision es posiblemente visi´ on por computador. Conviene distinguir entre computer vision, que son aquellos sistemas de visi´ on artificial m´as orientados a la investigaci´on, y machine vision, m´ as orientados a la aplicaci´on directa en la industria, con una vocaci´ on clara de implantaci´ on y uso, con un cliente real, y alejado de la 17

18

´ ARTIFICIAL CAP´ITULO 2. VISION

investigaci´ on b´ asica. Tambi´en debemos distinguir entre procesamiento de imagen (aquellas t´ecnicas y algoritmos utilizados a bajo nivel) y visi´on por computador (un contenedor de todas las fases necesarias para poner en marcha un sistema).

2.1.

Etapas

La metodolog´ıa cl´ asica de la visi´ on por computador distribuye el proceso de an´ alisis en varias fases, que pueden variar seg´ un la aplicaci´on concreta. Hablamos de un ´ area de conocimiento multidisciplinar y compleja que involucra a varias tecnolog´ıas de naturaleza diversa. En esta tesis doctoral realizaremos una serie de experimentos siguiendo esta metodolog´ıa, adapt´ andola en cada caso a los problemas concretos por estudiar. Adquisici´ on La primera fase parte de la adquisici´on del objeto a formato digital. Por ello, la escena debe ser capturada por alg´ un tipo de sensor. El resultado de esta fase es una imagen o conjunto de im´ agenes representadas normalmente por un array bidimensional de valores enteros o reales, existiendo tantos como canales capturados. A la hora de definir la parte de adquisici´on de im´agenes de un sistema de visi´ on por computador, son muchas las decisiones a tomar. Un buen dise˜ no de esta fase evitar´ a horas de procesamiento posterior, por lo que la retroalimentaci´ on es una buena pr´ actica. Es frecuente realizar varias tandas de adquisici´on, de modo que, tras un breve an´ alisis de las im´agenes obtenidas en la primera fase, si se detectan fallos o se advierten mejoras, se trata de corregir el sistema y se adquiere un segundo conjunto de im´agenes. En primer lugar debemos diferenciar entre im´agenes monocromo (1 canal, conocido habitualmente como blanco y negro), color (habitualmente 3 canales en rojo, verde y azul) y sistemas multiespectrales e hiperespectrales (decenas o cientos de canales). En funci´ on del espectro inspeccionado, podemos tener im´agenes en el rango visible (lo m´ as habitual), o en otras zonas como la infrarroja, la ultravioleta, o el infrarrojo lejano para termograf´ıa. Existen varios tipos de sensores en funci´on de su naturaleza (Ccd, Cmos, InGaAs, ...) y de su tama˜ no. Los sensores se montan normalmente en c´amaras

2.1. ETAPAS

19

industriales que se conectan al computador de maneras muy diversas: CameraLink, Usb, GigabitEthernet, FrameGrabber, etc. Tambi´en entran en juego conceptos de ´ optica (para la elecci´ on de las lentes a acoplar a las c´amaras, en funci´ on del campo de visi´ on y la distancia al objeto). Finalmente ser´ a de extrema importancia la iluminaci´on, que puede generarse en distintos medios (Led, hal´ ogena, fibra, ...), y terminar en m´ ultiples formas (l´ınea, puntual, anular, foco, ...). Es frecuente, as´ı mismo, que sea necesaria la construcci´ on de utillajes y soportes para el sistema, as´ı como la automatizaci´on de procesos, mediante la sincronizaci´ on con l´ıneas o motores. Por u ´ltimo, y a pesar de que las c´ amaras ofrecen sencillas aplicaciones de captura, es probable que sea necesario desarrollar aplicaciones propias para esta labor que cubran todos los puntos anteriores. Preprocesamiento y segmentaci´ on En esta fase se prepara la imagen o im´ agenes para su an´alisis posterior. En el preprocesado se pretende facilitar las tareas posteriores de an´alisis, mientras que la segmentaci´ on es la fase en la que separamos las partes de la imagen motivo del estudio del resto de partes no interesantes, como el fondo. Para todas estas labores se hace imprescindible el manejo de librer´ıas de procesamiento de imagen, como Vxl, Idl, OpenCV [Bradski & Kaehler, 2008] o Intel Ipp, que trabajan sobre el lenguaje C++ en la mayor´ıa de casos. En estas librer´ıas encontraremos definidos multitud de algoritmos y operaciones t´ıpicas de procesamiento de imagen que conviene conocer y dominar. El tiempo es un componente extremadamente importante en todas las tareas de procesamiento de imagen, m´ axime cuando desarrollamos sistemas en tiempo real, que precisan de una respuesta en un tiempo determinado, como son los sistemas a implantar en una l´ınea de envasado o producci´ on. Las t´ecnicas en esta etapa var´ıan desde las binarizaciones a la segmentaci´ on del ´ area de inter´es [Russ, 2007]. Tambi´en se utilizan transformaciones de una imagen en otra (para realzar partes o mejorar el contraste), operaciones locales (como detecci´ on de bordes o reducci´ on de ruido), o morfol´ogicas (como aperturas, cierres, filtrados, etc.) [Gonz´ alez & Woods, 2008]. Extracci´ on de caracter´ısticas En esta etapa el objetivo es representar la imagen (o los objetos contenidos en ella) mediante un vector de caracter´ısticas.

20

´ ARTIFICIAL CAP´ITULO 2. VISION

Llegados a esta fase lo habitual es haber adquirido una serie de im´agenes, haberlas procesado y segmentado, con lo que tenemos un conjunto de muestras, de las que normalmente tenemos cierto conocimiento a priori, que nos permite clasificarlas en una clase o grupo, mediante lo que se conoce como aprendizaje supervisado. Tenemos pues que representar un conjunto de muestras mediante una serie de caracter´ısticas de prop´ osito general (que conocemos por la bibliograf´ıa que son adecuadas a nuestro problema) o espec´ıficas al caso a estudiar. Las t´ecnicas m´ as habituales de representaci´on se centran en la detecci´on de bordes, el an´ alisis de textura [Carri´ on, 2004], y la detecci´on de ´areas conexas. La extracci´ on de caracter´ısticas de textura est´a muy relacionada con la estad´ıstica. Reconocimiento de patrones Una vez disponemos de una representaci´on del problema, se puede desarrollar un experimento de reconocimiento de patrones, que suele constar de una fase de selecci´ on de caracter´ısticas y otra de clasificaci´on. El reconocimiento de patrones es el ´area de conocimiento que trabaja en la clasificaci´ on, descripci´ on y agrupamiento autom´atico de objetos, que tiene por objetivo clasificar informaci´ on extra´ıda de un conjunto de datos. Est´a ´ıntimamente ligada a la inteligencia artificial y la estad´ıstica. El resultado del proceso es un descriptor o modelo, que toma la decisi´on sobre la clase a la que pertenece un patr´on desconocido en funci´on de sus caracter´ısticas. Los patrones parecidos forman clases, que se establecen mediante criterios de proximidad o similitud en funci´ on de las caracter´ısticas con las que se representa el problema. La manera m´ as sencilla de entenderlo es pensar en cada instancia (muestra, patr´ on) como un punto en un espacio de caracter´ısticas de tantas dimensiones como caracter´ısticas, en el cual los puntos cercanos entre s´ı (utilizando una determinada m´etrica de distancia) son de la misma clase (o al menos eso ser´ıa lo deseable). En este contexto, un clasificador es un algoritmo que, dado un conjunto de entrenamiento y una nueva instancia desconocida, determina la pertenencia a una de las clases del problema. Existen multitud de algoritmos de clasificaci´on; entre ellos encontramos clasificadores de m´ınima distancia (que tienen en cuenta la distancia al vector centroide de cada clase), k-NN (que tienen en cuenta la distancia al vecino m´ as pr´ oximo), bayesianos (que se basan en conocimiento previo de las probabilidades del problema), basados en redes neuronales como Mlp (que utilizan una red neuronal de topolog´ıa variable normalmente entrena-

2.1. ETAPAS

21

da previamente con el conjunto de aprendizaje), m´aquinas de soporte vectorial o Svm (que construyen un hiperplano que maximiza el margen de separaci´on entre los ejemplos de las clases del problema), o en ´arboles de decisi´on como Random Forest (una colecci´ on de ´ arboles que primero eval´ uan individualmente la nueva instancia y finalmente escogen la clase m´ as votada entre los ´arboles) [Jain et al., 2000]. Es com´ un realizar una selecci´ on de caracter´ısticas previa, que elimine o pondere el peso de ciertas caracter´ısticas en funci´on de su importancia en la representaci´ on del problema. Evaluaci´ on del sistema La evaluaci´ on de un experimento de reconocimiento de patrones se basa en la medida del acierto (dado como porcentaje de muestras o instancias bien clasificadas) de un conjunto de datos, tambi´en llamado conjunto de muestras. Es evidente que si entrenamos un clasificador con una serie de muestras, no podemos probar su eficacia con las mismas muestras, ya que obtendr´ıamos un resultado falseado. Por ello hay que utilizar alguna estrategia de validaci´on cruzada o derivados. Los m´etodos de validaci´ on cruzada (cross–validation) se basan en dividir el conjunto de datos en varias partes, e ir utiliz´andolas iterativamente como conjuntos de entrenamiento y test, dando como resultado la media de los aciertos parciales. Si utilizamos 10 conjuntos, hablamos de 10–fold cross–validation. Cuando el n´ umero de divisiones coincide con el n´ umero de muestras en el conjunto de datos, hablamos de leave–one–out cross–validation [Weiss & Kulikowski, 1991]. Es decir, cada muestra se clasifica contra el resto de muestras del conjunto.

22

´ ARTIFICIAL CAP´ITULO 2. VISION

Cap´ıtulo 3

An´ alisis de textura en el espectro visible Los sistemas de control de calidad en la industria de la patata han mejorado en los u ´ltimos a˜ nos gracias al aumento de la automatizaci´on. En este desarrollo, la visi´ on artificial ha jugado un papel fundamental, proporcionando soluciones autom´ aticas, no destructivas y objetivas. En este cap´ıtulo presentamos un sistema que clasifica patatas en funci´ on de sus enfermedades externas (podredumbre y verdeo). En primer lugar se utilizan t´ecnicas de procesamiento de imagen para segmentar y extraer caracter´ısticas de las im´agenes. Posteriormente se realiza una fase de selecci´ on de caracter´ısticas dirigida por un algoritmo gen´etico. El proceso de reconocimiento de patrones supervisado se completa con la etapa de clasificaci´ on. Se ha conseguido un 87.4 % de acierto mediante el clasificador 1-nn, utilizando solamente las caracter´ısticas de contraste, disimilaridad, homogeneidad y energ´ıa de los canales H y S (del espacio Hsv).

3.1.

Introducci´ on

La visi´ on por computador se ha convertido en una tecnolog´ıa esencial para el control de calidad en la industria agroalimentaria, que demanda continuamente nuevas y mejores aplicaciones. Existen numerosos ejemplos de esta sinergia en la industria de la patata [Lefebvre et al., 1993, Zhou et al., 1998, Muir et al., 1999]. As´ı, se han implantado exitosamente complejos sistemas comerciales en 23

´ 24 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE los u ´ltimos a˜ nos, lo que demuestra que la visi´on artificial para el control de calidad en patata es una tecnolog´ıa madura. Las t´ecnicas de inteligencia artificial est´an entre las m´as usadas en la visi´on por computador [Goyache et al., 2001, Du & Sun., 2006]. Entre ellas, se ha hecho uso de los algoritmos gen´eticos (Ga’s) [Goldberg., 1989, Holland., 1992] de manera extensiva para m´ ultiples prop´ositos, como por ejemplo incluy´endolos en un clasificador para calcular los pesos de una red neuronal [Guyer & Yang., 2000], o para tareas de segmentaci´ on [Gong & Yang, 2004]. Sin embargo, su uso se ha extendido especialmente como t´ecnica de selecci´ on de caracter´ısticas [Chtioui et al., 1998, G´omez-Sanch´ıs et al., 2008], con el objetivo de obtener un subconjunto con aquellos atributos m´as relevantes (en funci´ on del problema) en un conjunto de datos. El objetivo de este trabajo es desarrollar un sistema de visi´on artificial para el control de calidad que clasifique patatas no lavadas en funci´on de la presencia de varias enfermedades externas de las mismas. Podemos ver un diagrama general del sistema en la Figura 3.1. Actualmente un experto selecciona muestreos de 20 kg de un productor, con el objetivo de detectar el porcentaje de patatas defectuosas y asignar un precio justo a la producci´ on. Este proceso es tedioso y muy sensible a errores humanos, por lo que se recomienda su automatizaci´on.

3.1.1.

Motivaci´ on

El grueso de este trabajo se realiza entre finales de 2008 (coincidiendo con la ´epoca de recogida de la patata) y principios de 2009. Hablamos del primer paso del proyecto Visiocal. El proyecto parte de una serie de defectos y enfermedades presentes en los tub´erculos que es necesario detectar. La planificaci´ on indicaba que algunos ser´ıan abordados mediante visi´on hiperespectral, mientras que otros lo ser´ıan mediante an´alisis colorim´etrico en el espectro visible. Entre estos u ´ltimos encontramos la podredumbre h´ umeda, la podredumbre seca, el verdeo, los da˜ nos mec´anicos, el agusanado, y los gromos, principalmente. Se llev´ o a cabo una campa˜ na de captura de im´agenes, tras la que expertos del Ceteca etiquetaron las im´ agenes indicando, para cada muestra, la pertenencia a cada una de las clases definidas con anterioridad, a las que hay que a˜ nadir los ejemplares sanos. Tras un an´ alisis de las estrategias a seguir, se decide que se aplicar´an t´ecnicas de an´ alisis de textura para la detecci´ on de aquellos defectos en los que el color y la textura es relevante para el experto, como las podredumbres h´ umeda y seca

´ 3.1. INTRODUCCION

25

Figura 3.1: Diagrama de bloques del experimento de an´alisis de patatas en el espectro visible. y el verdeo. Estos defectos parecieron los id´oneos para un enfoque de an´alisis de textura convencional utilizando caracter´ısticas de sobra conocidas y muy testadas en la bibliograf´ıa previa. Para el da˜ no mec´anico, el agusanado, y el resto de defectos, se planifican estrategias espec´ıficas, basadas en caracter´ısticas morfol´ ogicas, pero para un estadio posterior de la investigaci´on. El estudio de estas otras caracter´ısticas no fue abordado finalmente por el doctorando, tras la finalizaci´ on de su relaci´ on con el Lomg y la consiguiente reordenaci´on de sus tareas en el Lia.

´ 26 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE

3.2. 3.2.1.

Experimento Adquisici´ on de imagen

En esta secci´ on se describir´ a el sistema de adquisici´on dise˜ nado para la obtenci´ on de im´ agenes, as´ı como el procedimiento empleado. Recogida de muestras Un conjunto con 47 sacos de patatas (con aproximadamente 20 kg cada uno) fue seleccionado aleatoriamente de dos empresas procesadoras de patata en Xinzo de Limia (Ourense, Espa˜ na) en la ´epoca de recolecci´on de 2008. Los sacos recog´ıan muestras de las tres variedades m´as importantes de la regi´on (Agria, Kennebec y otras variedades rojas), conteniendo patatas sanas y defectuosas con varias enfermedades externas. Es com´ un que las empresas de esta zona no laven las patatas antes de su envasado, por lo que todas las inspecciones deben ser realizadas en presencia de polvo y tierra sobre las patatas. Dise˜ no de la l´ınea piloto Con el objetivo de recrear de la manera m´as realista posible las condiciones reales de funcionamiento, fue construida una peque˜ na l´ınea piloto de envasado de patatas, compuesta por: una tolva de descarga, una mesa de tr´ıa, una cepilladora, una mesa de selecci´ on y una salida. Su principal caracter´ıstica era que estaba compuesta por rodillos de Pvc por los que circulan las patatas, lo cual permite, junto con el avance de la l´ınea (a 0.1 m/s aproximadamente), inspeccionar toda la superficie de las patatas mientras ´estas giran. A esa velocidad, y tomando una imagen cada 500 ms, cada patata se captura entre 8 y 9 veces. Finalmente, el ancho de l´ınea var´ıa entre 0.5 m y 0.8 m. Dise˜ no del sistema de adquisici´ on En funci´ on de la l´ınea piloto dise˜ nada, se llevaron a cabo los c´alculos necesarios para los par´ ametros del conjunto c´amara–´optica. En primer lugar, en lo relativo al tipo de c´ amara, parece una propuesta l´ogica emplear una c´amara lineal que permita la reconstrucci´ on de las im´agenes en funci´on del avance de la l´ınea. Sin embargo, nos encontramos con un problema que lo impide: el avance de la l´ınea es causado por tubos que giran sobre s´ı mismos, por lo que las patatas se mueven a la vez que avanzan. Con este m´etodo de desplazamiento (que es el usual en las empresas envasadoras de patata) es imposible reconstruir las

3.2. EXPERIMENTO

27

patatas utilizando una c´ amara lineal, por lo que necesitamos una captura global mediante una c´ amara matricial. Esta operaci´on ha de realizarse, no obstante, tomando un tiempo de exposici´ on suficientemente bajo, tanto como permite la iluminaci´ on en Ac utilizada (alrededor de 10 ms). A tiempos de exposici´on menores se percibe el parpadeo de la luz, lo cual no garantiza una iluminaci´on estable a lo largo de las im´ agenes obtenidas. A continuaci´ on se determin´ o la resoluci´ on necesaria para la c´amara a comprar. Si tomamos un campo de visi´ on (Fov) como la superficie de la l´ınea que queremos observar (0.5 m a 0.8 m de ancho) y un sensor de 5 Mp (Mega p´ıxeles) de 2456 × 2058, obtenemos una resoluci´ on de: Rc =

F OV mm mm 0,8 m = 0,32 ≈ 0,4 = Rs 2456 pixel pixel pixel

(3.1)

Tomando un margen doble (Nyquist), podemos trabajar con defectos en patata de 0.8 mm, que es razonable para el an´alisis que se busca, teniendo en cuenta los defectos a buscar. Se desea ese detalle de cada patata, porque el objetivo es inspeccionar sacos de aproximadamente 20 kg de patatas, de modo que vamos a tener varias patatas por imagen. Cuantos m´as p´ıxeles podamos inspeccionar por patata, m´ as datos tendremos para poder clasificarlas (dentro de unos l´ımites de presupuesto, capacidad de computaci´on y disponibilidad). Otra de las caracter´ısticas determinantes a la hora de escoger el tipo de camara fue la conexi´ on al PC. Dado el emplazamiento del puesto de adquisici´on de imagen, el est´ andar emergente GigEVision parece el m´as adecuado, ya que permite distancias de cableado c´ amara–PC de m´as de 100 m (frente a los 5 m de Firewire o los 10 m de CameraLink). El Fov a abarcar por el sistema se determina con el tama˜ no del sensor de la c´ amara y la focal de la lente. A medida que disminuye la distancia focal, aumenta el Fov para un determinado tama˜ no de sensor, pero tambi´en aumenta la distorsi´ on geom´etrica de la imagen obtenida. Tomando un tama˜ no de Ccd comercial de 2/3”, que es el m´ aximo disponible en las c´amaras con la resoluci´on adecuada, hay que llegar a un compromiso entre la focal y el Fov que nos permita abarcar la mayor superficie posible minimizando la distorsi´on. Con todo esto, el sensor escogido es un 2/3” Bayer Color ICX625AQA, que es el que monta la c´ amara finalmente escogida: JAI BB-500 GE (Figura 3.2). Para su alimentaci´ on se adquiri´ o una fuente de alimentaci´on regulable, limitada a 12 V. A partir de las especificaciones proporcionadas por el fabricante se realizaron los c´ alculos para la distancia focal, que se resumen en la Ecuaci´on 3.2,

´ 28 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE

Figura 3.2: C´ amara del sistema de an´alisis de patata en el espectro visible: JAI BB-500GE, junto con su ´ optica.

s (mm) β = FTOV (mm) β f 0 = α 1−β

(3.2)

Sea α la distancia desde la superficie a inspeccionar hasta la ´optica. Si consideramos la posibilidad de un ancho de l´ınea de 0.5 m o 0.8 m y tomamos una optica adecuada de 16 mm, tenemos unas dimensiones para el soporte razonables ´ (Ecuaci´ on 3.3). ancho = 0,5 m =⇒ α ≈ 1 m ancho = 0,8 m =⇒ α ≈ 1,5 m

(3.3)

Por otro lado, para la iluminaci´ on se realizaron pruebas in–situ en la l´ınea piloto. Se hicieron diversas comprobaciones de posici´on y tipo de focos (Led, hal´ ogenos, etc.), observ´ andose un mejor comportamiento de focos hal´ogenos con difusores. Se seleccionaron dos focos de 500 W en disposici´on axial sobre la l´ınea, de manera que se cubra toda la superficie, minimizando el efecto de sombras. Se detect´ o un problema en la adquisici´on de imagen debido a las oscilaciones por debajo de un determinado tiempo de exposici´on, que puede ser subsanado sustituyendo las fuentes de Ac por Dc. Cabe destacar la necesidad de que el PC al que se conecte la c´amara disponga de una tarjeta de red Intel PRO/1000 Gigabit Ethernet o compatible, para asegurar el buen funcionamiento con el est´andar GigEVision da c´amara. En la interfaz de red es necesario establecer ciertos par´ametros de configuraci´on, como los Jumbo Frames a valores de m´ as de 9000 bytes.

3.2. EXPERIMENTO

29

Para la fijaci´ on de la c´ amara se dise˜ n´ o un soporte que permite el ajuste de la distancia en funci´ on de la dimensi´ on de l´ınea empleada (Figura 3.3).

Figura 3.3: Montaje para el soporte de la c´amara en sistema de an´alisis de patata en el espectro visible. En las Figuras 3.4 y 3.5 se muestran varias im´agenes del sistema montado y en funcionamiento. Durante el proceso de adquisici´on de imagen se recogieron un total de 5040 im´ agenes de resoluci´ on 2456 × 2048 en formato Tiff. Software de adquisici´ on Para la toma de im´ agenes se ha desarrollado un software espec´ıfico (Figura 3.6), ya que el software proporcionado por el fabricante de la c´amara (JAI) no cubr´ıa las funcionalidades m´ınimas exigibles. Este software hace uso de las librer´ıas JAI Sdk en lenguaje C++. Sus principales caracter´ısticas son: Conexi´ on con c´ amaras JAI y Pulnix de interfaz Gigabit Ethernet Modo zoom, de manera que es posible ampliar una determinada zona de la imagen

´ 30 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE

Figura 3.4: Sistema de adquisici´ on del experimento de an´alisis de patata en el espectro visible (vista lateral). Observamos a la izquierda PC y fuente de alimentaci´ on. En la parte superior c´ amara e iluminaci´on. Establecimiento del tiempo de integraci´on del sensor Diversos modos de realizar balance de blancos: seleccionando una zona de inter´es, introduciendo una serie de valores para R, G y B o autom´atico Diversos modos de captura: imagen simple, capturar imagen cada s segundos t veces, y capturar im´ agenes indefinidamente hasta que se pulse el bot´ on de parada Consulta de la temperatura del sensor Control de los triggers de la c´ amara Los principales desaf´ıos de este software han sido la comunicaci´on con los dispositivos, la integraci´ on de sus librer´ıas, y el uso de hilos. La aplicaci´on ha facilitado notablemente las tareas de adquisici´on, automatizando la recogida de im´ agenes y el encendido y apagado de la iluminaci´on en los momentos oportunos.

3.2. EXPERIMENTO

31

Figura 3.5: Sistema de adquisici´ on del experimento de an´alisis de patata en el espectro visible (vista frontal).

Como complemento a este software, se desarroll´o una aplicaci´on para el enfoque autom´ atico de las im´ agenes, una utilidad que obtiene la medida de enfoque

´ 32 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE

Figura 3.6: Interfaz de usuario del software de la parte de adquisici´on en el sistema de an´ alisis de patata en el espectro visible. (calidad) y hace posible estimar c´ omo de bien enfocados est´an los objetos a inspeccionar, en nuestro caso patatas [Vazquez-Fernandez et al., 2010a]. Concretamente, para cada imagen, calcula la desviaci´on t´ıpica de la transformada Fft de la imagen. De esta manera, y teniendo una imagen fija, se garantiza que el enfoque est´ a establecido en la mejor posici´on posible. Sistema autom´ atico de iluminaci´ on Desde el primer momento se constat´o que era deseable que la iluminaci´on se activase a la vez que la captura de im´ agenes, y que se apagase al terminar ´esta,

3.2. EXPERIMENTO

33

con el objetivo de facilitar las tareas de adquisici´on de imagen. Haciendo uso de los registros y triggers de la c´ amara, fue posible activar y desactivar los focos hal´ ogenos mediante un peque˜ no circuito formado por una resistencia y un rel´e. La caja dise˜ nada facilita las tareas de conexi´on y desconexi´on en el montaje, prevee posibles errores de conexi´ on, y da un paso m´as en la automatizaci´on del sistema (Figura 3.7).

Figura 3.7: Caja para la automatizaci´ on de la iluminaci´on necesaria en el sistema de adquisici´ on del experimento de an´ alisis de patata en el espectro visible.

3.2.2.

Clasificaci´ on por expertos

Expertos del Ceteca seleccionaron un conjunto representativo de im´agenes a partir del conjunto original. Esta selecci´on conten´ıa n = 305 im´agenes (como las de la Figura 3.8). El conjunto de aprendizaje fue generado mediante la selecci´ on de p = 1206 patatas. Se identificaron nueve clases en funci´on de las enfermedades y porcentajes de defectos: buenas, con podredumbre seca, con podredumbre h´ umeda, con verdeo, deformes, agusanadas, con da˜ nos mec´anicos, con gromos y con sarna. Tras ver la distribuci´on de estos defectos (apenas hab´ıa muestras de algunas clases) se tom´ o la decisi´ on de trabajar u ´nicamente con tres clases: buenas (sin ning´ un defecto), con ´ areas podridas (m´as de un 10 % de superficie) y con verdeo (m´ as de un 25 % de superficie), dejando el resto de clases para trabajos posteriores. En la Figura 3.9 podemos ver cuatro patatas afectadas por verdeo, mientras que en la Figura 3.10 vemos cuatro patatas afectadas por podredumbre.

´ 34 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE

Figura 3.8: Una de las n im´ agenes escogidas para el conjunto de aprendizaje en el experimento de an´ alisis de patata en el espectro visible.

Figura 3.9: Cuatro patatas afectadas por verdeo.

3.2. EXPERIMENTO

35

Figura 3.10: Cuatro patatas afectadas por podredumbre.

3.2.3.

Preprocesado y segmentaci´ on

La librer´ıa de c´ odigo abierto OpenCV [Bradski & Kaehler, 2008] ha sido utilizada en la implementaci´ on, en su versi´ on para C++. El proceso de segmentaci´ on para separar las patatas del fondo ha sido dividido en tres etapas: primero detectamos las a´reas de inter´es, luego identificamos estas ´ areas como objetos y finalmente le indicamos al sistema c´omo evitar identificar agrupaciones de patatas como una u ´nica patata. 1. Detecci´ on de ´ areas La imagen original en espacio de color Rgb imagen se transforma al espacio de color Hsv. El color azul intenso de los rodillos se retira del canal H (valores desde 214 a 228 en base 360 se ponen a 0). Una nueva imagen Rgb (imagen0 ) se construye a partir de S, V y la reci´en modificada H. Sean R0 , G0 y B 0 los canales Rgb de imagen0 . Si utilizamos las relaciones existentes entre los canales Rgb y Hsv de imagen e imagen0 obtenemos: G − R resalta las patatas en color oscuro (casi negro). Sin embargo, ciertas partes de los rodillos y las gu´ıas comparten ese color. B − S remarca las partes oscuras de los rodillos que se confunden con las patatas. B 0 − R remarca las partes oscuras de las gu´ıas y otras sombras que se mezclan con las patatas.

´ 36 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE La idea es retirar las partes remarcadas en B − S y B 0 − R de G − R. Previamente se realizan ciertas operaciones de binarizaci´on, desenfocado y cierre [Russ, 2007] en B − S y B 0 − R. Finalmente, B − S y B 0 − R son usadas como m´ ascaras en la binarizaci´on de G − R. Tras esta operaci´on se obtiene una imagen binaria de las patatas y el fondo (Figura 3.11).

Figura 3.11: Etapas de la detecci´ on de ´areas en el experimento de an´alisis de patata en el espectro visible: (a) B − S, (b) B 0 − R, (c) G − R, (d) resultado final. 2. Identificaci´ on de objetos La segunda parte del proceso de segmentaci´on es la identificaci´on de las regiones conexas como objetos. En esta fase es necesario resolver ciertos problemas, como impedir considerar como objetos independientes al ruido que pudo pasar de la fase anterior. El resultado de esta fase es una nueva imagen por cada regi´ on conexa, con fondo negro. 3. Segmentaci´ on de agrupaciones de patatas En este punto es com´ un que grupos de patatas se hayan considerado como una u ´nica patata dentro de la misma imagen, debido a su proximidad.

3.2. EXPERIMENTO

37

Para evitarlo, vamos a detectar istmos en cada patata potencial mediante el siguiente algoritmo (Figura 3.12). Para cada ´ angulo α entre 0◦ y 180◦ , con incrementos de 6◦ : La imagen es rotada α◦ . Calculamos la proyecci´ on vertical de la imagen rotada. Detectamos m´ aximos locales en la proyecci´on [Mart´ın, 2003], buscando picos en vecindades de 40 p´ıxeles (adecuado para el tama˜ no de las patatas). Si hay por lo menos dos m´ aximos locales, buscamos el m´ınimo entre los dos mayores. Si este m´ınimo est´a bajo un umbral (40 % de la altura da proyecci´ on), el m´ınimo es a˜ nadido a una lista de istmos potenciales. Cuando todas las rotaciones est´ an testadas, el mejor istmo es usado para dividir la imagen verticalmente, creando dos sub–im´agenes. Sus cajas envolventes (bounding–box) son ajustadas al nuevo contenido, y el algoritmo se ejecuta de nuevo para asegurar que solo haya una patata en cada una de las dos im´agenes generadas. Este algoritmo se aplica recursivamente hasta que no existen istmos en ninguna imagen (Figura 3.13). Se trata de una operaci´on que consume bastante tiempo, aunque es dependiente del n´ umero de patatas en la imagen. Se han registrado tiempos de ejecuci´ on de hasta 10 segundos (en im´agenes donde las patatas se encuentran apelotonadas), aunque la media est´a en torno a 4 segundos. De todos modos esta condici´ on es solucionable pasando las patatas de manera m´ as separada en la l´ınea de envasado.

´ 38 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE

Figura 3.12: Detecci´ on de agrupaciones en patatas (im´agenes y proyecciones) en el experimento de an´ alisis de patata en el espectro visible. a) imagen original; b) imagen rotada 48◦ , con un valle de 109 ocurrencias de profundidad; c) imagen rotada 60◦ , con un valle de 78 ocurrencias de profundidad; d) corte ´optimo encontrado a 60◦ .

3.2. EXPERIMENTO

3.2.4.

39

Extracci´ on de caracter´ısticas

El prop´ osito del experimento no es implementar un modo directo de detectar cada clase, sino extraer caracter´ısticas gen´ericas de textura y estimar el porcentaje de acierto de manera estad´ıstica sobre un conjunto de entrenamiento. Las caracter´ısticas listadas a continuaci´ on (Ecuaciones 3.4 a 3.13), han sido escogidas entre las propuestas para estudio de texturas presentes en [Graves & Batchelor, 2004], y est´ an basadas en el an´ alisis de estad´ısticos de primer orden de histogramas y en matrices de co–ocurrencia de niveles de gris (Glcm) [Gonz´alez & Woods, 2008].

Figura 3.13: Patata finalmente segmentada en el experimento de an´alisis de patata en el espectro visible.

´ 40 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE

M edia = x ¯ = V arianza = Curtosis

Simetria

Contraste

=

=

=

N 1 X xi N i=1

(3.4)

N 1 X (xi − x ¯ )2 N i=1

(3.5)

N X 1 (xi − x ¯ )4 − 3 N ∗ V arianza2 i=1

(3.6)

N P

1 N



1 N

(xi − x ¯ )3

i=1 N P

(xi − x ¯)2

 23

(3.7)

i=1

N −1 X

Pi,j (i − j)2

(3.8)

Pi,j |i − j|

(3.9)

i,j=0

Disimilaridad

=

N −1 X i,j=0

Homogeneidad

=

Energia

=

N −1 X

Pi,j 1 + (i − j)2 i,j=0 v u N −1 uX t Pi,j 2

(3.10)

(3.11)

i,j=0

Entropia

=

N −1 X

Pi,j [−ln(Pi,j )]

(3.12)

i,j=0

Correlacion =



 (i − µ )(j − µ ) i j  q Pi,j  σi2 σj2 i,j=0 N −1 X

(3.13)

Para cada canal Rgb y Hsv se obtienen: media, varianza, curtosis y simetr´ıa del histograma y contraste (inercia), disimilaridad, homogeneidad, energ´ıa, entrop´ıa y correlaci´ on de la matriz de co–ocurrencia de niveles de gris. Utilizar estad´ısticos de primer orden de histograma y de matrices de co–

3.2. EXPERIMENTO

41

ocurrencia de niveles de gris es un acercamiento t´ıpico en este tipo de problemas, por lo que pareci´ o una buena estrategia para este estadio del proyecto. Quiz´ as lo m´ as relevante haya sido extraer dichas caracter´ısticas no solo en los tres canales R, G y B, como es usual, sino tambi´en de los canales de otro espacio de color como H, S y V . Haciendo esto es evidente que estamos proporcionando informaci´on redundante al clasificador. Lo permitimos contando en que existir´a una fase posterior de selecci´ on de caracter´ısticas que deber´ a realizar una criba de las mismas y quedarse con las m´ as representativas. A continuaci´ on se propone un aprendizaje supervisado partiendo de un conjunto de muestras representadas por f = 60 caracter´ısticas m´as el atributo clase. El conjunto de aprendizaje es gestionado por una base de datos MySql.

3.2.5.

Clasificaci´ on

En esta fase se ha hecho uso del software Weka [Weka, 2011] para un testeo preliminar de los algoritmos a utilizar. As´ı, se han probado Random Forest, Naive Bayes, entre otros, resultando finalmente el algoritmo del vecino m´as pr´ oximo (1-nn) por su simplicidad y robustez [Jain et al., 2000]. En las evaluaciones llevadas a cabo, se ha hecho uso de la estrategia leave– one–out cross–validation, un procedimiento muy extendido en los problemas de reconocimiento de patrones [Weiss & Kulikowski, 1991]. En los pr´oximos cap´ıtulos veremos otro m´etodo similar, basado en la generaci´on de permutaciones del conjunto de datos y su divisi´ on en conjuntos de entrenamiento, validaci´on y test. Previa a la clasificaci´ on, se realizar´ a una selecci´on de caracter´ısticas por medio de un algoritmo gen´etico, de modo que las f = 60 caracter´ısticas extra´ıdas hasta el momento se reduzcan a un subconjunto que maximice el acierto del clasificador. Posteriormente se comparar´ a la eficiencia del clasificador usando 60 caracter´ısticas y usando el subconjunto seleccionado.

3.2.6.

Selecci´ on de caracter´ısticas

Efectuar una selecci´ on de caracter´ısticas es una estrategia de sobra conocida en problemas de reconocimiento de patrones. Existen numerosas t´ecnicas, en funci´ on del m´etodo utilizado para validar. En todo caso, el n´ ucleo del problema se basa en que tenemos 2f posibilidades distintas de subconjuntos de caracter´ısticas. La b´ usqueda secuencial queda descartada por su coste computacional, por lo que la b´ usqueda se puede representar como un problema de

´ 42 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE optimizaci´ on en un espacio de estados. En este caso, una de las aproximaciones cl´ asicas son los algoritmos gen´eticos. Podemos ver aplicaciones similares en otros trabajos de control de calidad en el mundo agroalimentario [Chtioui et al., 1998, G´omez-Sanch´ıs et al., 2008]. En [G´ omez-Sanch´ıs et al., 2008] se realiza una comparativa de los algoritmos gen´eticos con otros m´etodos (Correlation analysis, Mutual information y Stepwise multivariate regression), mostrando que el algoritmo gen´etico se adapta mejor a su problema. El algoritmo gen´etico usado es uno ad–hoc basado en la estructura cl´asica. Sus principales pasos son: 1. Creaci´ on de la primera generaci´on aleatoriamente (crear pop individuos con f genes en cada uno de sus cromosomas) 2. Ejecutar los siguientes pasos mientras el n´ umero de generaciones gen no se alcance: Fitness: evaluar la poblaci´ on, calculando el fitness de cada individuo Selecci´ on: seleccionar pop/2 individuos de entre los mejor adaptados Cruce: cruzar los pop/2 individuos seleccionados en parejas, creando dos nuevos individuos por cada par Sustituir: los pop/2 individuos no cruzados por los nuevos creados por la operaci´ on de cruce Mutaci´ on: mutar aleatoriamente la poblaci´on 3. Cuando gen se alcance, retornar el mejor individuo (aquel con el mejor fitness a lo largo de todas las generaciones) En este algoritmo definimos las siguientes operaciones: cromosoma: es un array binario con f 0’s y 1’s. Definimos una relaci´on entre la posici´ on i–´esima del cromosoma y la caracter´ıstica i–´esima de las patatas. Un 1 (activaci´ on) en la posici´on i–´esima del cromosoma significa que esa caracter´ıstica se tiene en cuenta en el clasificador. La consecuencia es que cada cromosoma representa un espacio de caracter´ısticas distinto donde los puntos (las patatas) se clasifican de un modo diferente. fitness: para evaluar el acierto de un cromosoma c, evaluamos el porcentaje de acierto del clasificador usando solamente dichos subconjunto de caracter´ısticas, y adem´ as tenemos en cuenta el n´ umero de ceros en el

43

3.2. EXPERIMENTO

cromosoma (lo cual debe reducir el n´ umero de caracter´ısticas seleccionadas a lo largo de las generaciones). La funci´on de fitness se explica en los Algoritmos 3.2.1 y 3.2.2. Algorithm 3.2.1: fitness(chromosome c)   p p P ( p1 evaluation(potatoesi , c))( numzeros(c)) i=1

Algorithm 3.2.2: evaluation(potato k, chromosome c) | 1 : if (1nn(k, c).class == k.class) | 0 : otherwise La funci´ on fitness eval´ ua la adecuaci´ on de un cromosoma al problema. Para ello eval´ ua todo conjunto de datos con dicho cromosoma, ponderando el resultado (que es el porcentaje de acierto) por la ra´ız cuadrada del n´ umero de posiciones a cero en el cromosoma, para premiar aquellos cromosomas con pocos unos (que utilizan pocas caracter´ısticas). La evaluaci´on de cada patata para un cromosoma dado utiliza el clasificador del vecino m´as pr´ oximo (1-nn) con distancia Eucl´ıdea [Shapiro & Stockman, 2001], en el espacio de caracter´ısticas definido por el cromosoma. selecci´ on: se ha usado el m´etodo de la Ruleta como operador de selecci´on. Este m´etodo selecciona a los individuos en funci´on de su fitness, de modo que la probabilidad de ser seleccionado pi es directamente proporcional a c´ omo de bueno fue su f itness(i): pi =

f itness(i) N P f itness(j)

(3.14)

j=1

cruce: el operador de cruce utilizado ha sido el cruce por un punto (OnePoint Crossover), donde los cromosomas de los padres se cortan en un punto seleccionado aleatoriamente, y las piezas resultantes se intercambian, creando los cromosomas de los dos hijos. Tras el cruce, los cromosomas no cruzados se sustituyen por los reci´en creados, hijos de los cromosomas cruzados.

´ 44 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE mutaci´ on: en cada generaci´ on, algunos individuos mutan dependiendo de una probabilidad de mutaci´ on definida mut = 0, 003. Cuando un individuo muta, uno de los f genes de su cromosoma cambia (de 0 a 1 o de 1 a 0). gen ha sido establecido en 500, tal y como recomienda [Chtioui et al., 1998]. El comportamiento esperado es que los mejores individuos (aquellos con mejores fitness o fenotipos) transmitan parte de sus c´odigos gen´eticos (cromosomas o genotipos) a las siguientes generaciones. En este caso el algoritmo para tras un cierto n´ umero de generaciones, siendo el resultado el cromosoma del mejor individuo a lo largo de todas las generaciones. El algoritmo se controla con un software espec´ıfico propio desarrollado por el doctorando (Figura 3.14).

Figura 3.14: Interfaz del software de manejo del experimento de an´alisis de patata en el espectro visible.

´ 3.3. RESULTADOS Y DISCUSION

3.3.

45

Resultados y discusi´ on

Se han realizado varias ejecuciones del algoritmo para la selecci´on de caracter´ısticas, mostrando no solamente el descubrimiento de buenos individuos, sino tambi´en la evoluci´ on global de las poblaciones creadas (Figura 3.15).

Figura 3.15: Dos ejecuciones de ejemplo del GA en el experimento de an´alisis de patata en el espectro visible: mejor fitness del ejemplo 1 (a), mejor fitness del ejemplo 2 (b), media de fitness del ejemplo 1 (c) y media de fitness del ejemplo 2 (d). El eje x representa el n´ umero de generaciones (entre 1 y 500), mientras que el eje y representa el valor de fitness. Analizando los mejores individuos tras varias ejecuciones, se han encontrado los siguientes resultados: Las caracter´ısticas extra´ıdas de los canales H y S han sido seleccionadas en pr´ acticamente todos los experimentos. Homogeneidad y disimilaridad han sido las caracter´ısticas m´as seleccionadas, teniendo en cuenta todos los canales. Casi todas las caracter´ısticas de primer orden (media, varianza y simetr´ıa) no se seleccionaron, a excepci´ on de la curtosis.

´ 46 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE Con esta informaci´ on, se ha seleccionado un subconjunto de caracter´ısticas, formado por contraste, disimilaridad, homogeneidad y energ´ıa de los canales H y S. A continuaci´ on se presentan los resultados del clasificador (1-nn) usando una evaluaci´ on leave–one–out cross–validation, utilizando todas las caracter´ısticas (Tabla 3.1) y el subconjunto de caracter´ısticas seleccionado (Tabla 3.2). ``` ``` Clasificada ``` Buena ``` Realmente Buena 65 Podrido 11 Verdeo 2

Podrido

Verdeo

4 122 5

9 5 39

Tabla 3.1: Matriz de confusi´ on con 60 caracter´ısticas del experimento de an´alisis de patata en el espectro visible. El porcentaje de acierto total es del 86.26 % (226 instancias bien clasificadas de 262). ``` ``` Clasificada ``` Buena ``` Realmente Buena 67 Podrido 10 Verdeo 2

Podrido

Verdeo

4 122 4

7 6 40

Tabla 3.2: Matriz de confusi´ on con las 8 caracter´ısticas seleccionadas en el experimento de an´ alisis de patata en el espectro visible. El porcentaje de acierto total es del 87.40 % (229 instancias bien clasificadas de 262). El uso del subconjunto seleccionado mejora el rendimiento del clasificador, que pasa de un 86.26 % a un 87.40 %. En cuanto a tiempo de ejecuci´on, a pesar de la mejora, el sistema no puede proporcionar una respuesta en tiempo real para cada imagen (en 500 ms, que es el tiempo transcurrido entre cada adquisici´ on de imagen). Sin embargo, recordemos, el prop´osito del experimento es estudiar muestreos de 20 kg para asignar el precio a pagar al productor, en funci´ on de los defectos detectados. En ese caso, el tiempo invertido en la adquisici´ on de imagen (breves minutos) m´ as el tiempo de an´alisis (menor a 10 segundos por imagen) compensa al dedicado por el experto (varios minutos), adem´as de permitir reasignar su tiempo en otras tareas de mayor cualificaci´on. De todos

3.4. CONCLUSIONES Y L´INEAS FUTURAS

47

modos, el sistema descrito no abarca, por el momento, todas las caracter´ısticas exigidas a inspeccionar.

3.4.

Conclusiones y l´ıneas futuras

Este trabajo ha supuesto el desarrollo de un sistema de captura espec´ıfico para el proyecto, que comparte muchas caracter´ısticas con el desarrollado para el proyecto Vitical. El proceso de segmentaci´on se basa en colorimetr´ıa y proyecciones morfol´ ogicas. La segmentaci´ on ha supuesto el desarrollo de una t´ecnica propia de procesamiento de imagen para la segmentaci´on gen´erica de areas conexas tangentes que se basa en la detecci´on de m´aximos locales y valles ´ en sus proyecciones. Se han utilizado caracter´ısticas de textura de primer y segundo orden en las bandas de color Rgb y Hsv. Tras un proceso de selecci´on de caracter´ısticas guiado por un algoritmo gen´etico, se ha usado un algoritmo de clasificaci´ on 1-nn con distancia Eucl´ıdea que ha sido validado mediante la metodolog´ıa leave–one–out cross–validation. Se ha comprobado que las caracter´ısticas de contraste, disimilaridad, homogeneidad y energ´ıa sobre los canales H y S maximizan la predicci´on de clasificaci´ on hasta m´ as de un 87 % de acierto. Los canales H y S se corresponden a la tonalidad y a la saturaci´ on. Esto confirma que el color es una caracter´ıstica importante para el problema, ya que si no fuese relevante, cabr´ıa esperar que se seleccionasen caracter´ısticas del canal V , el correspondiente al brillo. Tambi´en se ha comprobado la hip´ otesis de que realizar una selecci´on de caracter´ısticas es una pr´ actica adecuada para el experimento. El acierto se ha incrementado de un 86.26 % a un 87.40 %, adem´as del ahorro de c´alculos al pasar de 60 a 8 caracter´ısticas en solo 2 canales. A partir de la selecci´ on de caracter´ısticas, concluimos tambi´en que el espacio de color Hsv es m´ as adecuado para el problema, ya que ninguna caracter´ıstica del espacio Rgb ha sido seleccionada. En el futuro ser´ a necesario realizar una evaluaci´on m´as rigurosa, comparando el funcionamiento de los algoritmos utilizados en este experimento con otras t´ecnicas de selecci´ on de caracter´ısticas y clasificaci´on.

´ 48 CAP´ITULO 3. ANALISIS DE TEXTURA EN EL ESPECTRO VISIBLE

Cap´ıtulo 4

Sistema de adquisici´ on hiperespectral En este cap´ıtulo se describir´ a el sistema de adquisici´on hiperespectral utilizado en dos experimentos de esta tesis que ser´an presentados en los Cap´ıtulos 5 y 6. El sistema se ha utilizado y refinado en otros proyectos de investigaci´on, tal y como hemos visto en la introducci´ on. Hablamos de un banco de pruebas para investigaci´ on, que se ha construido con el objetivo de ser modificable, portable, configurable y f´ acilmente ampliable. Como veremos, el tiempo de ejecuci´ on tiene un cuello de botella en lo relacionado con el escaneo del objeto y la construcci´on del cubo hiperespectral. Esto supone que el sistema va a proporcionar una respuesta v´alida, en un tiempo de ejecuci´ on que puede no resultar de implantaci´on directa en la industria con la tecnolog´ıa actual. Sin embargo, los resultados de los experimentos que vamos a realizar nos dar´ an las claves para el dise˜ no de una soluci´on m´as r´apida.

4.1.

Introducci´ on

La visi´ on hiperespectral es una tecnolog´ıa emergente dise˜ nada originalmente para inspecci´ on remota por sat´elite con prop´ ositos militares [Goetz et al., 1985], pero que se ha extendido para su uso en astronom´ıa y observaci´on del terreno. Sin embargo, en los u ´ltimos a˜ nos ha comenzado a aplicarse en an´alisis no destructivos en la industria agroalimentaria, por proporcionar un acercamiento a la espectrograf´ıa convencional. As´ı, a pesar de una peque˜ na p´erdida de precisi´on, 49

50

´ HIPERESPECTRAL CAP´ITULO 4. SISTEMA DE ADQUISICION

la visi´ on hiperespectral permite inspeccionar un objeto en un espacio de tiempo considerablemente menor, y siempre de modo no destructivo. Estas posibilidades est´ an abriendo un nuevo campo de conocimiento alrededor de la inspecci´on hiperespectral agroalimentaria, tal y como veremos en pr´oximas secciones. La visi´ on hiperespectral a´ una dos tecnolog´ıas diferentes que han coexistido separadas hasta el momento: la espectrograf´ıa, que obtiene informaci´on espectral de un objeto, y la visi´ on artificial, que obtiene (adem´as de otras cosas) informaci´ on espacial. La salida de un sistema de adquisici´on hiperespectral es un conjunto de im´ agenes dentro de un rango de longitudes de onda, conocido como cubo hiperespectral. Esto significa que, para cada p´ıxel en la imagen, disponemos de un conjunto de valores que indican c´omo var´ıa ese p´ıxel a lo largo del rango de longitudes de onda definido. Es interesante marcar la diferencia entre visi´on hiperespectral (que proporciona cientos de longitudes de onda contiguas), visi´on multiespectral (que proporciona decenas de longitudes de onda escogidas ´optimamente, no necesariamente contiguas), y las im´ agenes en color (habitualmente tres bandas, centradas en las longitudes de onda del rojo, verde y azul). Existen sistemas de visi´ on hiperespectral en las zonas ultravioleta, visible, infrarrojo cercano (Nir), infrarrojo e infrarrojo lejano. En cualquier caso, el tiempo para analizar un objeto (normalmente varios segundos) es significativamente menor que con espectrograf´ıa convencional.

4.1.1.

Motivaci´ on

En las conversaciones de Lomg y Ceteca, el equipo de proyecto de Visiocal (entre los que se encontraba el doctorando), enumera unos objetivos para los cuales es necesario plantear alternativas y soluciones. Como ya hemos dicho con anterioridad, la detecci´ on del coraz´on hueco era una de las funcionalidades m´ as requeridas por parte de la industria, y merec´ıa un tratamiento especial. El resto de funcionalidades (caracter´ısticas externas principalmente) parec´ıan resolubles con un sistema cl´ asico de visi´on artificial. Fue entonces cuando se pusieron encima de la mesa las distintas tecnolog´ıas que hab´ıan tratado con el problema hasta ese momento. La ac´ ustica y la espectrograf´ıa convencional hab´ıan tratado directa o indirectamente con el problema con resultados razonables. Sin embargo, cabe recordar que el proyecto buscaba otros objetivos para los cuales la visi´ on artificial segu´ıa siendo la mejor opci´on. La espectrograf´ıa infrarroja ha sido empleada para inspecci´on destructiva y no destructiva en los u ´ltimos a˜ nos. Por su parte, la visi´on hiperespectral permite, adem´ as un an´ alisis no invasivo, el uso de caracter´ısticas morfol´ogicas

´ 4.1. INTRODUCCION

51

al disponer de imagen tradicional al mismo tiempo. Adem´as, otro motivo para la composici´ on de un sistema hiperespectral eran las posibilidades que abr´ıan como banco de pruebas para otros proyectos. El trabajo de ensamblado, puesta a punto, pruebas y desarrollo del software de adquisici´ on se desarrolla en el u ´ltimo trimestre de 2008 y primera mitad de 2009. Los plazos y anualidades del proyecto Visiocal, del cual se obtienen fondos para la adquisici´ on del sistema, fuerzan que los componentes se compren por separado en las anualidades 2008 y 2009. As´ı, en 2008 se comienza a resolver la comunicaci´ on con la c´ amara infrarroja, mientras que en 2009 el conjunto c´ amara–espectr´ ografo se env´ıa a calibrar a la sede de Specim en Finlandia, y es en el tercer trimestre de 2009 cuando se resuelve la iluminaci´on del sistema, la sincronizaci´ on para el escaneo y el resto de problemas encontrados.

4.1.2.

Estado del arte

La investigaci´ on en visi´ on hiperespectral ha experimentado un considerable inter´es por parte de la comunidad cient´ıfica en los u ´ltimos a˜ nos. A continuaci´on presentamos algunos de los grupos que han trabajado en aplicaciones de la visi´on hiperespectral para el control de calidad en la industria agroalimentaria.

University McGill El grupo de la University McGill de Montreal, Canada, formado por Shiv O. Prasher, Michael Ngadi, Ning Wang, y Claude Gariepy, entre otros, ha investigado desde 2007 c´ omo medir par´ ametros f´ısico–qu´ımicos en carne de cerdo, como humedad, pH y color [ElMasry et al., 2007, Qiao et al., 2007a, Qiao et al., 2007b, Xing et al., 2007]. En [ElMasry et al., 2007] se estudia el contenido de agua y nivel de acidez en fresas, usando un espectr´ ografo sensible de 400 nm a 1000 nm (Specim V10E), consiguiendo un 89 % de acierto. En [Qiao et al., 2007a, Qiao et al., 2007b] se utiliza un espectr´ografo sensible en el rango visible y Nir (400 nm a 1000 nm) para clasificar carne porcina en funci´ on de caracter´ısticas de color, logrando aproximadamente un 85 % de acierto. Baljinder Singh, del mismo grupo, ha intentado predecir el contenido de agua en patatas [Singh, 2005], as´ı como clasificarlas usando t´ecnicas de espectrograf´ıa.

52

´ HIPERESPECTRAL CAP´ITULO 4. SISTEMA DE ADQUISICION

Hokkaido University El grupo de A. Al–Mallahi, T. Kataoka, H. Okamoto, and Y. Shibata de la Hokkaido University ha trabajado en la aplicaci´on de visi´on hiperespectral a la detecci´ on de terrones en un conjunto de patatas [Al-Mallahi et al., 2008, AlMallahi et al., 2009]. Se utiliza el espectr´ografo Specim V10, desarrollando un experimento que finalmente da como resultado un acierto del 98 % utilizando muestras h´ umedas. Richard B. Russell Center Bosoon Park, y Kurt C. Lawrence, entre otros, del centro de investigaci´on Richard B. Russell (GA, USA) han estudiado desde 2006 la detecci´on de contaminantes fecales en carne de pollo [Park et al., 2006, Park et al., 2007], la identificaci´ on de bacterias y pat´ ogenos [Park et al., 2008, Yoon et al., 2009], y otros indicadores de seguridad alimentaria. En [Park et al., 2006, Park et al., 2007, Park et al., 2008] se utiliza un sistema sensible de 430 nm a 900 nm para detectar presencia de restos fecales en carne de ave. Se desarrolla un experimento supervisado, contaminando manualmente ciertas zonas de un individuo, logrando un acierto superior al 96 %. Beltsville Agricultural Research Center Kuanglin Chao, Chun-Chieh Yang, y Moon S. Kim, entre otros, del centro de investigaci´ on Beltsville Agricultural Research Center, USA, han centrado su investigaci´ on en la identificaci´ on de defectos en pollo y manzanas [Liu et al., 2007, Yang et al., 2009], as´ı como en la detecci´on de bacterias y evidencias microbianas en biofilms [Jun et al., 2009, Chao et al., 2009]. En [Liu et al., 2007] se pretende detectar restos fecales en manzanas mediante un experimento supervisado utilizando el rango de 447 nm a 951 nm, y se concluye que con dos bandas es suficiente para una clasificaci´on adecuada. En [Yang et al., 2009] se utiliza un espectr´ografo Specim V10 sobre una l´ınea para determinar el estado sanitario de carcasas de pollo, y se iguala el acierto de un operador humano. FRCFT El Food Refrigeration & Computerized Food Technology group (Frcft) de la National University of Ireland, con Da–Wen Sun, Cheng–Jin Du, y Aoife Gowen, entre otros, han publicado varias reviews [Du & Sun, 2004, Du & Sun.,

´ 4.1. INTRODUCCION

53

2006, Zheng et al., 2006] y libros [Sun, 2006, Sun, 2009] sobre control de calidad alimentario usando visi´ on hiperespectral, as´ı como varias contribuciones sobre deterioro de la calidad en champi˜ nones [Gowen et al., 2007, Gowen et al., 2008]. Por ejemplo en [Gowen et al., 2008] encontramos un sistema para la clasificaci´ on de champi˜ nones en funci´ on de su nivel de deterioro. Se utiliza el espectr´ ografo Specim V10E, y se consigue alrededor de un 70 % de acierto.

Michigan State University Renfu Lu, Diwan P. Ariana, y Daniel Guyer entre otros, de la Michigan State University, USA, centran su investigaci´on en la detecci´on de defectos en cerezas [Guyer & Yang., 2000, Xing et al., 2008] y en la evaluaci´on de calidad en pepinillos [Ariana & Lu, 2008, Ariana & Lu, 2010]. En [Guyer & Yang., 2000] se utiliza un sistema ´optico sensible entre 680 nm y 1280 nm. Aunque no se trata de un sistema hiperespectral tal y como se desarroll´ o posteriormente, nos da una idea de las posibilidades de la tecnolog´ıa. Consigue un acierto del 73 %. En [Xing et al., 2008] se utiliza un espectr´ografo Specim V10 (400 nm a 1000 nm) para la detecci´ on de la infestaci´ on de insectos en cerezas. Se utiliza un algoritmo gen´etico para determinar la importancia de las bandas, quedando claro que las m´ as pr´ oximas al rango Nir son m´as interesantes, y obteniendo un acierto de aproximadamente el 85 %. En [Ariana & Lu, 2008, Ariana & Lu, 2010], se utiliza nuevamente el Specim Imspector V10E sensible en rango visible y Nir, para clasificar pepinillos seg´ un su grado de deterioro, alcanzando aciertos del 86 %.

IVIA El grupo de J. Blasco, N. Aleixos, E. Molt´o and J. G´omez–Sanch´ıs del Instituto Valenciano de Investigaciones Agrarias (Ivia) es pionero en la aplicaci´on de visi´ on hiperespectral para el control de calidad en frutos c´ıtricos [G´omez-Sanch´ıs et al., 2007, G´ omez-Sanch´ıs et al., 2008, Blasco et al., 2009]. En [G´ omez-Sanch´ıs et al., 2008] se utilizan dos espectr´ografos sensibles en los rangos 460 nm a 720 nm y 730 nm a 1020 nm para la detecci´on de podredumbre en mandarinas. Se desarrolla un experimento supervisado en el que se obtienen aciertos del 91 %.

54

´ HIPERESPECTRAL CAP´ITULO 4. SISTEMA DE ADQUISICION

GIF Pilar Beatriz Garc´ıa-Allende y Olga M. Conde, entre otros, del Grupo de Ingenier´ıa Fot´ onica (Gif) de la Universidad de Cantabria, han estado investigando el uso de visi´ on hiperespectral para control de calidad agroalimentario desde una perspectiva gen´erica, adem´ as de clasificaci´on de materiales [Garc´ıa-Allende et al., 2008a, Garc´ıa-Allende et al., 2008b, Garc´ıa-Allende et al., 2010a, Garc´ıaAllende et al., 2010b]. INIT Adolfo Mart´ınez, Filiberto Pla y Pedro Garc´ıa, miembros del Institute of New Imaging Technologies (Init) de Castell´on, anteriormente en la Universitat Jaume I, han realizado investigaciones para el control de calidad de fruta en las que han empleado visi´ on multiespectral en el espectro visible para la etapa de segmentaci´ on [Martinez et al., 2005a, Martinez et al., 2005b]. UPV En la Universidad del Pa´ıs Vasco, Artzai Pic´on ha investigado el uso de visi´ on hiperespectral para distinguir materiales aprovechando la distinta respuesta espectral de los mismos [Pic´ on, 2008]. Nebraska University G.K. Naganathan de la Nebraska University, USA, ha trabajado en la inspecci´ on de par´ ametros de ternura en carne vacuna [Naganathan et al., 2008] usando visi´ on hiperespectral. En esta contribuci´on se utiliza un sistema de adquisici´ on basado nuevamente en el Specim V10E y se consigue un acierto del 96 % clasificando distintos niveles de ternura. Otros Utilizando espectrograf´ıa invasiva convencional, encontramos contribuciones [Haase, 2006, Buning-Pfaue, 2003] que investigan caracter´ısticas en la composici´ on de patatas, como cantidad de agua, prote´ınas o almid´on, mientras que otras [Kang et al., 2004, Kang et al., 2008] predicen cantidad de materia seca y gravedad espec´ıfica.

´ DE IMAGEN 4.2. ADQUISICION

4.1.3.

55

Objetivo del sistema

Teniendo en cuenta las posibilidades de la visi´on hiperespectral, el objetivo es desarrollar un sistema de adquisici´ on en el rango Nir para el an´alisis de m´ ultiples enfermedades y defectos en patatas, f´acilmente modificable para su uso en m´ ultiples prop´ ositos. El sistema de adquisici´ on servir´ a como primer paso de un banco de pruebas sobre el que desarrollar experimentos de reconocimiento de patrones supervisados.

4.2.

Adquisici´ on de imagen

El concepto de la visi´ on hiperespectral es realizar un an´alisis espectrogr´afico de la luz reflejada o transmitida por un objeto de inter´es. Esto se consigue, en u ´ltimo t´ermino, acoplando una c´ amara matricial y un espectr´ografo. El sensor matricial de la c´ amara obtiene desde ese momento informaci´on espacial y espectral en lugar de espacial. Sea α la resoluci´ on del eje x del sensor. Sea β la resoluci´on del eje y del sensor. Sea γ el n´ umero de im´ agenes tomadas por el sistema de adquisici´on en cada sesi´ on. Sea λi la longitud de onda inicial del sistema, y λf la final. Sea ∆λ la distancia media entre longitudes de onda. El espectr´ ografo (Figura 4.1) tiene una u ´nica l´ınea de entrada, con α p´ıxeles de ancho y un p´ıxel de alto. El eje x representa una coordenada espacial. En este momento, cada p´ıxel de la l´ınea es analizado por el espectr´ografo para estudiar c´ omo este p´ıxel var´ıa a lo largo del rango de longitudes de onda disponible, obteniendo β valores para cada p´ıxel. De este modo, el eje y representa una coordenada espectral. Al estar conectados el espectr´ ografo y el sensor de la c´amara, el sensor obtiene del eje x α valores espaciales, y del eje y β valores espectrales, en lugar de simplemente valores espaciales. Podemos ver ejemplos de las im´agenes espectrales obtenidas en la Figura 4.2. El proceso explicado hasta el momento describe c´omo inspeccionar una u ´nica l´ınea espacial del objeto. Para obtener informaci´on del resto del objeto, es preciso inspeccionar m´ as l´ıneas, lo cual se obtiene con alg´ un tipo de movimiento (Figura 4.3). Concretamente podemos: mover el objeto, mover el conjunto c´amara–espectr´ ografo, o proporcionar una decisi´ on h´ıbrida basada en la rotaci´on de un espejo localizado entre la c´ amara y el objeto. Esta soluci´on permite mantener est´aticos

56

´ HIPERESPECTRAL CAP´ITULO 4. SISTEMA DE ADQUISICION

Figura 4.1: Explicaci´ on del funcionamiento del espectr´ografo en el sistema de adquisici´ on hiperespectral. Imagen cortes´ıa de Specim Ltd.

Figura 4.2: Arriba: ejemplos de im´ agenes espectrales tomadas a distintas l´ıneas del objeto: 1) l´ınea 99, 2) l´ınea 144, 3) l´ınea 230. Abajo: bandas en 978 nm, 1173 nm y 1608 nm, como ejemplos de la correspondencia entre im´agenes espectrales y cubo hiperespectral.

el objeto y el conjunto c´ amara–espectr´ografo. En la Figura 4.4 se muestran algunas im´agenes una vez el cubo hiperespectral es construido.

´ DE IMAGEN 4.2. ADQUISICION

57

Figura 4.3: Posibilidades para proporcionar movimiento al sistema de adquisici´ on hiperespectral.

Figura 4.4: Cuatro im´ agenes espaciales tras la reconstrucci´on del cubo hiperespectral. Arriba izquierda: 979.99 nm, arriba derecha: 1172.53 nm, abajo izquierda: 1342.60 nm, abajo derecha: 1608.20 nm.

58

4.2.1.

´ HIPERESPECTRAL CAP´ITULO 4. SISTEMA DE ADQUISICION

Material

Un sistema experimental de adquisici´on hiperespectral fue puesto a punto tal y como puede verse en las Figuras 4.5, 4.6 y 4.7.

Figura 4.5: Imagen frontal del sistema de adquisici´on hiperespectral sin (izquierda) y con (derecha) difusor de luz. El sistema ha sido dise˜ nado para la inspecci´on no destructiva en la industria agroalimentaria a lo largo de la regi´ on Nir del espectro. Existen soluciones de caja negra en el mercado, pero el objetivo era crear un sistema formado por componentes individuales de modo que se permita intercambiar partes de otros sistemas, e interactuar de una manera m´as completa con cada componente. As´ı, se acoplaron una c´ amara infrarroja con un espectr´ografo Swir–Nir, ambos sensibles desde 900 nm hasta 1700 nm. La c´amara es una Xenics Xeva 1.7–320 [Xenics, 2011] (Figura 4.8, derecha) con un sensor InGaAs de resoluci´on 320 × 256 y conexi´ on USB. El espectr´ografo es un Specim Imspector N17E [Specim, 2011a] (Figura 4.8, centro). Un esc´aner de espejos con conexi´on RS-422 de Specim [Specim, 2011b] (Figura 4.8, izquierda) se acopl´o al espectr´ografo. Es importante destacar que el conjunto c´ amara–espectr´ografo es indivisible una vez calibrado. Sin embargo, el esc´ aner de espejos puede ser acoplado y desacoplado del sistema sin ning´ un problema. El sistema se completa con tres focos hal´ogenos de 50 W (Ac) posicionados

´ DE IMAGEN 4.2. ADQUISICION

59

Figura 4.6: Imagen frontal del sistema de adquisici´on hiperespectral sin (arriba) y con (abajo) difusor de luz.

en tri´ angulo para proporcionar iluminaci´ on al objeto a inspeccionar, que ha de colocarse en el centro de la placa de inspecci´on. La luz se difumina mediante la reflexi´ on en una estructura pl´ astica que cubre la zona de inspecci´on. Se probaron otras fuentes de iluminaci´ on hal´ogenas basadas en salidas de fibra puntuales [Schott, 2011a, Schott, 2011b] (Figura 4.9) y focos hal´ogenos de 500 W, pero el comportamiento del sistema (especialmente condicionado por la sensibilidad de la c´ amara) no fue el deseado. Recordemos que trabajamos en infrarrojo, por lo que un Led no nos proporciona iluminaci´on, y otras opciones

60

´ HIPERESPECTRAL CAP´ITULO 4. SISTEMA DE ADQUISICION

Figura 4.7: Imagen del sistema de adquisici´on hiperespectral.

Figura 4.8: Componentes del sistema de adquisici´on hiperespectral: Specim Mirror Scanner (izquierda), Specim Imspector N17E (centro) y Xenics Xeva 1.7-320 (derecha). carecen de uniformidad en el rango de trabajo.

4.2.2.

Software de adquisici´ on

Para el manejo del sistema de adquisici´on, se ha elaborado un framework usando librer´ıas de c´ odigo abierto y el lenguaje de programaci´on C++. Este framework (Figura 4.10) se ha completado con cada experimento, por lo que

´ DE IMAGEN 4.2. ADQUISICION

61

Figura 4.9: Opciones de iluminaci´ on descartadas para el sistema de adquisici´on hiperespectral: Schott DCR III Plus. sus funcionalidades abarcan desde la adquisici´on al an´alisis de los datos.

Figura 4.10: Interfaz de usuario del software de manejo del sistema de adquisici´ on hiperespectral y de an´ alisis de datos. Casi todos los componentes listados en la Secci´on 4.2.1 proporcionan aplicaciones comerciales que permiten el manejo parcial del componente. Sin embargo, estas aplicaciones no cubren todas las funcionalidades requeridas, de modo que el uso de las Api’s (interfaces de programaci´on de aplicaciones) de los componentes fue el u ´nico modo de controlarlos en un modo de operaci´on avanzado. C´ amara: Un aspecto a tener en cuenta en relaci´on a la c´amara del sistema es que las tolerancias de un sensor InGaAs son de alrededor del 1 %, lo que

62

´ HIPERESPECTRAL CAP´ITULO 4. SISTEMA DE ADQUISICION causa un alto n´ umero de p´ıxeles da˜ nados. Para solucionar esto, la Api de Xenics proporciona archivos de calibraci´on, que no son m´as que filtros de interpolaci´ on de los p´ıxeles da˜ nados dentro de un tiempo de integraci´on dado. Sin embargo, debido a las caracter´ısticas propias del sistema de adquisici´ on, fue necesario crear nuevas calibraciones espec´ıficas.

Mirror Scanner: La comunicaci´ on con el esc´aner de espejos se realiz´o usando la interfaz RS-422. En este caso no existe Api, de modo que fue necesario buscar alg´ un protocolo compatible con la versi´on del motor del esc´aner. Finalmente, un lenguaje de programaci´on basado en el est´andar MCode de Intelligent Motion Systems permiti´o acceder a un peque˜ no espectro de comandos, orientados principalmente al movimiento del motor. Esto ha permitido cubrir una ventana de unos 40◦ sobre el objeto (Figura 4.11).

Figura 4.11: Sistema de adquisici´ on hiperespectral. Izquierda: posici´on inicial de escaneo, en 70◦ . Derecha: posici´ on final de escaneo, en 110◦ . La flecha indica el sentido de escaneo. Esquema del sistema de adquisici´on hiperespectral: a) c´ amara, b) espectr´ ografo, c) esc´ aner de espejos, d) objeto, e) difusor pl´astico, f) l´ amparas hal´ ogenas. El principal desaf´ıo del escaneo es la sincronizaci´on entre el movimiento del motor del esc´ aner de espejos y la adquisici´on de im´agenes. La cadencia de movimiento del motor depende de la distancia entre el objeto y el esc´aner de espejos. Cuanto m´ as cerca se encuentre, menos tiempo es necesario entre movimiento y movimiento, de modo que mover el espejo demasiado r´apido aplanar´a el objeto, y moverlo demasiado lento lo alargar´a. La distancia est´andar a la que se ha ajustado el sistema hace necesario mover el motor del esc´aner 780 pasos de motor entre cada adquisici´ on de imagen.

4.3. CONCLUSIONES

63

Finalmente, el escaneado completo de un objeto lleva aproximadamente 30 segundos al sistema. El cuello de botella se produce en el giro del espejo durante el escaneo. Este tiempo no puede ser reducido.

4.2.3.

Construcci´ on del cubo hiperespectral

Para obtener el cubo hiperespectral, se realiza la transposici´on de las im´agenes espectrales seg´ un el Algoritmo 4.2.1. Seg´ un las definiciones, el sistema trabaja con α = 320, β = 256, γ = 320, λi = 900 nm, λf = 1700 nm, y ∆λ = 3 nm. Algorithm 4.2.1: hipercube(f olderd) for (i = 0; i < β; i + +)  imSpectral = createImage(α x γ)    while(∃ more images in d)  column = 0 do exit(column) = imSpectral(i) do      column + +    saveImage(i); Esto significa que del sistema se obtienen 320 im´agenes espectrales de 320 × 256 p´ıxeles, que son convertidas a un cubo hiperespectral compuesto por 256 im´ agenes de 320 × 320 p´ıxeles, correspondientes a longitudes de onda entre 900 nm y 1700 nm aproximadamente. La construcci´ on del cubo hiperespectral es una operaci´on costosa computacionalmente, y su tiempo de ejecuci´ on var´ıa en funci´on del equipo donde se realice. En un equipo reciente, se han registrado tiempos de aproximadamente 40 segundos. Aunque las posibilidades de an´ alisis de datos ser´an detalladas en los pr´oximos cap´ıtulos de la memoria, es de destacar que podemos seleccionar una zona del cubo hiperespectral (ventana de inter´es) y obtener un gr´afico de c´omo var´ıa la luminosidad media de esa ventana a lo largo del rango de longitudes de onda del sistema (Figura 4.12).

4.3.

Conclusiones

Se ha construido y puesto a punto un sistema de visi´on hiperespectral infrarrojo utilizando componentes independientes, lo cual nos ha permitido un

64

´ HIPERESPECTRAL CAP´ITULO 4. SISTEMA DE ADQUISICION

Figura 4.12: Gr´ afica de luminosidad media por banda de una ventana de inter´es en el sistema de adquisici´ on hiperespectral. control exhaustivo de cada dispositivo, y abre la puerta a futuras modificaciones que de haber utilizado un enfoque de caja negra no ser´ıan posibles. En el futuro ser´ıa interesante adquirir un sistema an´alogo en el rango visible, utilizando un enfoque similar. Podr´ıa emplearse el espectr´ografo Specim Imspector V10E (sensible de 400 nm a 1000 nm) junto con una c´amara matricial monocromo en el mismo rango (por ejemplo la JAI BM-141GE). Disponiendo ambos sistemas en vertical (no en horizontal, como acabamos de presentar), y desechando la posibilidad del Specim Mirror Scanner, podr´ıamos introducir un desplazador lineal bajo los dos sistemas hiperespectrales (como se puede ver en la Figura 4.3 a), con lo cual un objeto podr´ıa ser escaneado en visible, y a continuaci´ on en infrarrojo. As´ı, obtendr´ıamos informaci´on del objeto con dos cubos hiperespectrales (de muy distinta resoluci´on), que ser´ıan de gran utilidad para ampliar el alcance y sensibilidad de los experimentos a realizar. Esta idea ha sido desarrollada en los proyectos Carnevip–Segali y Anhimiga para el estudio de carne y miel, respectivamente. Complementar el sistema presentado en este cap´ıtulo con otro sistema en el espectro visible que ampl´ıe sus capacidades permitir´ıa nuevos y m´ as completos experimentos utilizando visi´on hiperespectral.

Cap´ıtulo 5

Detecci´ on de sarna La sarna com´ un es una enfermedad cut´ anea de las patatas y otros tub´erculos, causada por la bacteria Streptomyces Scabies, que sigue siendo actualmente un problema para la industria. Su presencia reduce la calidad del producto y por ello, su incidencia debe ser medida como indicador de calidad, ya que influencia notablemente el precio a pagar al productor. En este cap´ıtulo presentamos un nuevo m´etodo objetivo para la detecci´ on autom´atica y no destructiva de sarna com´ un en patatas, basado en el uso de visi´ on hiperespectral en el rango infrarrojo. Para ello utilizamos el sistema de adquisici´on experimental descrito en el Cap´ıtulo 4. Con ´el adquirimos un conjunto de im´agenes de patatas Agria con el que estudiar el problema. Mediante la selecci´on manual de ventanas de inter´es en los cubos hiperespectrales, obtenemos muestras individuales de zonas sanas y afectadas por sarna com´ un. A continuaci´ on se ha realizado un experimento de reconocimiento de patrones que ha constado de selecci´on de caracter´ısticas y clasificaci´ on. Con la selecci´ on de caracter´ısticas se prueban distintos subconjuntos de bandas para representar el problema. Por su parte, se han aplicado los algoritmos de clasificaci´ on Svm (Support Vector Machines o m´aquinas de soporte vectorial) y Random Forest. El sistema alcanza un 97.1 % en el acierto usando el clasificador Svm. El funcionamiento del sistema mide la cantidad de sarna en una patata mediante la clasificaci´ on de cada p´ıxel de su cubo hiperespectral. Con los resultados de las predicciones se crea un mapeo de la incidencia de sarna. Este sistema experimental da un resultado v´alido, pero adem´as proporciona la informaci´ on necesaria para dise˜ nar un sistema multiespectral m´as r´ apido. 65

66

5.1. 5.1.1.

´ DE SARNA CAP´ITULO 5. DETECCION

Introducci´ on Objetivos

En el Cap´ıtulo 4 hemos comprobado las posibilidades de la visi´on hiperespectral aplicadas al control de calidad en la industria agroalimentaria. El espectro de actuaci´ on es muy amplio, y cubre desde fruta hasta carne, pasando por hortalizas y hongos. En lo referente a patatas, algunos trabajos [Al-Mallahi et al., 2008, AlMallahi et al., 2009] se han orientado a la detecci´on de terrones entre grupos de patatas. Sin embargo, trabajos basados en espectrograf´ıa convencional [Haase, 2006, Buning-Pfaue, 2003, Kang et al., 2004, Kang et al., 2008] han demostrado que es posible investigar caracter´ısticas internas como cantidad de agua, almid´ on, prote´ınas o materia seca en patatas. Otros trabajos m´as antiguos [Porteous et al., 1981] sugieren la posibilidad de detectar sarna com´ un, gangrena y otras enfermedades, usando un rango de longitudes de onda entre 590 nm y 2030 nm. Estas investigaciones logran hasta un 83 % de acierto, pero o bien sus procedimientos son destructivos, o son dif´ıcilmente integrables en otros sistemas de visi´ on artificial m´ as complejos. Siendo la visi´ on hiperespectral un acercamiento a los m´etodos de espectrograf´ıa, pero siempre desde una perspectiva no invasiva, el objetivo de este cap´ıtulo es estudiar la detecci´ on de sarna com´ un en patatas utilizando el sistema de visi´ on hiperespectral descrito en el Cap´ıtulo 4. Si bien uno de los principales objetivos de esta tesis es la detecci´on del coraz´ on hueco en patata, durante su desarrollo se plante´o la hip´otesis de que la presencia de sarna com´ un podr´ıa entorpecer la detecci´on del coraz´on hueco. Para ello, se comenz´ o una investigaci´ on paralela para la detecci´on de sarna com´ un, utilizando el mismo sistema de adquisici´on y un planteamiento de experimento similar. El uso del mismo sistema de adquisici´on es fundamental en el ahorro de material necesario y tiempo, ya que podemos efectuar varios an´alisis con la misma imagen. As´ı, a pesar de que pueden existir otros m´etodos m´as adecuados para este prop´ osito, como el an´ alisis de textura en el espectro visible, se decidi´ o investigar la adecuaci´ on del sistema para la detecci´on de sarna por la f´acil integraci´ on en una hipot´etica implantaci´on futura. El motivo de que este cap´ıtulo dedicado a la detecci´on de sarna se presente con anterioridad al dedicado a la detecci´on de coraz´on hueco, es que la detecci´on de sarna se va a utilizar como un m´odulo dentro de la investigaci´on para la detecci´ on de coraz´ on hueco. La idea es poder descartar la sarna en las im´agenes de las patatas, y as´ı tener la posibilidad de estudiar la presencia de coraz´on

5.2. EXPERIMENTO

67

hueco de manera independiente a la sarna. En la Figura 5.1 podemos ver cuatro ejemplos de patatas afectadas por sarna, en im´ agenes obtenidas en el espectro visible.

Figura 5.1: Cuatro ejemplos de patatas afectadas por sarna com´ un. El grueso de este trabajo se realiza a finales de 2009 (adquisici´on de im´agenes) y en la primera mitad del a˜ no 2010.

5.2.

Experimento

El principal prop´ osito del experimento es desarrollar un procedimiento para la medici´ on de sarna com´ un en patatas. Para ello, se desarrollar´a un experimento en el cual, entre otras tareas, se determinar´a un subconjunto ´optimo de caracter´ısticas que maximice la precisi´ on de un clasificador que mapee superficie sana y afectada por sarna com´ un en patatas. En el Cap´ıtulo 4 vimos que cada sesi´ on de adquisici´on de imagen, en la que obtenemos un cubo hiperespectral, consume m´as de un minuto. Esto viene causado por el movimiento de escaneo del motor (para obtener todas las l´ıneas que componen el objeto) y el procedimiento de construcci´on del cubo hiperespectral (para obtener una imagen por cada banda, en lugar de una por cada l´ınea). Un sistema que necesita m´ as de un minuto en obtener un cubo hiperespectral puede tener dificultades para ser integrado en algunas industrias. Sin embargo, el sistema presentado puede verse como un sistema experimental y no como

68

´ DE SARNA CAP´ITULO 5. DETECCION

una soluci´ on definitiva. Este sistema experimental se define como un banco de pruebas que permite la realizaci´ on de experimentos con el objetivo de obtener informaci´ on de inter´es para el dise˜ no de un sistema espec´ıfico que resuelva un problema en un tiempo m´ as adecuado para la industria: Un subconjunto de bandas ´ optimo, obtenido mediante alg´ un m´etodo de selecci´ on de caracter´ısticas. Un algoritmo de clasificaci´ on. Los par´ ametros ´ optimos para el algoritmo de clasificaci´on y las bandas escogidas. El porcentaje de acierto obtenido con las bandas escogidas, el algoritmo de clasificaci´ on y sus par´ ametros. En nuestro sistema, la selecci´ on de caracter´ısticas se utiliza para identificar qu´e frecuencias son las mejores para solucionar el problema de la detecci´on de sarna com´ un. As´ı, compararemos el comportamiento de distintos subconjuntos de bandas, obtenidos mediante distintos m´etodos de selecci´on de caracter´ısticas.

5.2.1.

Descripci´ on

El experimento usa un conjunto de 234 patatas (de variedad Agria) recogidas en Xinzo de Limia (Espa˜ na) en varias compa˜ n´ıas envasadoras de patatas durante el oto˜ no de 2009. El proceso de selecci´ on, llevado a cabo por expertos, intent´o ser representativo en cuanto al tama˜ no de los tub´erculos. El primer paso fue capturar las im´agenes usando el sistema hiperespectral descrito en el Cap´ıtulo 4. Para doblar el conjunto de datos, cada patata fue escaneada por dos lados. A continuaci´ on, se construyeron los cubos hiperespectrales correspondientes. Con este conjunto de datos, se ha desarrollado un experimento de reconocimiento de patrones utilizando en primer lugar t´ecnicas de procesamiento de imagen y extracci´ on de caracter´ısticas, con la ayuda de la librer´ıa de c´odigo abierto OpenCV [Bradski & Kaehler, 2008]. Posteriormente se han aplicado algoritmos de selecci´on de caracter´ısticas, con lo que se han obtenido distintos conjuntos de datos que representan el mismo problema usando distintas combinaciones de caracter´ısticas. Por u ´ltimo, estos conjuntos de datos se han evaluado con varios algoritmos de clasificaci´on, lo cual permitir´ a evaluar cu´ al de los subconjuntos de caracter´ısticas es el m´as adecuado para el problema.

5.2. EXPERIMENTO

69

Con esta informaci´ on se puede plantear el dise˜ no de un sistema multiespectral, utilizando las bandas ´ optimas encontradas. Esto evitar´ıa el uso del espectr´ ografo, lo cual implica que se evitar´ıa tanto el escaneo del objeto (que ser´ıa llevado a cabo por una c´ amara matricial) como la construcci´on del cubo hiperespectral (no necesario porque ya se obtienen im´agenes espaciales). Todo esto tiene como consecuencia un tiempo de ejecuci´on m´as cercano a la industria. En la Figura 5.2 podemos ver un diagrama de bloques del experimento.

Figura 5.2: Diagrama de bloques del experimento de detecci´on de sarna com´ un.

5.2.2.

Segmentaci´ on

Para cada cubo hiperespectral vamos a segmentar las patatas del fondo (background) para tareas posteriores de extracci´on de caracter´ısticas. Solo segmentamos una imagen por cada cubo hiperespectral, con el que obtendremos una m´ ascara que se aplicar´ a en todas las im´agenes del cubo. La imagen escogida para la segmentaci´ on (980 nm) se ha seleccionado tras varias pruebas preliminares. La segmentaci´ on se realiza en varios pasos secuenciales. En primer lugar, binarizamos la imagen usando el m´etodo de Otsu [Otsu, 1979], que calcula el

70

´ DE SARNA CAP´ITULO 5. DETECCION

umbral o´ptimo de binarizaci´ on utilizando un an´alisis probabil´ıstico de la imagen. Luego, un suavizado gaussiano aglutina el ruido de la imagen. Una nueva binarizaci´ on (en este caso con umbral est´atico) se necesita antes de la siguiente operaci´ on. Se ejecuta un etiquetado de ´areas conexas para marcar ´areas contiguas en la imagen. En este punto, sabemos que el ´area conexa m´as grande (excluyendo el fondo) es la patata. Seleccionamos este objeto y creamos una m´ ascara para segmentar el resto de im´agenes del cubo hiperespectral. El resumen de este proceso se puede ver en la Figura 5.3.

5.2.3.

Extracci´ on de caracter´ısticas

Nuestro problema se define como un problema binario con dos clases: superficie sana y superficie afectada con sarna com´ un. Para crear el conjunto de datos, expertos del Ceteca ayudaron para identificar qu´e porciones estaban afectadas por sarna y cu´ ales no. Las muestras se seleccionaron manualmente usando ventanas de inter´es (Roi), tal y como se puede observar en la Figura 5.4. Recordemos que cada cubo hiperespectral consiste en 256 im´agenes, que se corresponden con las 256 bandas en las que el sistema es sensible. Por esta raz´ on, cuando seleccionamos una ventana de inter´es, no estamos seleccionando u ´nicamente un rect´ angulo de p´ıxeles, sino ese rect´angulo a lo largo de las 256 im´ agenes que componen el cubo hiperespectral. Cuando seleccionamos una ventana de inter´es, calculamos el valor medio de gris de los p´ıxeles en la ventana de inter´es, para cada banda. Esto significa que cada muestra (independientemente del tama˜ no de la ventana de inter´es) se representa con 256 atributos. A mayores, de cada muestra conocemos la clase a la que pertenece (superficie sana o sarna com´ un), lo que permite una clasificaci´on supervisada. Sea HI el cubo hiperespectral, compuesto por 256 im´agenes espectrales HIk . Sea areaROI el tama˜ no de la ventana de inter´es seleccionada de tama˜ no wROI × hROI . Sea f el vector de caracter´ısticas que representar´a a HI. Sea k el ´ındice para acceder a cada una de las 256 im´agenes de HI, que se corresponde con la caracter´ıstica k-´esima de f . Sean i, j los ´ındices para acceder a la ventana de inter´es. Calculamos cada caracter´ıstica k con la siguiente ecuaci´on:   wROI ,hROI X 1  fk = HIki,j  areaROI i=0,j=0

(5.1)

5.2. EXPERIMENTO

71

Figura 5.3: Segmentaci´ on en el experimento de detecci´on de sarna com´ un. Arriba izquierda: imagen tras la binarizaci´ on de Otsu. Arriba derecha: imagen tras suavizado gaussiano. Centro izquierda: imagen tras segunda binarizaci´on. Centro derecha: imagen tras etiquetado de ´ areas conexas. Abajo izquierda: m´ascara para segmentaci´ on del cubo. Abajo derecha: imagen de ejemplo tras aplicar la m´ ascara. Finalmente, se han recogido 649 muestras: 208 correspondientes a sarna com´ un y 441 correspondientes a superficie sana.

72

´ DE SARNA CAP´ITULO 5. DETECCION

Figura 5.4: Extracci´ on de caracter´ısticas en el experimento de detecci´on de sarna com´ un. Roi izquierda: superficie sana. Roi derecha: superficie afectada con sarna. Las muestras pueden representarse en un diagrama (Figura 5.5). El eje x representa la longitud de onda, mientras que el eje y representa el nivel de gris medio para cada banda, que no es m´ as que la media aritm´etica de los valores de gris de la ventana de inter´es con la que se obtuvo la muestra.

5.2.4.

Selecci´ on de caracter´ısticas

La selecci´ on de caracter´ısticas es una tarea muy com´ un en el reconocimiento de patrones, especialmente en aquellos casos en los que el n´ umero inicial de caracter´ısticos es alto. Hay varias razones para realizar una selecci´on de caracter´ısticas. Con menos caracter´ısticas, el proceso de aprendizaje es m´as r´apido y las capacidades de generalizaci´ on mejoran, adem´as de minimizarse el efecto Hughes [Hughes, 1968] (un problema relacionado con espacios matem´aticos de muchas dimensiones). En nuestro caso la selecci´on de caracter´ısticas es un paso esencial para disminuir el tiempo de ejecuci´on del sistema, ya que nos sirve para identificar y minimizar las bandas que solucionan el problema. Se han probado varios algoritmos de selecci´on, implementados en el software de miner´ıa de datos Weka [Hall et al., 2009]. En Weka encontramos numero-

5.2. EXPERIMENTO

73

Figura 5.5: Gr´ aficas de niveles de gris por banda de dos muestras en el experimento de detecci´ on de sarna com´ un. sos algoritmos de selecci´ on de caracter´ısticas que implementan los principales m´etodos para esta labor, basados en t´ecnicas muy variadas. A este respecto se consideraron interesantes los algoritmos gen´eticos, como m´etodo sobradamente conocido de optimizaci´ on (y haber sido utilizado, con otra implementaci´on, en el Cap´ıtulo 3). A continuaci´ on, se seleccionaron otros algoritmos en funci´on de su uso, y de su rendimiento provisional obtenido en pruebas preliminares con Weka. Los algoritmos utilizados son: B´ usqueda dirigida por algoritmo gen´etico [Goldberg, 1989], que ha seleccionado 11 bandas. B´ usqueda Scattered [Garc´ıa-L´ opez et al., 2006], que selecciona 11 bandas. B´ usqueda Greedy Stepwise [Weihs, 1993] que selecciona 5 bandas. B´ usqueda Linear Forward Selection (Lfs) [Guetlein et al., 2009], que selecciona 7 bandas. B´ usqueda Correlation-based Feature Subset Selection (Cfs) [Hall, 1998], que selecciona 6 bandas. Es de destacar que en este caso se han seleccionado tres zonas contiguas: 1300 nm–1303 nm, 1336 nm–1342 nm y 1503 nm. Las t´ecnicas de reducci´ on dimensional como Pca o Lda (o sus variantes ponderadas Wpca y Wlda) est´ an entre las m´as usadas en an´alisis espectral

74

´ DE SARNA CAP´ITULO 5. DETECCION

[Wang & Xiao, 2005, Jarchi & Boostani, 2006]. Sin embargo, estos algoritmos no reducen necesariamente el n´ umero de bandas requeridas, que es una de las hip´ otesis de nuestro experimento, sino que generan una combinaci´on lineal de las 256 caracter´ısticas, creando un nuevo espacio de caracter´ısticas. Esta es la raz´ on por la que solamente las t´ecnicas de selecci´on son interesantes en este trabajo. Para resumir, tras este paso tenemos seis conjuntos de datos (que representan el mismo problema de maneras diferentes): genetic, scattered, greedy, Lfs, Cfs y full (el conjunto original con 256 caracter´ısticas).

5.2.5.

Algoritmos de clasificaci´ on

El objetivo de esta fase es obtener un clasificador que maximice el acierto. A la hora de decidir con qu´e algoritmos de clasificaci´on contar, se han valorado aspectos te´ oricos y pr´ acticos. Desde el punto de vista te´ orico, se ha planteado el uso de las Support Vector Machines (Svm) y Random Forest (Rf), por ser dos de los algoritmos de u ´ltima generaci´ on m´ as usados con ´exito en los u ´ltimos a˜ nos [Xu et al., 2008]. Adem´as, las Svm han resultado adecuadas en problemas de dos clases [Duda et al., 2000], y en problemas en los que el ratio entre n´ umero de caracter´ısticas y n´ umero de instancias est´ a descompensado [Lin et al., 2003], como es nuestro caso. Adem´as, se ha comprobado su comportamiento en otras investigaciones durante el transcurso de este trabajo de tesis (proyecto Vitical) y trabajos anteriores de los directores [Carri´ on, 2004]. Desde el punto de vista pr´ actico, el trabajo con la herramienta de Data Mining Weka [Hall et al., 2009] ha supuesto el acceso a un framework de pruebas que permite el uso de un gran n´ umero de clasificadores. En un estadio preliminar de la investigaci´ on, se han probado otros algoritmos, como redes neuronales (Mlp), k-NN o clasificadores bayesianos, pero su comportamiento indicaba que no se adaptaban al problema. As´ı pues, presentamos resultados para dos algoritmos de clasificaci´ on: Random Forest y Support Vector Machines. Un Random Forest [Breiman, 2001] es una colecci´on de ´arboles (un bosque) que clasifica individualmente una muestra de entrada, y posteriormente eval´ ua la respuesta individual de los ´ arboles para dar como resultado la clase m´as votada. En este caso se ha utilizado la implementaci´on disponible en OpenCV, denominada Random Trees. En este algoritmo existe un par´ametro de optimizaci´on (mtry ), que es el n´ umero de caracter´ısticas a usar en la selecci´on aleatoria. Las Svm [Cortes & Vapnik, 1995, Vapnik, 1995] encuentran el hiperplano optimo sobre un espacio dimensional superior donde los vectores de caracter´ısti´

5.2. EXPERIMENTO

75

cas son mapeados usando una funci´ on de kernel. Se ha usado la implementaci´on de Svm conocida como LibSVM [Chang & Lin, 2008], utilizando el kernel por defecto (Rbf o Gaussian). Este kernel realiza la b´ usqueda de una divisi´on no linear del espacio de muestras entre las dos clases del problema. Podemos modificar su comportamiento cambiando dos par´ ametros: el par´ametro de regularizaci´on o coste (C) y dispersi´ on del kernel (γ). Se ha demostrado que el par´ametro C no es excesivamente relevante [Valentini & Dietterich, 2004], al contrario que γ.

5.2.6.

Evaluaci´ on de clasificadores

En el Cap´ıtulo 3 evaluamos nuestro experimento de an´alisis de textura en patatas en el espectro visible utilizando una metodolog´ıa leave–one–out cross– validation [Weiss & Kulikowski, 1991]. Es decir, cada muestra se clasifica contra el resto de muestras del conjunto. Sin embargo, existen otro tipo de m´etodos m´as restrictivos que buscan asegurar m´ as el nivel de rigurosidad de los resultados. Entre ellos, est´a el utilizado en los experimentos de visi´ on hiperespectral de esta tesis. Se ha utilizado con anterioridad en otros trabajos del grupo Lia [Gonz´alez et al., 2011] gracias a la colaboraci´ on con el Prof. Dr. Manuel Fern´andez Delgado, de la Universidad de Santiago de Compostela. Adem´ as este m´etodo se combina con un ajuste de par´ ametros para cada clasificador, lo cual nos sirve para mejorar su comportamiento y adaptarlo a cada problema concreto. El m´etodo utilizado para la evaluaci´ on del rendimiento de los clasificadores est´ a basado en dividir el conjunto de datos en tres partes: una para entrenamiento, otra para ajuste de par´ ametros y validaci´on y una para test. En la fase de ajuste de par´ ametros, realizamos una b´ usqueda en rejilla, cambiando los par´ ametros espec´ıficos de cada algoritmo. √ En el caso del algoritmo Rf, el valor por defecto de mtry es p, siendo p el n´ umero de caracter´ısticas del conjunto de datos. Seguimos el ajuste de par´ ametros sugerido por [Svetnik et al., 2003], usando distintos valores de mtry : √ mtry = p0 , mtry = p, mtry = p/4 y mtry = p/2. El resto de par´ ametros se han establecido como se sugiere en [Svetnik et al., 2003]. Por ejemplo, el n´ umero de ´ arboles se ha fijado en 500, ya que es suficiente y no existe penalizaci´ on por tener un n´ umero excesivo de ´arboles. En el caso del algoritmo Svm, se prueban pares de (C, γ), usando secuencias exponencialmente crecientes para C y γ [Chang & Lin, 2008]. Usamos C = 2n , n = −5 : 14 y γ = 2n , n = −15 : 3, lo cual nos da 380 combinaciones. Una vez obtenida la mejor combinaci´ on, es posible realizar un ajuste m´as fino, pero la bibliograf´ıa lo descarta ya que la ganancia es poca.

76

´ DE SARNA CAP´ITULO 5. DETECCION

A continuaci´ on describimos los pasos llevados a cabo para probar cada conjunto de datos. Primero generamos aleatoriamente 10 permutaciones del conjunto de datos, de modo que cada permutaci´on tiene las mismas muestras, pero ordenadas de manera diferente. Dividimos cada permutaci´ on en tres conjuntos: entrenamiento (primer 50 % de las muestras), validaci´ on (siguiente 25 % de las muestras) y test (25 % restante). Luego normalizamos las permutaciones, de modo que cada caracter´ıstica tenga media cero y desviaci´ on uno. Esto evita que atributos con rangos num´ericos mayores influencien excesivamente al clasificador. El procedimiento es, para cada permutaci´ on, calcular media y desviaci´on para cada caracter´ıstica, usando solo el conjunto de entrenamiento. Despu´es, normalizamos entrenamiento, validaci´ on y test usando los valores de media y desviaci´ on calculados. Para cada combinaci´ on de par´ ametros, y para cada permutaci´on, entrenamos el clasificador usando el conjunto de entrenamiento con los par´ametros correspondientes. Despu´es, probamos su acierto contra el conjunto de validaci´ on. El acierto medio sobre las 10 permutaciones nos da un acierto medio de los par´ ametros. Tras probar todas las combinaciones sobre los conjuntos de validaci´ on, nos quedamos con los mejores par´ametros. Para cada permutaci´ on, entrenamos el clasificador usando el conjunto de entrenamiento, ajustado con los mejores par´ametros obtenidos antes. Despu´es, probamos su acierto contra el conjunto de test. El acierto medio sobre las 10 permutaciones nos da el acierto final del sistema. El uso de permutaciones previene divisiones injustas del conjunto de datos. Podr´ıa darse el caso, usando una sola permutaci´on, de que todas las instancias f´ aciles de clasificar cayesen en el conjunto de test, lo que dar´ıa un resultado excesivamente bueno. Y viceversa. Adicionalmente, cada conjunto de datos se ha evaluado usando el m´etodo leave-one-out cross-validation (loocv) [Weiss & Kulikowski, 1991]. En este caso, en lugar de un nuevo ajuste de par´ ametros, se han usado los mejores par´ametros obtenidos usando la otra metodolog´ıa con los conjuntos de validaci´on.

´ 5.3. RESULTADOS Y DISCUSION

5.2.7.

77

Mapeo de la superficie afectada

Antes de presentar los resultados, e indicar la mejor opci´on para resolver el problema, vamos a presentar c´ omo ser´ıa el comportamiento del detector de sarna en su uso final. El resultado del sistema es, para cada patata (es decir, para cada cubo hiperespectral), obtener una imagen en la que se mapeen las zonas sanas y las zonas afectadas por sarna, y si es requerido indicar el porcentaje de superficie afectada frente a la superficie sana. Para el mapeo, cada p´ıxel del cubo hiperespectral es clasificado individualmente (se toma como una muestra). Recordemos que cada p´ıxel hiperespectral tiene (en nuestro sistema) 256 valores, aunque dependiendo del m´etodo de selecci´ on de caracter´ısticas, es probable que no se tengan en cuenta todos esos valores, sino solamente un peque˜ no subconjunto. Con la informaci´on de pertenencia a una de las dos clases de cada p´ıxel, creamos un mapa de la incidencia de sarna, marcando con niveles de gris diferentes las zonas de sarna y sanas. Esta imagen de incidencia puede tener ruido, por lo que se aplican operaciones de procesamiento de imagen para mejorarla. Concretamente se ejecuta un cerrado (closing) con un peque˜ no kernel de 2 × 2 p´ıxeles. Y a continuaci´on se ejecuta una apertura (opening) con el mismo kernel. Con esta imagen mejorada, podemos calcular el porcentaje de superficie afectada por sarna. A pesar de que en la fase de adquisici´ on de imagen cada patata se escane´o por dos lados, en el funcionamiento final no se plantea ning´ un mecanismo de rotaci´on de la patata. Esto se debe a que se suelen estudiar sacos de 20 kg, por lo que estad´ısticamente se asume que se puede aportar una medida de incidencia de la enfermedad gracias al n´ umero de patatas en el saco.

5.3.

Resultados y Discusi´ on

El objetivo de esta secci´ on es presentar los resultados de acierto seg´ un el procedimiento de evaluaci´ on descrito en la Secci´on 5.2.6 sobre los conjuntos de datos obtenidos tras las fases de extracci´ on de caracter´ısticas (5.2.3) y selecci´on de caracter´ısticas (5.2.4). Los resultados de los distintos conjuntos de datos y clasificadores son presentados en la Tabla 5.1. En la Figura 5.6 se resumen en un diagrama de barras. Examinando los resultados desde el punto de vista del clasificador (Tabla 5.1), las Support Vector Machines son claramente superiores a Random Forest en pr´ acticamente todos los casos. Por otra parte, el conjunto de datos Cfs parece

78

´ DE SARNA CAP´ITULO 5. DETECCION

Clas.

Conj.

Acierto %

loocv %

Rf

full genetic scattered greedy Lfs Cfs

95.4 94.3 93.8 95.9 94.5 95.8

96.1 96.2 96.9 97.4 96.8 96.5

Svm

full genetic scattered greedy Lfs Cfs

96.2 96.0 95.7 96.7 96.0 97.1

96.6 96.8 96.9 96.9 97.7 98.0

Mej. Param. mtry √ p p/2 p/4 p/2 √ p √ p C γ −2 −10 2 2 25 2−10 5 2 2−2 12 2 2−15 7 2 2−1 11 2 2−5

Valid. %

Band.

95.6 93.6 95.0 96.7 95.2 96.1

256 11 11 5 7 6

96.4 96.5 96.5 97.0 96.9 97.4

256 11 11 5 7 6

Tabla 5.1: Porcentajes de acierto en funci´on del conjunto de datos y el clasificador en el experimento de detecci´ on de sarna en patata.

ser la mejor opci´ on junto con el clasificador Svm. Esta opci´on es la que mayor acierto proporciona. Tal y como se ha comentado en la Secci´on 5.2.4, el m´etodo Pca y semejantes han sido analizados pero no tenidos en cuenta. Sin embargo, para facilitar la comparaci´ on con trabajos futuros, presentamos ciertos resultados preliminares. Se ha creado un nuevo conjunto de datos tras aplicar el m´etodo Pca (implementaci´ on de Weka) al conjunto full. A continuaci´on se ha realizado una evaluaci´on loocv, obteniendo un 95.2 % de acierto usando Rf, y aproximadamente un 96 % usando Svm. Estos resultados est´ an unos 2 puntos por debajo del resto de opciones. Estudiemos un poco m´ as la mejor opci´on (conjunto de datos, clasificador). Las diferentes combinaciones de par´ ametros obtienen un acierto de validaci´on similar usando valores altos de C. Finalmente la mejor combinaci´on ha sido C = 211 y γ = 2−5 . Podemos ver el proceso de validaci´on en la Figura 5.7. La matriz de confusi´ on de esta opci´on puede verse en la Tabla 5.2. Recordemos que estos resultados se han obtenido usando los conjuntos de test, compuestos por el 25 % de las muestras (162 en nuestro caso). Esta es una matriz de confusi´ on media, teniendo en cuenta las 10 permutaciones.

´ 5.3. RESULTADOS Y DISCUSION

79

Figura 5.6: Resumen de resultados, en funci´on del conjunto de datos y del clasificador. El eje y representa el acierto medio de las permutaciones sobre los conjuntos de test usando los par´ ametros ´ optimos obtenidos durante la fase de validaci´ on.

Figura 5.7: Evoluci´ on de la fase de validaci´ on de la mejor opci´on. El eje x representa las distintas combinaciones de par´ ametros, mientras que el eje y representa el porcentaje de acierto medio de las 10 permutaciones con los conjuntos de validaci´ on.

80

´ DE SARNA CAP´ITULO 5. DETECCION ``` `` Clasificado ``` como Sarna com´ un ``` Real ` Sarna Com´ un 48.3 Sana 1.6

Sana 3.1 109

Tabla 5.2: Experimento de detecci´ on de sarna en patata. Matriz de confusi´on media obtenida con el conjunto de datos Cfs usando el clasificador Svm. El acierto global es 97.1 %.

En la Figura 5.8 presentamos cuatro muestras (dos de cada clase) para entender mejor lo que supone la selecci´ on de caracter´ısticas. Las columnas negras marcan las zonas seleccionadas por el algoritmo de selecci´on de caracter´ısticas Cfs. Es f´ acil comprender, por ejemplo, por qu´e el algoritmo Cfs no selecciona ninguna banda anterior a la 100ª (1166 nm), ya que en esa zona las muestras est´ an muy juntas entre s´ı.

Figura 5.8: Gr´ aficas de cuatro muestras (dos de cada clase) para mostrar las bandas seleccionadas en el experimento de detecci´on de sarna com´ un. Las columnas negras marcan las zonas seleccionadas por el algoritmo de selecci´on de caracter´ısticas Cfs. El resto de bandas no fueron seleccionadas. El eje x representa las bandas por longitud de onda. El eje y representa el nivel de gris medio por banda. Algunas contribuciones anteriores [Gunasekaran et al., 1985] sugieren que en longitudes de onda superiores a 1100 nm, donde la absorci´on del agua domina,

´ 5.3. RESULTADOS Y DISCUSION

81

la reflectancia se incrementa debido a la deshidrataci´on, tal y como sucede con la sarna com´ un. Las bandas que hemos seleccionadas est´an en ese rango. Sin embargo, es imposible comparar nuestros resultados con otros sistemas de detecci´ on de sarna mediante m´etodos espectrales, ya que o bien esos sistemas usan rangos espectrales diferentes, o incorporaban otras clases a su experimento. Finalmente, en la Figura 5.9, presentamos un resumen del proceso completo aplicado a varias patatas.

Figura 5.9: Cuatro ejemplos del funcionamiento del sistema de detecci´on de sarna. De izquierda a derecha: cubo hiperespectral original, cubo hiperespectral segmentado, mapa de sarna preliminar, mapa de sarna sin ruido, cubo hiperespectral segmentado con el mapa de sarna.

82

5.4.

´ DE SARNA CAP´ITULO 5. DETECCION

Sistema multiespectral

Hemos visto que las bandas seleccionadas por el m´etodo Cfs (1300 nm, 1303 nm, 1336 nm, 1339 nm, 1342 nm y 1503 nm) proporcionan suficiente informaci´ on para distinguir entre las zonas sanas y afectadas por sarna. Sin embargo, con el sistema presentado en el Cap´ıtulo 4, por construcci´on no podemos evitar adquirir im´ agenes para todas las longitudes de onda en las que es sensible el sistema. Sin embargo, este subconjunto ´ optimo de bandas permite dise˜ nar un sistema multiespectral espec´ıfico que trabajar´ıa en las 6 longitudes de onda seleccionadas, y que utilizar´ıa el resto de algoritmos seleccionados por el experimento que presentamos en la Secci´ on 5.2. Un sistema multiespectral as´ı podr´ıa estar compuesto por una c´ amara matricial infrarroja (como la presentada en el Cap´ıtulo 4) y tantos filtros espec´ıficos como longitudes de onda necesarias. As´ı, una sesi´ on de adquisici´ on de imagen no precisar´ıa de ning´ un escaneo; simplemente tomar una imagen por cada filtro. Tampoco ser´ıa preciso construcci´on del cubo hiperespectral. De modo que los dos principales cuellos de botella del sistema hiperespectral no ser´ıan necesarios y el tiempo de ejecuci´on se ver´ıa considerablemente reducido. As´ı, podemos entender el sistema hiperespectral y el experimento realizado como un sistema experimental, un banco de pruebas, que nos aporta un resultado totalmente v´ alido, pero que precisa de un tiempo de ejecuci´on (por la manera en la que el sistema adquiere las im´ agenes) que puede complicar su implantaci´on directa en la industria con la tecnolog´ıa actual. Sin embargo, a trav´es del experimento podemos obtener una informaci´on que nos permite dise˜ nar un sistema multiespectral (es decir, que solamente captura unas determinadas longitudes de onda ´ optimas) espec´ıfico para el problema planteado (la detecci´on de sarna en patata en este caso). Esta opci´ on es m´as r´apida, por construcci´on. Cabe destacar que si en el futuro se desarrolla un hardware que permita la adquisici´on de cubos hiperespectrales desde una c´amara matricial (y no de manera lineal, como el sistema empleado), podremos obtener un comportamiento similar al multiespectral propuesto. En la Figura 5.10 podemos ver un esquema del concepto para la creaci´on del sistema multiespectral a partir de este experimento. Esta idea es trasladable a todos los experimentos a realizar con el sistema hiperespectral, como el que veremos en el Cap´ıtulo 6, o el resto de iniciativas que utilizan este material, tal y como vimos en la introducci´ on de esta tesis.

5.5. CONCLUSIONES

83

Figura 5.10: Diagrama de explicaci´ on de la creaci´on de un sistema multiespectral espec´ıfico a partir del sistema hiperespectral experimental.

5.5.

Conclusiones

Los resultados presentados en este cap´ıtulo muestran que es posible detectar sarna com´ un en patatas utilizando un sistema no destructivo de visi´on hiperespectral infrarrojo. Para ello, hemos probado varios algoritmos de selecci´on de caracter´ısticas, demostrando que es un paso cr´ıtico que no solamente puede evitar c´alculos innecesarios, sino que es nuestro m´etodo para incrementar la velocidad de ejecuci´on. Tras comparar los algoritmos, el Cfs parece ser el que mejor se ha adaptado al problema. En cualquier caso, la variaci´ on entre los conjuntos de datos es menor a un 2 %. En cuanto a la clasificaci´ on, las Svm han mostrado ser un algoritmo de clasificaci´ on adecuado para el problema, sobre todo en conjunci´on con el conjunto de datos Cfs, alcanzando un acierto del 97.1 %. El proceso de ajuste de par´ametros efectuado ha sido crucial para afinar el clasificador en busca de la mejor combinaci´ on de par´ ametros (que finalmente ha sido C = 211 y γ = 2−5 ). En el pr´ oximo cap´ıtulo aplicaremos la detecci´on de sarna como paso previo en la detecci´ on del coraz´ on hueco en patatas. En el futuro ser´ıa interesante probar el sistema con otras variedades de pa-

84

´ DE SARNA CAP´ITULO 5. DETECCION

tatas (como Kennebec). Adem´ as, podr´ıan probarse exhaustivamente m´etodos como Pca o Lda. Finalmente, deber´ıa investigarse la relaci´on entre las bandas seleccionadas y los componentes biol´ ogicos de la sarna, desde un punto de vista de ingenier´ıa agroalimentaria y biol´ ogico. Esto podr´ıa conseguirse usando un sistema de adquisici´ on diferente, sensible en otros rangos espectrales, como por ejemplo desde 500 nm a 2000 nm.

Cap´ıtulo 6

Detecci´ on de coraz´ on hueco En este cap´ıtulo presentamos un nuevo m´etodo para detectar la presencia del coraz´ on hueco, una enfermedad interna de las patatas que disminuye notablemente la calidad del producto. Como veremos a continuaci´on, en el pasado se ha intentado realizar una detecci´ on no destructiva mediante ciertos m´etodos basados en ac´ ustica, inspecci´ on mediante rayos X y espectrograf´ıa convencional. En este cap´ıtulo proporcionamos una soluci´ on diferente, basada en el uso de visi´ on hiperespectral en el rango infrarrojo. Para ello se ha obtenido un conjunto de 468 cubos hiperespectrales de patatas de variedad Agria, que se han cortado a continuaci´ on para verificar la presencia del coraz´on hueco. A continuaci´on hemos desarrollado un procedimiento de reconocimiento de patrones supervisado para buscar la mejor soluci´ on para el problema. Los resultados muestran que las Support Vector Machines (Svm) consiguen un acierto en la clasificaci´on del 89.1 %.

6.1.

Introducci´ on

En el Cap´ıtulo 4 hemos visto las posibilidades de la visi´on hiperespectral aplicadas al control de calidad en la industria agroalimentaria. Posteriormente, en el Cap´ıtulo 5 ve´ıamos una aplicaci´ on concreta: la detecci´on de sarna com´ un en patata. En ambos cap´ıtulos hemos referenciado contribuciones en espectrograf´ıa convencional [Al-Mallahi et al., 2008, Al-Mallahi et al., 2009, Haase, 2006, Buning-Pfaue, 2003, Kang et al., 2004, Kang et al., 2008] que demostraban que pod´ıan estudiarse caracter´ısticas internas en patata, lo cual era trasladable, 85

86

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

en principio, a la visi´ on hiperespectral. Una de estas caracter´ısticas internas es el denominado coraz´ on hueco (hollow heart), una cavidad de forma estrellada que crece en el interior de la patata (Figure 6.1). Esta enfermedad hace que la patata quede inservible y condiciona por lo tanto la calidad de la producci´ on y su precio. Por ello, la detecci´on autom´atica del coraz´ on hueco en patatas se convierte en algo necesario y deseable.

Figura 6.1: Patatas afectadas por coraz´on hueco. En la pr´ actica, el coraz´ on hueco se detecta manualmente por personal entrenado, ya que parece existir una relaci´on entre los des´ordenes de crecimiento (crecimiento r´ apido, patatas muy grandes y segundos crecimientos), la humedad del suelo y la probabilidad de que la patata desarrolle coraz´on hueco [Rex & Mazza, 1989]. Sin embargo, como todo procedimiento humano, este m´etodo es subjetivo y muy sensible a errores, ya que en muchas ocasiones el coraz´on hueco se desarrolla en patatas peque˜ nas y no siempre las grandes est´an huecas. Lamentablemente no se dispone de ning´ un dato que mida el acierto del operador humano. El problema ha intentado abordarse en los u ´ltimos a˜ nos usando inspecci´on por rayos X [Nylund & Lutz, 1950, Finney & Norris, 1978] o mediante ultrasonidos [Jivanuwong, 1998]. Utilizando t´ecnicas ac´ usticas [Elbatawi, 2008] se han alcanzado aciertos del 98 %. Sin embargo, el m´etodo de [Jivanuwong, 1998] precisa que las patatas se encuentren aisladas de ruido externo, adem´as de fallar en corazones huecos peque˜ nos (la cavidad m´ınima es de 0.5 cm3 ). Por su parte, el m´etodo de [Elbatawi, 2008] deja caer las patatas para analizar el sonido efectuado al caer sobre una superficie, lo que puede producir mazaduras en las muestras. Adem´ as, ambos enfoques son muy dependientes de la orientaci´on de la patata. En lo referente al estudio espectral, vemos que algunas contribuciones [Haase, 2006, Buning-Pfaue, 2003, Kang et al., 2004, Kang et al., 2008] usan m´etodos

´ 6.1. INTRODUCCION

87

espectrales para la detecci´ on de caracter´ısticas internas de la patata. Existen trabajos [Singh, 2005], que estiman la cantidad de agua usando visi´on hiperespectral, e incluso que sugieren que existe una relaci´on entre la cantidad de agua y la existencia del coraz´ on hueco. Con todo esto, teniendo en cuenta las posibilidades de la tecnolog´ıa, y los trabajos citados con patata, el objetivo de la investigaci´on que presentamos en este cap´ıtulo, es buscar un m´etodo que detecte el coraz´on hueco en patata mediante visi´ on hiperespectral, utilizando el sistema de adquisici´on descrito en el Cap´ıtulo 4, y un experimento similar al descrito en el Cap´ıtulo 5. El m´etodo descrito ser´ a autom´ atico (el operador humano no interviene), no destructivo (no se invade la muestra ni se maza), no depende de la orientaci´on, y la patata no tiene porqu´e estar aislada de ruido.

6.1.1.

Motivaci´ on

El grueso de este trabajo se realiza a finales de 2009 (adquisici´on de im´agenes) y a lo largo del a˜ no 2010, en paralelo a la investigaci´on para la detecci´on de sarna. Entre los numerosos objetivos del proyecto Visiocal, hab´ıa uno que destacaba sobre los dem´ as: la detecci´ on del coraz´ on hueco. Tanto es as´ı que se puede decir que ´este es el principal causante del dise˜ no del sistema de adquisici´on hiperespectral. Actualmente la detecci´ on se realiza de forma manual y atendiendo a criterios basados en la experiencia de que las patatas grandes y deformes est´an huecas. En caso de duda el operario comprueba el sonido que produce el golpear la patata con el pu˜ no, en busca de alg´ un indicio de que est´a hueca. Nuevamente la subjetividad entra en juego y se necesita un m´etodo fiable y no destructivo. Lamentablemente no se dispone de un porcentaje de acierto del que partir de manera manual. El primer enfoque es utilizar un procedimiento similar al de la sarna, utilizando caracter´ısticas espectrales. Las muestras en esta ocasi´on no ser´ıan ventanas de inter´es seleccionadas por expertos, sino cada una de las patatas del conjunto de entrenamiento. Al igual que en el Cap´ıtulo 5, el proceso de reconocimiento de patrones ha precisado de decisiones para reducir el espectro de opciones. Al ser ambos sistemas (detecci´ on de sarna y de coraz´ on hueco) similares en cuanto a la metodolog´ıa, vamos a presentar las principales diferencias. En cuanto a selecci´ on de caracter´ısticas y evaluaci´on del clasificador, el experimento para la detecci´ on del coraz´ on hueco utiliza la misma bater´ıa de algoritmos que el experimento de la detecci´ on de sarna.

88

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

La principal diferencia la encontramos en c´omo extraer caracter´ısticas. Merece la pena hacer menci´ on al cambio de concepto entre el problema del coraz´on hueco (1 cubo hiperespectral - 1 clase), y el de la detecci´on de sarna (1 p´ıxel del cubo hiperespectral - 1 clase). As´ı, cuando analizamos un cubo hiperespectral con el sistema de detecci´ on del coraz´ on hueco, la respuesta del sistema es una clase (todo el cubo es hueco o sano). Por su parte, cuando analizamos un cubo hiperespectral con el sistema de detecci´on de sarna, la respuesta es un mapeo del cubo hiperespectral con la incidencia de la sarna. Por esta raz´ on, las muestras a proporcionarle al experimento en el problema del coraz´ on hueco son caracter´ısticas extra´ıdas de todo el cubo hiperespectral, y no ventanas de inter´es, como en el caso de la sarna. Esto ha reducido las muestras a 468 (dos por cada patata, escaneada por dos lados).

6.2.

Experimento

El experimento usa la misma base de datos de im´agenes empleada en la detecci´ on de sarna (como hemos dicho, ambos trabajos se desarrollaron en paralelo y con amplia retroalimentaci´ on). De hecho, esta campa˜ na de captura fue pensada principalmente para el estudio del coraz´on hueco. La campa˜ na obtuvo 468 cubos hiperespectrales de 234 patatas de variedad Agria durante el u ´ltimo cuarto de 2009. El procedimiento de adquisici´ on se vio necesariamente influenciado por la b´ usqueda del coraz´ on hueco. Por ese motivo, tras escanear cada patata (por dos lados), fue preciso cortar la patata para comprobar la presencia de coraz´on hueco. En funci´ on del resultado, los cubos hiperespectrales eran etiquetados como sanos o huecos. Esto permiti´ o desarrollar el experimento de reconocimiento de patrones que presentaremos en las pr´oximas secciones, del mismo modo que la selecci´ on de zonas afectadas por sarna y sanas mediante ventanas de inter´es permiti´ o el experimento del Cap´ıtulo 5. La orientaci´ on del experimento es similar a la del anterior cap´ıtulo. Desarrollaremos un procedimiento de reconocimiento de patrones supervisado, en el que intentaremos reducir el tiempo de ejecuci´on (altamente condicionado por el motor del esc´ aner de espejos y la creaci´on del cubo hiperespectral) proponiendo un nuevo sistema multiespectral centrado en ciertas longitudes de onda seleccionadas mediante algoritmos de selecci´on de caracter´ısticas. En la Figura 6.2 podemos ver un esquema del experimento.

6.2. EXPERIMENTO

89

Figura 6.2: Diagrama de fases del experimento de detecci´on del coraz´on hueco.

6.2.1.

Segmentaci´ on

El objetivo de este paso es proporcionar facilidades a la fase de extracci´on de caracter´ısticas, de modo que un breve preprocesamiento garantice que las caracter´ısticas extra´ıdas representen el problema de un modo razonable. En primer lugar segmentamos los cubos hiperespectrales tal y como se hizo en el Cap´ıtulo 5. De este modo separamos las patatas del fondo de la imagen, mediante la aplicaci´ on de diversas t´ecnicas de procesamiento de imagen de binarizaci´ on y detecci´ on de ´ areas conexas, principalmente. Adem´ as de este m´etodo, que denominaremos full en adelante, se han desarrollado otros tres algoritmos de segmentaci´ on, que parten del m´etodo full. El primero, que denominamos core, pretende retirar la parte externa de las patatas, de modo que solamente se tenga en cuenta la parte central. Esto se obtiene mediante la aplicaci´ on de una operaci´on de procesamiento de imagen de erosi´ on. El segundo m´etodo adicional se denomina border y es lo contrario al anterior. El objetivo es retirar la parte central de la patata, de modo que solamente tengamos en cuenta una regi´ on similar a un anillo. Por u ´ltimo desarrollamos un tipo de segmentaci´on basado en retirar las zonas

90

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

con sarna com´ un de la patata, que denominamos scab. Este es el paso en que la investigaci´ on para la detecci´ on de sarna com´ un y la investigaci´on para la detecci´ on del coraz´ on hueco se unen. Vamos a usar el sistema de detecci´on de sarna, que da como resultado el mapeo de las zonas afectadas por sarna, para segmentar el conjunto de cubos hiperespectrales excluyendo las zonas de sarna. Nos basamos en la hip´ otesis de que la sarna com´ un y el coraz´on hueco son enfermedades independientes, por lo que en principio es de suponer que si retiramos la sarna de los cubos hiperespectrales, ser´a m´as sencillo clasificar entre coraz´ on hueco y patatas sanas. Los p´ıxeles afectados por sarna com´ un se ocultan (se ponen con luminosidad cero, como el background), de modo que en la fase de extracci´ on de caracter´ısticas no se tienen en cuenta. As´ı se pretende que el conjunto de entrenamiento no est´e afectado por sarna. La utilizaci´ on de esta segmentaci´ on es principalmente el motivo por el que hemos presentado el sistema para la detecci´on de sarna (Cap´ıtulo 5) con anterioridad al cap´ıtulo actual. En la Figura 6.3 podemos ver los pasos que explican los cuatro tipos de segmentaci´ on desarrollados.

6.2.2.

Extracci´ on de caracter´ısticas

En primer lugar, contamos con las caracter´ısticas espectrales que ya utilizamos en el Cap´ıtulo 5. Sea HI el cubo hiperespectral, compuesto por 256 im´agenes HIk . Sea area el n´ umero de p´ıxeles de superficie de patata a tener en cuenta. Sea f el vector de caracter´ısticas que representar´ a a HI. Sea k el ´ındice para acceder a cada una de las 256 im´ agenes de HI, que se corresponde con la caracter´ıstica k-´esima de f . Sean i, j los ´ındices para acceder a la imagen, de tama˜ no w × h. Calculamos cada caracter´ıstica k con la siguiente ecuaci´on:   w,h 1  X fk = HIki,j  area i=0,j=0

(6.1)

Tal y como indica la bibliograf´ıa del problema y la experiencia de los operadores humanos consultados, el tama˜ no y el grado de deformidad de la patata puede ser un factor determinante en la aparici´on del coraz´on hueco. Por estas razones, se ha decidido aprovechar las posibilidades que ofrece la visi´on hiperespectral de realizar an´ alisis espacial para a˜ nadir tres caracter´ısticas morfol´ogicas, que habr´ıa sido imposible a˜ nadir u ´nicamente con sistemas ´opticos de espectrograf´ıa

6.2. EXPERIMENTO

91

Figura 6.3: Segmentaci´ on en el experimento de detecci´on del coraz´on hueco. 1: binarizaci´ on usando el m´etodo de Otsu. 2: suavizado gaussiano. 3: segunda binarizaci´ on, de umbral fijo. 4: etiquetado de ´areas conexas. 5: m´ascara para segmentaci´ on full. 6: imagen tras aplicar segmentaci´on full. 7: imagen tras aplicar segmentaci´ on core. 8: imagen tras aplicar segmentaci´on border. 9: imagen tras aplicar segmentaci´ on core.

convencional (del mismo modo que habr´ıa sido imposible utilizar caracter´ısticas espectrales en un sistema de visi´ on artificial convencional). La caracter´ıstica area 6.2 denota el espacio que ocupa la patata en la imagen. Todas las patatas se han obtenido desde la misma distancia por lo que podemos tomar esta caracter´ıstica como un indicador del tama˜ no o volumen de la muestra. Al disponer de una imagen segmentada (full) esta operaci´on se limita a sumar los p´ıxeles que no son fondo (distintos de negro) en la imagen. El ´ area se calcula en una sola longitud de onda I, que se ha escogido tras varias

92

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

ejecuciones. w,h X

( 1, if (Ii,j 6= 0); area = 0, otherwise. i=0,j=0

(6.2)

La caracter´ıstica perimetro 6.3 denota la longitud del per´ımetro de la patata. Esta caracter´ıstica complementa a la anterior, ya que representa su tama˜ no. Contamos los p´ıxeles de la patata en cuyo entorno tenemos el fondo; es decir, los p´ıxeles frontera.

perimetro =

w,h X i=0,j=0

(

1, if [(Ii,j = 1) ∧ (∃ pixel = 0 around Ii,j )]; 0, otherwise.

(6.3)

Por u ´ltimo, se ha a˜ nadido una caracter´ıstica area–perimetro 6.4, que es la relaci´ on entre ´ area y per´ımetro, lo cual es una medida de redondez. De este modo, una patata deforme y otra redonda con la misma ´area tendr´an un per´ımetro diferente (mayor en el caso de la deforme). En este caso su relaci´on area–per´ımetro ser´ ´ a determinante para indicar su deformidad. area perimetro =

area perimetro

(6.4)

Si obviamos las tres caracter´ısticas morfol´ogicas, podemos representar las muestras en un diagrama de niveles de gris por banda (Figura 6.4). El eje x representa la longitud de onda, mientras que el eje y representa el nivel de gris medio para cada banda, que no es m´ as que la media aritm´etica de los valores de gris de la superficie segmentada de la patata, que para cada m´etodo de segmentaci´ on ser´ a una zona diferente (m´as amplia, m´as reducida, sin sarna, etc.). Durante la investigaci´ on, se han realizado pruebas preliminares con resultados inferiores a los alcanzados con el experimento actual. Se han probado otras caracter´ısticas de textura, como las caracter´ısticas de Haralick (energ´ıa, entrop´ıa, correlaci´ on, momento de la diferencia inversa, inercia, cluster shade, cluster prominence y disimilaridad de la matriz de co–ocurrencia de niveles de gris). Sin embargo, la existencia de 256 longitudes de onda multiplicado por dichas caracter´ısticas, nos da un n´ umero de caracter´ısticas 5 veces superior aproximadamente al n´ umero de instancias del que se dispone. En primer lugar, el coste computacional de esta opci´ on es muy superior al de una sola caracter´ıstica por longitud de onda. Una de las causas puede ser el efecto Hughes [Hughes, 1968],

6.2. EXPERIMENTO

93

Figura 6.4: Gr´ afica de niveles de gris por banda de una muestra en el experimento de detecci´ on del coraz´ on hueco. un problema relacionado con espacios matem´aticos de muchas dimensiones, que causa que el clasificador obtenga peores aciertos a pesar de poder representar el problema con m´ as informaci´ on. De todos modos, el uso de otras caracter´ısticas de textura ser´ a motivo de estudio en trabajo futuro. Para resumir esta fase, cada cubo hiperespectral va a ser representado por 259 atributos: 256 espectrales y 3 morfol´ ogicos. De los 468 cubos hiperespectrales (en adelante, muestras) de los que se dispon´ıa, 208 correspondieron a la clase afectada por coraz´ on hueco y 260 a patatas sanas. De este modo, hemos realizado una extracci´ on de caracter´ısticas a cada tipo de segmentaci´on. A estas alturas del proceso, tenemos cuatro conjuntos de datos que representan el problema de cuatro maneras distintas, en funci´ on del tipo de segmentaci´on.

6.2.3.

Selecci´ on de caracter´ısticas

En esta fase utilizamos los mismos algoritmos de selecci´on de caracter´ısticas utilizados en el experimento del Cap´ıtulo 5, detallados en la Secci´on 5.2.4, e implementados en el software de miner´ıa de datos Weka [Hall et al., 2009]. Es de destacar que en todas las ejecuciones de los algoritmos de selecci´on de caracter´ısticas se han seleccionado las caracter´ısticas morfol´ogicas descritas con anterioridad (area, perimetro y area–perimetro).

94

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

En nuestro experimento la selecci´ on de caracter´ısticas va a ser la clave para reducir el tiempo de ejecuci´ on final del sistema. Nos servir´a para identificar las longitudes de onda suficientes para solucionar el problema y permitir un enfoque multiespectral para el mismo. Para resumir, tras este paso tenemos seis conjuntos de datos (que representan el mismo problema de maneras diferentes) por cada m´etodo de segmentaci´on: genetic, scattered, greedy, Lfs, Cfs y full (el conjunto original con 259 caracter´ısticas). Por lo tanto, hemos representado el problema de 24 maneras distintas, mediante 24 conjuntos de datos, en funci´on del m´etodo de segmentaci´on (que tiene en cuenta m´ as o menos superficie de la patata) y de las caracter´ısticas que se tienen en cuenta (seg´ un lo seleccionado en este paso).

6.2.4.

Algoritmos de clasificaci´ on

En este experimento vamos a usar cuatro algoritmos de clasificaci´on que han sido seleccionados por diversas razones. En primer lugar se va a hacer uso de Random Forest (Rf) y Support Vector Machines (Svm) con kernel radial (Svm–Rbf). Estos algoritmos han sido empleados en el Cap´ıtulo 5 con ´exito, lo que augura buenos resultados. Por otra parte se han introducido dos algoritmos m´as tras pruebas preliminares con el software Weka. Hablamos de las Support Vector Machines (Svm) con kernel lineal (Svm–Lin) y del algoritmo Logistic Regression (Lr) [LeCessie & Houwelingen, 1992], cuya utilizaci´ on no formaba parte de la hip´otesis inicial. Otros m´etodos de clasificaci´ on como redes neuronales basadas en perceptr´on multicapa (Mlp), o en teor´ıa bayesiana no han aportado buenos resultados preliminares y ello ha causado que no sean utilizados en el experimento para reducir las pruebas. Mientras que en Svm–Rbf disponemos de dos par´ametros para ajustar el algoritmo (C y γ), con Svm–Lin solamente podemos ajustar C, el par´ametro de regularizaci´ on. Utilizaremos los mismos rangos para modificar C, esto es: C = 2n , n = −5 : 14. En el algoritmo Lr, existe el par´ametro ridge o r, que estableceremos a r = 10k , k = −9 : 0.

6.2.5.

Procedimiento de evaluaci´ on

Para evaluar el acierto de los 4 clasificadores sobre los 24 conjuntos de datos que hemos generado, utilizamos el m´etodo explicado en el Cap´ıtulo 5 basado en el uso de permutaciones en las que separamos instancias de entrenamiento,

6.3. RESULTADOS

95

validaci´ on y test. Llamaremos a cada una de las 4 × 24 pruebas que vamos a realizar una opci´ on. En las siguientes secciones compararemos las opciones testadas para descubrir cual es la mejor soluci´on a nuestro problema. A continuaci´ on recordamos los pasos llevados a cabo para probar cada conjunto de datos. Primero generamos aleatoriamente 10 permutaciones del conjunto de datos, de modo que cada permutaci´ on tiene las mismas muestras, pero ordenadas de manera diferente. Dividimos cada permutaci´ on en tres conjuntos: entrenamiento (primer 50 % de las muestras), validaci´ on (siguiente 25 % de las muestras) y test (25 % restante). Luego normalizamos las permutaciones, de modo que cada caracter´ıstica tenga media cero y desviaci´ on uno. Esto evita que atributos con rangos num´ericos mayores influencien excesivamente al clasificador. El procedimiento es, para cada permutaci´ on, calcular media y desviaci´on para cada caracter´ıstica, usando solo el conjunto de entrenamiento. Despu´es, normalizamos entrenamiento, validaci´ on y test usando los valores de media y desviaci´ on calculados. Para cada combinaci´ on de par´ ametros, y para cada permutaci´on, entrenamos el clasificador usando el conjunto de entrenamiento con los par´ametros correspondientes. Despu´es, probamos su acierto contra el conjunto de validaci´ on. El acierto medio sobre las 10 permutaciones nos da un acierto medio de los par´ ametros. Tras probar todas las combinaciones sobre los conjuntos de validaci´ on, nos quedamos con los mejores par´ametros. Para cada permutaci´ on, entrenamos el clasificador usando el conjunto de entrenamiento, ajustado con los mejores par´ametros obtenidos antes. Despu´es, probamos su acierto contra el conjunto de test. El acierto medio sobre las 10 permutaciones nos da el acierto final del sistema.

6.3.

Resultados

Hemos representado el problema mediante cuatro tipos de segmentaci´on, para posteriormente crear seis conjuntos de datos por cada uno seg´ un un m´etodo de selecci´ on de caracter´ısticas. Despu´es hemos evaluado estos 24 conjuntos de

96

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

datos con 4 algoritmos de clasificaci´ on diferentes. Llega el momento de determinar cu´ al de esas 96 opciones es la que alcanza mayor ´exito en la clasificaci´on. En primer lugar presentamos resultados en bruto de cada una de estas opciones, en funci´ on de su porcentaje de acierto (n´ umero de instancias correctamente clasificadas). Dividimos los resultados en cuatro tablas, una por cada m´etodo de segmentaci´ on: Tabla 6.1 (full), Tabla 6.2 (core), Tabla 6.3 (border) y Tabla 6.4 (scab).

97

6.3. RESULTADOS

Clas.

Conj.

Rf

full genetic scattered greedy Lfs Cfs average

Svm Rbf

full genetic scattered greedy Lfs Cfs average

Acierto %

loocv %

85.56 86.50 85.81 86.07 86.50 87.69 86.35

87.82 85.04 85.47 81.62 87.82 89.32 86.68

86.07 87.01 87.09 87.09 85.73 87.78 86.79

88.68 88.68 88.46 88.89 86.75 88.68 88.35

Svm Lin

full genetic scattered greedy Lfs Cfs average

86.41 86.75 86.50 86.92 85.73 87.52 86.64

88.46 87.82 88.03 87.82 87.61 88.46 88.03

Lr

full genetic scattered greedy Lfs Cfs average

85.90 86.84 86.24 86.75 85.90 87.69 86.55

88.03 88.03 87.61 87.82 87.18 88.46 87.86

Mej. Param. mtry p/2 p/2 p0 p/2 p0 p0

Valid. %

Band.

87.18 87.78 86.76 87.27 87.78 87.86

259 16 12 17 7 9

88.80 89.49 88.89 89.49 88.46 88.12

259 16 12 17 7 9

C 2−5 2−5 2−3 2−5 21 2−3

88.89 89.06 88.63 89.06 88.29 87.61

259 16 12 17 7 9

r 1 1 1 1 1 1

88.29 88.80 88.72 88.89 88.63 87.35

259 16 12 17 7 9

C 28 21 2−1 21 29 20

γ 2 2−7 2−6 2−7 2−12 2 −16

Tabla 6.1: Porcentaje de acierto de las opciones correspondientes al m´etodo de segmentaci´ on full en el experimento de detecci´on de coraz´on hueco en patata.

98

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

Clas.

Conj.

Rf

full genetic scattered greedy Lfs Cfs average

Svm Rbf

full genetic scattered greedy Lfs Cfs average

Acierto %

loocv %

86.18 87.01 88.46 86.58 86.58 87.01 86.97

88.25 86.32 85.47 85.90 88.25 87.39 86.93

86.41 87.27 87.44 86.07 85.81 87.52 86.75

88.46 88.46 88.25 88.46 87.39 88.25 88.21

Svm Lin

full genetic scattered greedy Lfs Cfs average

86.50 86.84 87.44 85.56 85.98 87.86 86.70

88.03 88.03 88.46 88.25 87.61 88.03 88.07

Lr

full genetic scattered greedy Lfs Cfs average

86.75 86.58 87.27 86.41 86.15 87.01 86.70

88.03 87.82 87.82 88.03 87.39 88.03 87.86

Mej. Param. mtry p/2 p/2 p/4 p/4 √ p p/2 C 210 22 210 210 212 27 C 2−2 2−5 2−3 21 20 2−2 r 1 1 1 1 1

1−9

Valid. %

Band.

87.44 88.03 88.46 87.44 87.09 87.27

259 18 17 17 11 8

89.06 89.49 88.46 88.97 87.86 87.86

259 18 17 17 11 8

88.80 88.89 87.95 88.80 87.78 87.69

259 18 17 17 11 8

88.38 88.80 87.86 88.63 87.78 87.01

259 18 17 17 11 8

γ 2 2−8 2−11 2−13 2−12 2−10 −16

Tabla 6.2: Porcentaje de acierto de las opciones correspondientes al m´etodo de segmentaci´ on core en el experimento de detecci´on de coraz´on hueco en patata.

99

6.3. RESULTADOS Clas.

Conj.

Rf

full genetic scattered greedy Lfs Cfs average

Acierto %

loocv %

87.44 87.69 86.41 86.84 86.32 83.33 86.34

87.18 86.32 84.62 84.19 87.82 87.82 86.32

Svm Rbf

full genetic scattered greedy Lfs Cfs average

86.84 88.89 86.92 88.12 88.29 87.78 87.81

87.18 88.25 88.03 87.40 88.25 88.25 87.89

Svm Lin

full genetic scattered greedy Lfs Cfs average

86.84 89.06 86.84 88.38 87.52 88.21 87.81

88.03 88.03 87.61 87.82 88.03 88.46 88.00

Lr

full genetic scattered greedy Lfs Cfs average

87.27 88.72 86.50 88.89 87.44 87.18 87.66

87.61 87.18 88.03 87.39 88.03 88.03 87.71

Mej. Param. mtry p/4 p/4 p/2 p/2 √ p p0

Valid. %

Band.

86.50 86.92 86.92 84.87 88.89 82.74

259 14 17 19 10 10

86.84 87.86 89.15 87.01 88.55 89.06

259 14 17 19 10 10

C 2−4 2−5 2−5 2−5 20 2−4

86.58 87.69 88.97 86.50 88.21 88.89

259 14 17 19 10 10

r 1 0.1 1 1 1 1

86.84 88.12 88.89 86.32 88.46 86.24

259 14 17 19 10 10

C 27 20 22 28 27 27

γ 2 2−8 2−7 2−12 2−16 2−16 −13

Tabla 6.3: Porcentaje de acierto de las opciones correspondientes al m´etodo de segmentaci´ on border en el experimento de detecci´on de coraz´on hueco en patata. La mejor opci´ on est´ a resaltada en color gris.

100

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

Clas.

Conj.

Rf

full genetic scattered greedy Lfs Cfs average

Svm Rbf

full genetic scattered greedy Lfs Cfs average

Acierto %

loocv %

86.07 85.90 86.24 88.55 87.61 86.50 86.81

88.68 85.68 86.75 84.19 87.39 87.82 86.75

86.84 86.41 85.98 86.07 86.15 84.96 86.07

87.61 87.82 88.03 87.61 87.61 87.82 87.75

Svm Lin

full genetic scattered greedy Lfs Cfs average

85.98 86.07 86.50 86.75 86.32 86.32 86.32

87.61 87.18 86.54 86.97 87.61 85.90 86.97

Lr

full genetic scattered greedy Lfs Cfs average

87.44 85.73 86.50 86.75 85.64 85.73 86.30

88.03 86.75 87.39 86.97 86.32 85.90 86.89

Mej. Param. mtry p/2 p/4 p/2 p/2 √ p p/2

Valid. %

Band.

87.01 86.50 87.27 87.35 87.69 87.95

259 16 18 21 11 10

88.72 87.78 88.12 87.44 87.78 88.29

259 16 18 21 11 10

C 2−5 2−5 2−5 20 2−5 2−2

87.44 87.35 87.61 86.84 87.61 87.44

259 16 18 21 11 10

r 0.01 0.01 0.01 0.001 1 1

87.44 87.01 87.35 86.67 87.18 87.01

259 16 18 21 11 10

C 27 2−1 22 26 20 22

γ 2 2−6 2−8 2−16 2−4 2−2 −16

Tabla 6.4: Porcentaje de acierto de las opciones correspondientes al m´etodo de segmentaci´ on scab en el experimento de detecci´on de coraz´on hueco en patata.

101

6.3. RESULTADOS

La mejor opci´ on tras el experimento es la que utiliza el m´etodo de segmentaci´ on border, las caracter´ısticas que sobre ´el seleccion´o el algoritmo gen´etico (11 espectrales y 3 morfol´ ogicas), y el algoritmo de clasificaci´on Svm–Lin con el par´ ametros C ajustado a 2−5 . Con esta opci´ on se consigue un acierto de 89.1 %. En la Tabla 6.5 podemos ver la matriz de confusi´on media, obtenida a partir de los resultados sobre los conjuntos de test a lo largo de las 10 permutaciones. ``` `` Clasificado ``` como Hueca ``` Real ` Hueca 57.9 Sana 6.4

Sana 6.4 46.3

Tabla 6.5: Matriz de confusi´ on de la mejor opci´on en el experimento de detecci´on del coraz´ on hueco (border, genetic, Svm–Lin). El acierto global es del 89.1 %, sobre las 162 muestras del conjunto de test (25 % del total). A continuaci´ on presentamos un an´ alisis de estas tablas, agrupando los resultados en funci´ on de su tipo de segmentaci´on, selecci´on de caracter´ısticas y clasificaci´ on. Esto nos servir´ a para discutir los mejores m´etodos para cada paso. En la Tabla 6.6 presentamos los resultados en funci´on del m´etodo de segmentaci´ on y el m´etodo de selecci´ on de caracter´ısticas. Esto nos permite ver si la mejor opci´ on no ha sido fruto de la casualidad. En este caso no es as´ı, y el conjunto de datos (border, genetic) es de nuevo el mejor, incluso teniendo en cuenta los otros clasificadores. Podemos ver los mismos datos representados en la Figura 6.5.

102

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION Segment.

full

core

border

scab

Conj. full genetic scattered greedy Lfs Cfs average full genetic scattered greedy Lfs Cfs average full genetic scattered greedy Lfs Cfs average full genetic scattered greedy Lfs Cfs average

Acierto % 85.98 86.77 86.41 86.71 85.96 87.67 86.58 86.46 86.92 87.65 86.15 86.13 87.35 86.78 87.09 88.59 86.67 88.06 87.39 86.62 87.40 86.58 86.03 86.30 87.03 86.43 85.88 86.37

Acierto loocv % 88.25 87.39 87.39 87.29 87.34 88.73 87.73 88.19 87.66 87.50 87.66 87.66 87.93 87.77 87.50 87.45 87.07 86.70 88.03 88.14 87.48 87.98 86.86 87.18 86.43 87.23 86.86 87.09

Tabla 6.6: Porcentaje de acierto en funci´on del m´etodo de segmentaci´on y del m´etodo de selecci´ on de caracter´ısticas en el experimento de detecci´on de coraz´on hueco en patata.

6.3. RESULTADOS

103

En la misma tabla podemos ver cuatro filas con el identificativo average, as´ı como una l´ınea media en la Figura 6.5. Con ello indicamos la media de todos los conjuntos de datos en funci´ on u ´nicamente del m´etodo de segmentaci´on. El m´etodo border es el que mejor se adapta al problema.

Figura 6.5: Gr´ afica que representa el porcentaje de acierto en funci´on del m´etodo de segmentaci´ on y del m´etodo de selecci´ on de caracter´ısticas en el experimento de detecci´ on de coraz´ on hueco en patata. La l´ınea indica el acierto medio por m´etodo de segmentaci´ on. En la Tabla 6.7 agrupamos los resultados en funci´on solamente del m´etodo de selecci´ on de caracter´ısticas. Podemos ver los mismos datos en la Figura 6.6. El m´etodo genetic destaca como el que mayor porcentaje de acierto alcanza. En este punto es interesante destacar que en los 24 conjuntos de datos probados, las tres caracter´ısticas morfol´ ogicas (area, perimeter y area–perimeter) han sido seleccionadas por lo m´etodos de selecci´on de caracter´ısticas. Esto sugiere que la informaci´ on morfol´ ogica es de vital importancia y confirma las hip´otesis de [Rex & Mazza, 1989] sobre la relaci´ on de la enfermedad con trastornos del crecimiento. Finalmente, en la Tabla 6.8 (e igualmente en la Figura 6.7) agrupamos los resultados atendiendo u ´nicamente al m´etodo de clasificaci´on. Podemos apreciar que el algoritmo Svm–Lin obtiene el mejor resultado.

104

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION M´etodo Selec. full genetic scattered greedy Lfs Cfs

Acierto % 86.53 87.08 86.76 86.99 86.48 86.88

Acierto loocv % 87.98 87.34 87.29 87.20 87.57 87.91

Tabla 6.7: Porcentaje de acierto en funci´on del m´etodo de selecci´on de caracter´ısticas en el experimento de detecci´on de coraz´on hueco en patata.

Figura 6.6: Gr´ afica que representa el porcentaje de acierto en funci´on del m´etodo de selecci´ on de caracter´ısticas en el experimento de detecci´on de coraz´on hueco en patata.

En la Figura 6.8 representamos gr´aficamente las bandas seleccionadas en la mejor opci´ on (marcadas en columnas negras) para un mejor entendimiento. Dichas bandas son: 863 nm, 905 nm, 921 nm, 1026 nm, 1068 nm, 1091 nm, 1195 nm, 1398 nm, 1405 nm, y el rango 1434-1438 nm. Como dijimos en el Cap´ıtulo 5, [Gunasekaran et al., 1985] sugiere que en longitudes de onda superiores a 1100 nm, donde la absorci´on del agua domina,

105

6.3. RESULTADOS M´etodo Classific. Rf Svm–Rbf Svm–Lin Lr

Acierto % 86.62 86.86 86.87 86.80

Acierto loocv % 86.67 88.05 87.80 87.58

Tabla 6.8: Porcentaje de acierto en funci´ on del algoritmo de clasificaci´on en el experimento de detecci´ on de coraz´ on hueco en patata.

Figura 6.7: Gr´ afica que representa el porcentaje de acierto en funci´on del algoritmo de clasificaci´ on en el experimento de detecci´on de coraz´on hueco en patata. la reflectancia se incrementa debido a la deshidrataci´on. La mayor parte de las bandas que hemos seleccionadas est´ an en ese rango. Sin embargo, es imposible comparar nuestros resultados con otros sistemas de detecci´on del coraz´on hueco, ya que usan rangos espectrales diferentes. Otros estudios [Curcio & Petty, 1951] indican que a partir de 1450 nm la absorci´ on del agua aumenta r´ apidamente. Las bandas seleccionadas est´an bajo ese umbral, lo que sugiere que no existe relaci´on entre la cantidad de agua en la patata y la posibilidad de que exista coraz´ on hueco. Finalmente, recordemos que los expertos humanos ten´ıan problemas a la

106

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

Figura 6.8: Bandas seleccionadas tras el experimento de detecci´on de coraz´on hueco en patata. A estas bandas hay que a˜ nadir las tres caracter´ısticas morfol´ ogicas. hora de detectar corazones huecos en patatas peque˜ nas, ya que van ligados normalmente a crecimientos anormales, en patatas grandes. Por el contrario, el clasificador que acabamos de presentar obtiene unos porcentajes de clasificaci´on muy similares independientemente de la talla. Hemos dividido el conjunto de datos en cuatro cuartiles en funci´ on de la caracter´ıstica ´ area, obteniendo de mayor a menor ´ area los siguientes porcentajes de acierto: 88.9 %, 85 %, 91 % y 88 %.

6.4.

Conclusiones

La visi´ on hiperespectral infrarroja ha resultado ser una tecnolog´ıa interesante para la detecci´ on del coraz´ on hueco en patatas de variedad Agria. Para demostrarlo, se ha desarrollado un experimento no destructivo de reconocimiento de patrones que alcanza un 89.1 % de acierto. Este porcentaje es v´alido para la industria ya que, a pesar de existir otros m´etodos, el operador humano sigue siendo el u ´nico utilizado hasta ahora. El m´etodo de segmentaci´ on border parece ser ligeramente mejor que los m´etodos core o full, probablemente por el ´angulo en el que la luz incide en la

6.4. CONCLUSIONES

107

patata. Se concluye que la segmentaci´ on del borde es una pr´actica recomendable para el an´ alisis de enfermedades internas de la patata usando el sistema de adquisici´ on descrito. Los resultados tambi´en indican demuestran que el procedimiento de segmentar la sarna de los cubos hiperespectrales (scab) no mejora el acierto del sistema. Es m´ as, lo empeora: de media, obtiene un 86.37 %, mientras que el conjunto por defecto (full) obtiene 86.58 % y la mejor segmentaci´on (border) llega al 87.40 %. La primera conclusi´ on es que retirar la sarna no es beneficioso para la detecci´ on de coraz´ on hueco. Eso significa que parece existir alg´ un tipo de correlaci´on entre la presencia de sarna y coraz´ on hueco (lo cual no implica rotundamente causalidad). Por su parte, las tres caracter´ısticas morfol´ogicas han demostrado ser un buen complemento a las espectrales, ya que han sido seleccionadas por todos los algoritmos de selecci´ on de caracter´ısticas para todas las opciones, confirmando las hip´ otesis de [Rex & Mazza, 1989]. En cuanto a los algoritmos de selecci´ on de caracter´ısticas vemos que no todos han mejorado el acierto (por ejemplo el algoritmo lfs no mejora el acierto del conjunto original). El algoritmo gen´etico, sin embargo, es el que mejor acierto obtiene. Los algoritmos de clasificaci´ on probados obtienen resultados agrupados muy similares, pero confirman que el m´etodo Svm (con cualquiera de los dos kernels testados) es una buena opci´ on en problemas binarios. Tal y como vimos en el Cap´ıtulo 5, con la informaci´on obtenida de la mejor opci´ on (m´etodo de segmentaci´ on border, las caracter´ısticas que sobre ´el seleccion´ o el algoritmo gen´etico, y el algoritmo de clasificaci´on Svm–Lin con el par´ ametro C = 2−5 ) podemos dise˜ nar un sistema multiespectral espec´ıfico que trabajar´ıa con tantos filtros como longitudes de onda seleccionadas (11 en este caso) con el objetivo de reducir el tiempo de ejecuci´on, acerc´andolo a los requerimientos de la industria. En el futuro ser´ıa interesante evaluar el sistema con otras variedades, as´ı como investigar la relaci´ on entre las bandas o´ptimas y las causas biol´ogicas del coraz´ on hueco.

108

´ DE CORAZON ´ HUECO CAP´ITULO 6. DETECCION

Cap´ıtulo 7

Conclusiones En este cap´ıtulo se resumen las principales conclusiones, contribuciones y l´ıneas futuras de este trabajo de tesis, tanto a nivel global como para cada uno de los cap´ıtulos t´ecnicos.

7.1.

Conclusiones

En esta secci´ on presentamos un sumario de las principales conclusiones del trabajo de tesis, una vez vistos los cap´ıtulos t´ecnicos de la misma. A nivel global, destacan las siguientes: La visi´ on artificial y m´ as concretamente la visi´on hiperespectral son tecnolog´ıas muy adecuadas para el control de calidad no destructivo en la industria agroalimentaria, y para el caso espec´ıfico de la patata. El dise˜ no de un framework y banco de pruebas para solucionar problemas como los planteados mediante visi´on hiperespectral, abre un nuevo campo de estudio y permite abordar proyectos en el futuro aplicando el conocimiento adquirido en esta tesis. En el Cap´ıtulo 3, dedicado al an´ alisis de textura en el espectro visible, vimos que el espacio de color Hsv puede ser un complemento interesante al espacio Rgb en problemas de textura. Adem´ as, vimos que Contraste, Disimilaridad, Homogeneidad y Energ´ıa de los canales H y S destacaron como las caracter´ısticas 109

110

CAP´ITULO 7. CONCLUSIONES

m´ as importantes de entre las propuestas. As´ı mismo, se concluy´o que el uso de estas 8 caracter´ısticas mejoraba el comportamiento del clasificador 1-nn, pasando de 86.26 % a un 87.40 % de acierto. En el Cap´ıtulo 5, en el que estudiamos la detecci´on de sarna com´ un en patata mediante visi´ on hiperespectral, se lleg´o a la conclusi´on de que el m´etodo de selecci´ on de caracter´ısticas Cfs es el que mayor acierto obtiene de entre los probados. Del mismo modo, el clasificador Svm es el que mayor acierto obtiene de entre los clasificadores propuestos. Con esta informaci´on, la mejor opci´on resuelve el problema de detecci´ on de sarna con un 97.1 % de acierto, con las bandas en 1300 nm, 1303 nm, 1336 nm, 1339 nm, 1342 nm y 1503 nm, y los par´ ametros C = 211 y γ = 2−5 para Svm–Rbf. En cuanto a los trabajos para la detecci´on del coraz´on hueco en patata mediante visi´ on hiperespectral (Cap´ıtulo 6), comprobamos que el m´etodo de segmentaci´ on border obtiene mejor acierto que tener en cuenta toda la patata (full) o solo el centro (core). Adem´ as, vimos que identificar la sarna com´ un y retirarla del cubo hiperespectral empeora la detecci´on de coraz´on hueco en patata. En cuanto a las caracter´ısticas utilizadas, las tres caracter´ısticas morfol´ogicas a˜ nadidas a las espectrales fueron seleccionadas por todos los m´etodos de selecci´ on de caracter´ısticas, lo que prueba su importancia en el problema. Entre estos m´etodos, el dirigido por algoritmo gen´etico es el que mayor acierto obtiene de entre los probados. En lo relativo a la clasificaci´on, el clasificador Svm con kernel lineal es el que mayor acierto obtiene de entre el abanico de algoritmos testados. Como conclusi´ on, vemos que el sistema resuelve el problema de detecci´ on del coraz´ on hueco con un 89.1 % de acierto, con la opci´on de segmentaci´on border, algoritmo de selecci´ on genetic (el cual selecciona las bandas en 863 nm, 905 nm, 921 nm, 1026 nm, 1068 nm, 1091 nm, 1195 nm, 1398 nm, 1405 nm, 1434–1438 nm, as´ı como las tres caracter´ısticas morfol´ogicas) y el clasificador Svm–Lin ajustado con C = 2−5 .

7.2.

Contribuciones

En esta secci´ on se pretende aclarar cu´ales son las principales contribuciones de este trabajo de tesis, de modo que sea m´as sencillo comprender en qu´e aspectos este trabajo ha supuesto una novedad en los sistemas de control de calidad no destructivos usando visi´ on hiperespectral infrarroja en el mundo agroalimentario y m´ as concretamente aplicado al caso de la patata.

7.2. CONTRIBUCIONES

111

A nivel general, con esta tesis se han introducido las siguientes contribuciones: La creaci´ on de un framework experimental para adquisici´on y an´alisis hiperespectral infrarrojo, que cubre todo el proceso, y permite solucionar problemas de mapeo y de clasificaci´ on proporcionando una respuesta en tiempo no optimizado. El uso de caracter´ısticas espaciales y espectrales para su uso en un sistema de reconocimiento de patrones para la resoluci´on de problemas utilizando el framework experimental hiperespectral. Un sistema de clasificaci´ on de coraz´ on hueco en patata, y de mapeo de sarna com´ un en patata, utilizando el framework experimental hiperespectral, e informaci´ on suficiente para el dise˜ no de sistemas espec´ıficos multiespectrales para los mismos problemas. La creaci´ on e implementaci´ on de un sistema de adquisici´on en el espectro visible para la clasificaci´ on de podredumbre y verdeo en patatas. Para empezar, en el Cap´ıtulo 2 presentamos brevemente la metodolog´ıa cl´asica de visi´ on artificial, junto con una breve selecci´on de referencias para ampliar en el conocimiento de esta ´ area de conocimiento. En el cap´ıtulo dedicado al an´ alisis de textura en el espectro visible (Cap´ıtulo 3), se present´ o un nuevo m´etodo de segmentaci´on de agrupaciones de regiones conexas basado en colorimetr´ıa y b´ usqueda de istmos atendiendo a proyecciones verticales. Tambi´en se utilizaron caracter´ısticas de textura en dos espacios de color diferentes al mismo tiempo (Rgb y Hsv). Durante la fase de selecci´on de caracter´ısticas, fue desarrollado un algoritmo propio basado en algoritmos gen´eticos. Por u ´ltimo, se realiz´ o una verificaci´on experimental de las ventajas de realizar una selecci´ on de caracter´ısticas para mejorar el acierto de los clasificadores, as´ı como de todo el sistema dise˜ nado. En el Cap´ıtulo 4, se presenta una revisi´ on y estado del arte de las posibilidades de la visi´ on hiperespectral aplicada al control de calidad agroalimentario, y m´ as concretamente al caso de la patata. Adem´as, se detalla el dise˜ no, implementaci´ on y puesta a punto de un sistema de adquisici´on hiperespectral infrarrojo, base del framework definido anteriormente.

112

CAP´ITULO 7. CONCLUSIONES

En la parte correspondiente a la detecci´on de sarna com´ un (Cap´ıtulo 5), se presenta la utilizaci´ on del framework definido para el mapeo de sarna com´ un en patata. Posteriormente, se realiza una verificaci´on experimental de la eficiencia de los distintos m´etodos utilizados para selecci´on de caracter´ısticas y clasificaci´ on, as´ı como de la totalidad del sistema dise˜ nado. En el Cap´ıtulo 6, en el que se presenta el sistema para la detecci´on del coraz´ on hueco, se utiliza nuevamente el framework definido, en este caso para la detecci´ on de coraz´ on hueco en patata. En ´el, verificamos experimentalmente la eficiencia de los distintos m´etodos utilizados para segmentaci´on, extracci´on de caracter´ısticas, selecci´ on de caracter´ısticas y clasificaci´on, as´ı como de todo el sistema. Se valoran las ventajas de utilizar la parte externa de la patata para la detecci´ on de problemas internos, as´ı como la extracci´on de caracter´ısticas morfol´ ogicas para su utilizaci´ on junto con las espectrales. Es destacable que, en relaci´ on a dichas contribuciones, se han presentado o aceptado para publicaci´ on los siguientes art´ıculos: Dacal-Nieto, A., Vazquez-Fernandez, E., Formella, A., Mart´ın, F., Torres-Guijarro, S., Gonz´ alez-Jorge, H.: A genetic algorithm approach for feature selection in potatoes classification by computer vision. Industrial Electronics, 2009. Iecon’09. 35th Annual Conference of Ieee, 1955-1960, Isbn 978-1-4244-4648-3 (2009). Dacal-Nieto, A., Formella, A., Carri´on, P., Vazquez-Fernandez, E., Fern´ andez-Delgado, M.: Rapid infrared multi-spectral systems design using a hyperspectral benchmarking framework. Ieee International Conference on Multimedia and Expo (Icme 2011). Industrial Electronics, 2011. Annual Conferences of Ieee, (2011). To be published. Dacal-Nieto, A., Formella, A., Carri´on, P., Vazquez-Fernandez, E., Fern´ andez-Delgado, M.: Non-destructive detection of hollow heart in potatoes using hyperspectral imaging. 14th International Conference on Computer Analysis of Images and Patterns (Caip 2011). Lecture Notes in Computer Science, (2011). To be published. Dacal-Nieto, A., Formella, A., Carri´on, P., Vazquez-Fernandez, E., Fern´ andez-Delgado, M.: Common scab detection on potatoes using an infrared hyperspectral imaging system. 16th International Conference on Image Analysis and Processing (Iciap 2011). Lecture Notes in Computer Science, (2011). To be published.

7.3. L´INEAS FUTURAS

7.3.

113

L´ıneas futuras

Por u ´ltimo, en esta secci´ on se quieren resumir las principales ideas para trabajo futuro que se han ido presentando en el trabajo de tesis. En primer lugar, una posibilidad es ampliar los sistemas de adquisici´on para que sean sensibles en otros rangos del espectro. Por ejemplo, el sistema hiperespectral existente podr´ıa combinarse con otro basado en el rango visible (Specim Imspector V10E y JAI BM-141GE), disponiendo ambos sistemas en vertical con un desplazador lineal para proporcionar movimiento al objeto. Esto posibilitar´ıa abordar nuevos problemas en rangos m´as estudiados. Independientemente de eso, ser´ıa interesante implementar las soluciones multiespectrales espec´ıficas dise˜ nadas para cada problema. Por otro lado, los experimentos pueden ser ampliados con nuevos algoritmos de extracci´ on de caracter´ısticas, selecci´ on de caracter´ısticas y clasificaci´on. Y del mismo modo, podr´ıan proporcionarse nuevas muestras a los experimentos, especialmente de variedad Kennebec. Ci˜ n´endonos al Cap´ıtulo 3 (Textura visible), ser´ıa importante utilizar nuevas caracter´ısticas espec´ıficas que complementen a las de textura utilizadas para mejorar la detecci´ on de las enfermedades planteadas (podredumbre y verdeo) as´ı como para detectar nuevos defectos como el da˜ no mec´anico. El experimento tambi´en podr´ıa ser mejorado con nuevos algoritmos de clasificaci´on, nuevos m´etodos de selecci´ on de caracter´ısticas y un m´etodo de evaluaci´on m´as restrictivo que loocv, tal y como se ha hecho en los cap´ıtulos posteriores. En lo relativo a la detecci´ on de sarna com´ un (Cap´ıtulo 5), podr´ıa ampliarse el experimento mediante nuevos m´etodos de extracci´on y selecci´on de caracter´ısticas, as´ı como de clasificaci´ on, para intentar mejorar el acierto del sistema. Podr´ıa realizarse un experimento utilizando otras variedades (como Kennebec) y con otros sistemas de adquisici´ on, que ampl´ıen el rango de sensibilidad del sistema al espectro visible. Finalmente, en el Cap´ıtulo 6, en el que presentamos los trabajos relacionados con la detecci´ on del coraz´ on hueco, deber´ıan ser estudiados nuevos m´etodos de extracci´ on y selecci´ on de caracter´ısticas, as´ı como de clasificaci´on, para intentar mejorar el acierto del sistema. Como antes, tambi´en podr´ıan probarse otras variedades de patata, y otros rangos de sensibilidad del sistema. Por u ´ltimo, deber´ıa ser investigada la relaci´ on entre las bandas seleccionadas y las causas biol´ ogicas del coraz´ on hueco.

114

7.4.

CAP´ITULO 7. CONCLUSIONES

Proyectos

Adem´ as, a nivel del sistema hiperespectral, est´an abiertas las siguientes iniciativas: CARNEVIP–SEGALI A pesar de no resultar respaldado con financiaci´on, el proyecto contin´ ua siendo una idea a tener en cuenta para el futuro. ANHIMIGA Se ha solicitado financiaci´ on para este proyecto al Ministerio de Innovaci´on en 2011, por lo que, en caso de ser concedida, se continuar´a con la l´ınea de investigaci´ on hiperespectral en colaboraci´on con el grupo de Palinolog´ıa de la Universidade de Vigo. El proyecto servir´ıa para poner en marcha una l´ınea hiperespectral mixta en el espectro visible y Nir que ampl´ıe las capacidades del sistema creado hasta el momento.

Cap´ıtulo 8

Publicaciones relacionadas A continuaci´ on se resumen y comentan las contribuciones que se anexan a esta memoria de tesis, como muestra del trabajo de investigaci´on realizado. En cada una de las contribuciones se detallan sus principales datos, los criterios de calidad que se han sopesado para su inclusi´on en esta memoria, y las tareas llevadas a cabo por el doctorando.

115

116

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

8.1.

Clasificaci´ on de patatas mediante textura

El art´ıculo “A genetic algorithm approach for feature selection in potatoes classification by computer vision” fue presentado en la conferencia 35th International Annual Conference of the Ieee Industrial Electronics Society (Iecon 2009), celebrada del 3 al 5 de Noviembre de 2009 en Porto (Portugal). Posteriormente fue recogida en los proceedings del congreso (Industrial Electronics, 2009. Iecon’09. 35th Annual Conference of Ieee, pp. 1955-1960. Isbn: 978-1-4244-4648-3).

Autores Angel Dacal-Nieto Esteban Vazquez-Fernandez Arno Formella Fernando Mart´ın Soledad Torres-Guijarro Higinio Gonzalez-Jorge

Lomg y Universidade de Vigo Lomg Universidade de Vigo Universidade de Vigo Lomg Lomg

Criterios de calidad Proceedings Editorial SJR Q3

Industrial Electronics, Annual Conferences of Ieee Ieee If = 0.031 (2009) ’Engineering - Electrical and Electronic Engineering’ (266/381)

Rol del doctorando En esta ocasi´ on, el doctorando ha sido el autor principal del art´ıculo, participando y siendo responsable de todas y cada una de sus partes. Esteban V´azquez colabor´ o durante la parte de adquisici´on de imagen. El Dr. Higinio Gonz´alez y la Dra. Soledad Torres actuaron como responsables por parte del Lomg. Por su parte, el Dr. Arno Formella, de la Es de Enxe˜ ner´ıa Inform´atica de la Universidade de Vigo, actu´ o como tutor del doctorando, mientras que el Dr. Fernando Mart´ın, de la Ets de Enxe˜ ner´ıa en Telecomunicaci´on de la Universidade de Vigo, actu´ o como tutor de Esteban V´ azquez.

´ DE PATATAS MEDIANTE TEXTURA 8.1. CLASIFICACION

117

A genetic algorithm approach for feature selection in potatoes classification by computer vision Angel Dacal-Nieto1,2, Esteban Vázquez-Fernández1,3, Arno Formella2, Fernando Martin3, Soledad Torres-Guijarro1, Higinio González-Jorge1, 1 Laboratorio Oficial de Metroloxia de Galicia (LOMG), Parque Tecnolóxico de Galicia, San Cibrao das Viñas 32901 Ourense, Spain 2 Computer Science Department, University of Vigo, Spain 3 Communications and Signal Theory Department, University of Vigo, Spain [email protected]

Abstract-Potato quality control has improved in the last years thanks to automation techniques like machine vision, mainly making the classification task between different quality degrees faster, safer and less subjective. We present a system that classifies potatoes depending on their external defects and diseases. Firstly, some image processing techniques are used to segment and analyze the potatoes. Then, a classifier is used to decide the group the potato belongs to. For the feature selection task, we have designed an ad-hoc genetic algorithm which maximizes the classification percentage. This approach is used to perform an optimization in the search of the better feature combination. The system shows to be effective in real operation simulations (working with unwashed potatoes covered with dust and sand,), what seems to be a good starting point in the development of the system.

The diagram of system overview (Figure 1) shows the main parts of the paper. It is organized as follows. Image taking and expert classification steps will be described in section II. Segmentation and feature extraction tasks will be shown in section III. Classification optimization by means of a GA will be presented in section IV. Finally, some results and conclusions will be discussed in sections V and VI, respectively.

I.INTRODUCTION Computer vision has become an essential technology for quality control in the food industry, which continuously demands new and better applications. There are many examples of this synergy in potato industry [1-3]. Complex commercial systems have also been developed with great success, which shows computer vision in potato quality control as a mature technology. However, there are still challenges to be solved. Artificial Intelligence (AI) techniques are among the most used in computer vision [4-5]. However, Genetic Algorithms (GA's) [6-7] have been less used in this field in comparison with other AI technologies. Previous work show that GA have been tested as part of the classifier itself, for calculating the weights of an Artificial Neural Network [8]. Sometimes they are used for object segmentation purposes [9], although recent work suggest many other applications. Some contributions show that GA's can be used for feature selection [10-11], providing those features that maximize the performance of the selected classifier. Some of the features could be spurious or even noise. A good feature selector is a basic aid when building a robust classifier, because it can reveal us unknown relationships between classes and features. In this paper, we present a computer vision based quality control system to detect defects and diseases on not washed potatoes. It uses a GA as a tool to reduce the number of features of the classifier.

978-1-4244-4649-0/09/$25.00 ©2009 IEEE

Fig. 1. Diagram of system overview.

II.IMAGE ACQUISITION AND EXPERT CLASSIFICATION A. Image acquisition A set of 47 bags of potatoes (with 20Kg. of potatoes each one) were randomly selected from two potato packing companies in Xinzo de Limia (Spain), on 2008 harvest. The bags had samples from the more important varieties in the region (Agria, Kennebec and red varieties), and contained healthy and unhealthy potatoes. It is usual that companies from this region do not wash the potatoes before the packing process, so all the inspections had to be done in the presence of dust and sand. Real operation conditions in a potato packing company were recreated by making a small roller line that moved at 0.1m/s. The prototype is shown in Figure 2.

1955

118

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

A Jai BB-500GE 5Mp color camera was used for the image taking process. A total of 5.040 pictures with 2456x2048 tiff resolution were taken from the 47 bags, covering a region of 50x40 cm. For the illumination, two 500W halogen lamps have been used. The system took a picture every 500ms, so that every potato was present in 8-9 pictures. The idea was to capture the potatoes from different points of view, as they roll on the line. A matrix camera was chosen instead of a linear camera because otherwise it would have been impossible to reconstruct the images while the potatoes are rolling.

III. SEGMENTATION AND FEATURE EXTRACTION A. Segmentation The OpenCV libraries [12] have been used in the implementation, in combination with C++ programming language. The segmentation process to separate potatoes from the background has been divided into three sub processes: first we detect the interest areas, then we identify those areas as objects, and finally we prevent segmenting groups of touching potatoes into a single object.

B. Expert Classification Experts from the 'Centro Tecnolóxico da Carne (CTC)' selected a representative set of pictures from the original set. This selection contained n=305 pictures (Figure 3). A learning set was built by the selection of p=1206 potatoes. Nine classes were identified depending on their diseases and the unhealthy percentage of potato. For this work three classes were taken into account: good (with no problem at all), with rotten areas (up to 10%), and with green areas (up to 25%).

Fig. 2. System description.

Fig. 3. One of the n pictures from where potatoes were extracted for the learning set.

978-1-4244-4649-0/09/$25.00 ©2009 IEEE

Fig. 4. Area detection steps: (a) B-S image, (b) B'-R image, (c) G-R image, (d) final result.

1956

´ DE PATATAS MEDIANTE TEXTURA 8.1. CLASIFICACION 1. Area detection The original image in RGB colour space was converted to HSV colour space. The intense blue colour of the rollers was removed from channel H (values from 214 to 228 in 360 base were set to 0). A new RGB image (image’) was built from S, V and the modified H channel. Let us call image’ to the set of RGB channels R’, G’, B’. We took advantage from some existing relationships between image and image’ RGB and HSV channels: - G minus R remarks potatoes in dark (almost black) colour. Parts from the rollers and vertical guides mix with the potatoes. - B minus S highlights the dark parts in the rollers that usually mix with the potatoes. - B’ minus R highlights the vertical guides and other shadows that mix with the potatoes. The idea is to remove those highlighted parts in B-S and B’-R from G-R. Previously, some binarization, blurring and closing operations [13] are performed in B-S and B’-R. Finally, B-S and B’-R are used as masks in G-R binarization. After this operation we obtain a binary image of potatoes and background (Figure 4).

119

2. Object identification The second part of the segmentation process is the identification of every connected region as an object. Some problems should be avoided at this time, mainly considering noise as objects. The result of this sub process will be a new image for every found connected region, with a black background. 3. Segmentation of touching potatoes At this point, it is common that some groups of potatoes have been considered as a single potato, inside the same image. We will ensure there is only one potato in each image by detecting “cuts” in it with the next algorithm (Figure 5): For every angle α between 0º and 180º, in 6º steps, - The image is rotated αº. - We calculate the vertical projection of the rotated image img'. - We detect local maximums in the projection [14] by searching peaks in 40 pixels neighborhoods (adequate for potato size). - If there are at least two local minimums, we look for the minimum between the two highest peaks. If this minimum is under a threshold (40% of projection's height), the value is added to a list of cuts. When all the rotations are tested, the best cut is used to divide the image vertically. Two sub-images are then created. Their bounding boxes are adjusted to the new content, and the algorithm is performed again to ensure there is only one potato in them. This algorithm is recursively executed until all the images have no good “cuts” (Figure 6).

Fig. 6. Segmented potato.

Fig. 5. Touching potatoes detection (images and projections): (a) original object, (b) 48º rotation with 109 occurrences valley, (c) 60º rotation with 78 occurrences valley, (d) optimal cut found at 60º.

978-1-4244-4649-0/09/$25.00 ©2009 IEEE

B. Feature extraction The proposed method is not intended to directly detect every class (i.e. worm dots), but to extract several general purpose features and let the classifier infer the relationships between features and classes. These features have been selected from texture analysis proposed in [15], and are listed in Table I (Eq. 1-10).

1957

120

CAP´ITULO 8. PUBLICACIONES RELACIONADAS TABLE I FEATURES For every RGB and HSV channel

histogram mean

histogram variance

histogram kurtosis

x=

1 N

N

∑ xi i =1

(1)

1 variance = N

N



( xi − x ) 2

i =1

(2) N

1

kurtosis =

∑ ( xi − x )4 − 3

N variance 2 i =1

1 N

N

∑ ( xi − x )3

i =1 N

histogram asymmetry assimetry = (

(3)

∑ ( xi − x )2)3 / 2

1 N

i =1

co-occurrence matrix contrast

N −1 contrast = Pi , j (i − j )2

co-occurrence matrix dissimilarity

dissimilar ity =

(4)



(5)

i, j = 0 N −1 Pi , j i − j



(6)

i, j = 0

co-occurrence matrix homogeneity

homogeneit y =

co-occurrence matrix energy

energy =

N −1 Pi , j 2 i , j = 0 1 + (i − j )



(7)

N −1 Pi , j 2



(8)

i, j = 0 N −1 Pi , j − ln Pi , j i, j = 0

co-occurrence matrix entropy

entropy =

co-occurrence matrix correlation

correlatio n =



( ( ))

(9)

⎤ ⎡ ⎢ (i − μ i ) j − μ j ⎥ ⎥ Pi, j ⎢ ⎥ ⎢ σ i2σ 2j i, j = 0 ⎥⎦ ⎣⎢ N −1



(

)

(10)

Supervised training is possible because every potato has f=60 features and we also know the class the potato belongs to. The learning set is stored into a MySQL database. This will be make its management easier in the future. IV. CLASSIFICATION AND GENETIC ALGORITHM OPTIMIZATION A.Classification The classifier we have chosen is the Nearest Neighbor Classifier, because of its simplicity and robust performance [16]. We have extracted f features from p potatoes, which

978-1-4244-4649-0/09/$25.00 ©2009 IEEE

means we have a f-dimensional space with p points into it. It would be desirable that points from the same class were close (using an Euclidean distance in our case), so that they get clustered. If this happened, the Nearest Neighbor algorithm would work efficiently while assigning the nearest neighbor class to the potato we want to classify. The problem is that it is possible that some of the features we have extracted are not useful in the classification process. Some of the features could be noise, and do not offer any help (or even make worse the result) when we try differentiate between classes. So we need to choose those features that are actually important to classify potatoes. This means we could have to decrease the number of dimensions in our feature space, where the useful features would remain. Time is a key factor in the system, so that avoiding useless calculus becomes an essential point. We have 2f different possibilities to find the best feature performance. It would be computationally expensive (or even impossible) to make a sequential search to find the best combination, so it seems we need some optimization method to find a quite good combination. B.Genetic Algorithm Optimization Some contributions in food analysis present GA's as a good option managing the randomness of natural samples, and seems to be suitable for potatoes analysis. This method has been tested by Y. Chtioui et al [10] on seed discrimination and by J. Gomez-Sanchis et al [11] on early detection of rottenness in mandarins. In their work, J. Gomez-Sanchis et al compare GA with other methods (Correlation analysis, Mutual information and Stepwise multivariate regression), showing that the GA gets the best performance. Our genetic algorithm is an ad-hoc one based on a classical structure. The main steps are: 1. Random creation of the first generation of pop chromosomes with f genes each one. 2. Do the next steps while the number of generations gen is not reached: a) Fitness: Evaluate the population, calculating the fitness of every chromosome. b) Selection: Select pop/2 chromosomes from the better adapted chromosomes. c) Crossover: Cross those pop/2 selected chromosomes in pairs, creating two new chromosomes by pair. d) Substitute the pop/2 non-crossed chromosomes by the new ones created by the crossover operation. e) Mutation: Mutate randomly the population. 3. When gen is reached, return the best chromosome (the one with the best fitness throughout all generations).

1958

´ DE PATATAS MEDIANTE TEXTURA 8.1. CLASIFICACION In our case we define these operations as follows: – chromosome: it is a binary array with f 0's and 1's. We define a relation between the ith position of the chromosome and the ith feature of the potatoes. A 1 (activation) at the ith position of a chromosome means the ith feature is taken into account when calculating the distance in the classification process. A 0 (no activation) at the ith position of a chromosome means, actually, that we remove the ith dimension from the feature space. The consequence of this definition is that each chromosome represents a new feature space where the points (potatoes) get classified in a different way. – fitness: to evaluate how good a chromosome c is, we just have to evaluate the combination of features that c represents. This measure is the degree of classification of the potatoes, taking into account the distance function that we are using (Euclidean) and the number of zeros in the chromosome (this will reduce the number of selected features as the generations follow one another). The fitness function is defined in Table II (Equations 11-14). TABLE II FITNESS FUNCTIONS fitness(chromosome c) = p 1 ( correct _ classification( potatoes i , c))·( # zeros in c ) p i =1



(11)

correct_classification(potato k, chromosome c) = 1: if ( 1nn(k, c).class == k.class) 0: otherwise

1nn (potato k, chromosome c) = potatoesj | (potatoesj ≠ k) ^ (potatoesj has the minimum distance to k in the feature space defined by c)

- crossover: the crossover operator chosen was the One-Point crossover, where parents’ chromosomes are cut in a randomly selected point and the pieces we get are swapped creating the children's chromosomes. After the crossover, the non-crossed chromosomes are substituted by the just generated ones, which are the children of the crossed chromosomes. The consequence of this rearrangement is that the new population has pop/4 families (composed by 2 parents and 2 children). This maintains good fitness (the parents), and possible combinations of good fitness (the children). The evolution of the population is guaranteed by the randomness of the crossover operation and by the possible mutations. - mutation: some chromosomes of each generation can get mutated depending on a defined mutation probability mut = 0,003. When a chromosome is mutated, one of its f genes swaps (from 0 to 1 or from 1 to 0). - generations: gen has been set to 500, as recommended by [10]. The expected behavior from the GA is that the best chromosomes (those which have a better phenotype) will transmit parts of their genetic code to the next generations, creating new chromosomes that may improve the fitness of their ancestors, which means that better combinations of features will be found. The GA stops when a certain number of generations are created. Its result is the better chromosome found in the totality of generations. V. RESULTS AND FUTURE LINES

(12)

(13)

121

A. Results Several executions of the GA have been performed, showing not only good chromosomes selections, but also global evolutions of the created populations (Figure 7).

distance (potato k, potato j, chromosome c)= f

(

∑ (k feature i =1

i

− j featurei ) 2

(14)

where the feature i is evaluated only if (cgen i == 1)

- selection: we have used the Roulette Wheel selection method as selection operator. This method selects the chromosomes depending on their fitness, so that the probability of being selected pi is directly proportional to how good their fitness fitness(i) has been: pi = N

fitness (i)

∑ fitness( j) j =1

978-1-4244-4649-0/09/$25.00 ©2009 IEEE

(15)

Fig. 7. Two executions of the GA: best fitness from example 1 (a), best fitness from example 2 (b), mean of fitness from example 1 (c) and mean of fitness from example 2 (d).

1959

122

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

Analizing the best chromosomes from all the executions, some results have been found: - Features extracted from channels H and S were the most selected ones in almost all the experiments. - Homogeneity and dissimilarity were the two most selected features, taking into account all the channels. - Almost all 1st order features (mean, variance and asymmetry) were unselected, except kurtosis. Using this information, an optimized classifier has been created. The difference with the previous one is it only takes into account the features selected by GA's executions (contrast, dissimilarity, homogeneity and energy from channels H and S). Its performance with 8 features (Table IV) improves the previous 60 features classifier performance (Table III). TABLE III 60 FEATURES CLASSIFIER CONFUSION MATRIX Good

Rotten

Green

Good

83,30%

5,20%

11,50%

Rotten

7,90%

88,50%

3,60%

Green

4,20%

11,10%

84,70%

[1]

TABLE IV 8 SELECTED FEATURES CLASSIFIER CONFUSION MATRIX Classified as → Actually ↓

Good

Rotten

Green 8,90%

Good

86,00%

5,10%

Rotten

7,10%

88,70%

4,20%

Green

4,90%

8,90%

86,20%

B. Future lines By the moment we have used general purpose features instead of ad-hoc features. We will implement at least one new feature by class trying to detect particularities that define why a potato belongs to one class and not to the others. When adding these new features to the system we are changing chromosomes, and adding new genes. We will study how to suggest the system that these new features are truly important (for example initializing these new genes to 1). Other dimensional reduction and feature selection techniques like PCA (Principal Component Analysis) or GCS (Growing Cell Structures) [17] will be tested to assess if the results given by the GA can be improved. In addition, other classification methods like Random Forest or Artificial Neural Networks will be studied. VI. CONCLUSIONS This work is the first step towards a potatoes quality control system based on computer vision. Potato segmentation has been performed by image processing techniques, specially taking into account color and

978-1-4244-4649-0/09/$25.00 ©2009 IEEE

ACKNOWLEDGMENTS This work was partially supported by “Xunta de Galicia” (project code 08TIC004CT and HR programs “Lucas Labrada” and “Parga Pondal”). We want to acknowledge researchers from “CTC” for their helpful collaboration. REFERENCES

Classified as → Actually ↓

projections. Then, features have been extracted from HSV and RGB channels from every segmented potato, using histogram and co-occurrence matrix texture characteristics, creating a learning set. A classifier has been developed by using 1-NN algorithm. This classifier has been optimized with an ad-hoc GA that selects the most discriminant features subset. With this optimization, the dimensional complexity of the classifier has been decreased so that it will be possible to build a faster final application, because useless calculations have been removed.

L. Zhou, V. Chalana and Y. Kim, “PC-Based Machine Vision System for Real-Time Computer-Aided Potato Inspection,” International Journal of Imaging Systems and Technology, 9 (1998) 423-433. [2] M. Lefebvre, S. Gil, D. Brunet, E. Natonek, C. Baur, P. Gugerli and T. Pun, “Computer vision and agricultural robotics for disease control: The Potato Operation,” Computers and Electronics in Agriculture, 9 (1993) 85-102. [3] A.Y. Muir, D.W. Ross, C.J. Dewar, and D. Kennedy, Defect and disease detection in potato tubers, Scottish Agricultural College Crop Science Research Report, (1999) pp 5-9. [4] C. Du, D. Sun, “Learning techniques used in computer vision for food quality evaluation: a review,” Journal of Food Engineering, 72 (2006) 39-55. [5] F. Goyache, A. Bahamonde, J. Alonso, S. Lopez, J.J. Del Coz, J.R. Quevedo, J. Ranilla, O. Luaces, I. Alvarez, L.J. Royo and J. Diez, “The usefulness of artificial intelligence techniques to assess subjective quality of products in the food industry,” Food Science and Technology, 12 (2001) 370-381. [6] J. H. Holland, Adaptation in Natural and Artifical Systems, University of Michigan Press. [7] D. Goldberg, Genetic Algorithms in Search, Optimization and Machine Learning, Reading, MA.: Addison-Wesley. [8] D. Guyer, X. Yang, “Use of genetic artificial neural networks and spectral imaging for defect detection on cherries,” Computers and Electronics in Agriculture, 29 (2000) 179-194. [9] Minglun Gong, Yee-Hong Yang, “Quadtree-based genetic algorithm and its applications to computer vision,” Pattern Recognition, 37 (2004) 1723-1733. [10] Y. Chtioui, D. Bertrand, and D. Barba, “Feature selection by a genetic algorithm. Application to seed discrimination by artifical vision,” J Sci Food Agric, 1998, 76, 77-86. [11] J. Gómez-Sanchís, L. Gómez-Chova, N. Aleixos, G. Camps-Valls, C. Montesinos-Herrero, E. Moltó and J. Blasco, “Hyperspectral system for early detection of rottenness caused by Penicillium digitatum in mandarins,” Journal of Food Engineering, 89 (2008) 80-86. [12] G. R. Bradski and A. Kaehler, Learning OpenCV, Computer Vision with the OpenCV library, (2008) O'Reilly. [13] John C. Russ, The Image Processing Handbook, Fifth Edition (2007) CRC-Press. [14] F. Martín, “Analysis Tools for Gray Level Histograms”. Proceedings of SPPRA-2003. June 2003. [15] M. Graves and B. Batchelor, Machine Vision for the Inspection of Natural Products, (2004) Springer. [16] A. K. Jain, R. P W. Duin and J, Mao, “Statistical Pattern Recognition: A Review,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 22 (2000). [17] F. Diaz, F. Fdez-Riverola, D. Glez-Pena and J.M. Corchado, “Applying GCS network to fuzzy discretized microarray data for tumour diagnosis,” 7th International Conference IDEAL 2006. Proceedings (Lecture Notes in Computer Science), 4224 (2006) 1095-102.

1960

´ DE PATATAS MEDIANTE TEXTURA 8.1. CLASIFICACION

123

Tabla Resumen T´ıtulo Datos Calidad Papel del autor Motivaci´ on Resultados

Conclusiones Trabajo futuro

A genetic algorithm approach for feature selection in potatoes classification by computer vision. Iecon 2009. Industrial Electronics, 2009. Iecon’09. 35th Annual Conference of Ieee. 0.031 Sjr (Q3) Fundamental. Detecta enfermedades requeridas en los objetivos del proyecto Visiocal. Se consigue un 87.4 % de acierto utilizando el clasificador 1-nn, utilizando las caracter´ısticas de contraste, disimilaridad, homogeneidad y energ´ıa de los canales H y S (espacio Hsv). Se mejora el acierto con la selecci´on de caracter´ısticas. Nuevas caracter´ısticas. Nuevos m´etodos de selecci´on de caracter´ısticas.

124

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

8.2.

Sistema hiperespectral gen´ erico

El art´ıculo “Rapid infrared multi-spectral systems design using a hyperspectral benchmarking framework” va a ser presentado en la conferencia Ieee International Conference on Multimedia and Expo (Icme 2011), a celebrar del 11 al 15 de Julio de 2011 en Barcelona (Espa˜ na). Ha sido aceptado para su presentaci´on y posteriormente va a ser recogido en los proceedings del congreso.

Autores (modificar) Angel Dacal-Nieto Arno Formella Pilar Carri´ on Esteban Vazquez-Fernandez Manuel Fern´ andez-Delgado

Universidade de Vigo Universidade de Vigo Universidade de Vigo Gradiant Universidade de Santiago de Compostela (Usc)

Criterios de calidad (modif) Congreso Core

Ieee International Conference on Multimedia and Expo (Icme 2011) B ’Artificial Intelligence and Image Processing’

Rol del doctorando El doctorando ha sido el autor principal del art´ıculo, apoyado por los directores de la tesis, Arno Formella y Pilar Carri´on. Esteban V´azquez, de Gradiant, colabor´ o en la introducci´ on y en la fase de adquisici´on. Manuel Fern´andez, de la Usc, colabor´ o en la parte de clasificaci´on.

´ 8.2. SISTEMA HIPERESPECTRAL GENERICO

125

RAPID INFRARED MULTI-SPECTRAL SYSTEMS DESIGN USING A HYPERSPECTRAL BENCHMARKING FRAMEWORK A. Dacal-Nieto1 , A. Formella1 , P. Carri´on1 , E. Vazquez-Fernandez2 and M. Fern´andez-Delgado3 Computer Science Department, Universidade de Vigo, Spain [email protected] 2 GRADIANT, Galician R&D Center in Advanced Telecommunications, Spain 3 CITIUS, Universidade de Santiago de Compostela, Spain 1

ABSTRACT We present a benchmarking framework to design multispectral systems working in the NIR range for multiple purposes. This framework is composed of a hyperspectral imaging hardware and an ad-hoc software that performs pattern recognition experiments (image acquisition, segmentation, feature extraction, feature selection, classification and evaluation steps) comparing different algorithms in every step. For each experiment, we obtain a solution using a generic hyperspectral system, but we also obtain enough data to design a specific multi-spectral system in order to decrease the overall execution time. This improvement is based in the feature selection step, that provides the most relevant wavelengths for the problem. The framework has been tested for detecting internal and external features in potatoes, determining the origin of honey, and studying fecundity parameters in hen eggs. Index Terms— hyperspectral, multi-spectral, computer vision, image processing, infrared 1. INTRODUCTION Hyperspectral imaging is an emerging technology originally designed for military remote satellite inspection [1], but is also used for remote sensing, astronomy and Earth observation. It is a reliable approach to classical spectroscopy, because despite a little loss of accuracy, an object can be analyzed in significantly less time and in a non-destructive way. Hyperspectral imaging joins two quite different technologies: spectroscopy, which obtains spectral information from an object, and computer vision, which obtains spatial information from an object. The output of a hyperspectral acquisition system is a set of images within a wavelength range, known as a hyperspectral cube. This means that, for each pixel in the image, we have a set of values indicating how this pixel varies along a certain frequency range. This work was partially supported by the Spanish regional government of the “Xunta de Galicia” (project PGIDIT08TIC004CT). We want to acknowledge the “Laboratorio Oficial de Metrolox´ıa de Galicia (LOMG)” and the “Centro Tecnol´oxico da Carne (CTC)” for their helpful collaboration.

The scientific community has started in the last years to show interest in hyperspectral imaging possibilities for food quality. Thus, some groups have worked or are working in applications of hyperspectral imaging in food quality assessment. We can find contributions oriented to multiple products like chicken [2], mushrooms [3], cucumbers [4] and mandarins [5], as well as extensive reviews, e.g., [6]. Hyperspectral systems usually take hundreds of images that correspond to consecutive wavelengths in the spectra, but in the practice, each problem of detection or classification uses a limited number of wavelengths, so the problem can be handled as a multi-spectral system. 2. HYPERSPECTRAL FRAMEWORK 2.1. Motivation Designing specific multi-spectral systems is a tedious and complex task. Using a multiple purpose benchmarking system, we have the chance of testing multiple options in the search of the optimum combination of algorithms to solve the problem. This benchmarking system should be hyperspectral to allow a continuous search within a wavelength range. A generic hyperspectral system is usually slower than a specific multi-spectral one, because it needs to scan the object in some way to obtain one spectral image for each inspected line building eventually the hyperspectral cube. A multi-spectral approach avoids the scanning of the object and no movement is needed, just acquiring one image for each wavelength of interest, previously selected using some feature selection algorithm. From this point of view, and for each problem, an experimental general–purpose hyperspectral system provides a valid solution possibly in an inadequate time (depending on the user requirements), meanwhile each specific multi-spectral system gives the same solution in less time, but it is oriented to just one problem. Figure 1 presents the system diagram. This work presents a hyperspectral benchmarking system for multi-spectral systems design in the NIR range. The procedure will be capture the images from the objects using a

126

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

Fig. 1. Diagram of the framework.

general purpose infrared hyperspectral system. Then, hyperspectral cubes will be built from the frequency images. Image processing algorithms are executed both for segmentation and for feature extraction purposes as described in the sequel. Afterwards, feature selection algorithms are executed, obtaining datasets that represent the same data using different combinations of features. These datasets are then tested with some classification algorithms in order to classify the objects into the proposed classes. A result is obtained, as well as enough information to design a specific multi-spectral system.

Fig. 2. Left: scanning initial position. Right: scanning final position. The arrow shows the direction of scanning. Hyperspectral system scheme: a) camera, b) spectrograph, c) mirror scanner, d) object, e) diffuse chamber, f) halogen lamp.

2.2. Image acquisition The concept of hyperspectral imaging is to perform a spectroscopic analysis of the light reflected or transmitted by the object of interest. This is accomplished by coupling a spectrograph with a matrix camera, hence, obtaining both spectral and spatial information. Our hyperspectral system has been designed for non-destructive food inspection in the NIR region. We coupled an infrared camera and a swir-nir spectrograph, both sensitive from 900 nm to 1700 nm. The camera is a Xenics Xeva 1.7–320 with an InGaAs 320 × 256 pixel sensor and USB connection. The spectrograph is a Specim Imspector N17E. The system has also three 50 W AC halogen lamps placed in the inspection plate to provide diffuse illumination to the object surface. The diffuse light is obtained by the reflection in a plastic dome over the plate made. The spectrograph has a linear input (one pixel height), where the x-axis represents the same x-axis (spatial) of the object. The y-axis (spectral) is then studied to obtain how every pixel in the row varies along the spectral range. With one spectral image, we are inspecting only one spatial line, so we need to inspect the whole object. This is accomplished joining a rotatory Mirror Scanner to the spectrograph. The complete scanning of an object takes approximately 30 seconds. It is based on performing a rotation of the mirror to scan the object, taking care of the synchronization between mirror stepping and image acquisition (Figure 2). Then, these images are transposed to create the hyperspectral cube (Figure 3). Our system obtains 320 spectral images (320 × 240 pixels), that are transposed into hyperspectral cubes formed by 256 images with 320 × 320 pixels, corresponding to 256 consecutive wavelengths from 900 nm to 1700 nm.

Fig. 3. Up: Spectral images taken from different lines of the object. Down: 978 nm, 1173 nm, and 1608 nm spatial images. 2.3. Segmentation We are going to handle two types of problems depending on the result that the user requires. The first type of problems are those where each hyperspectral cube has only one object, and this object is related with one class (1o1c). The result of analyzing the hyperspectral cubes will be the class the object belongs to. For instance, we have studied the origin of honey samples, where one sample belongs only to one class. The other type of problems are intended to classify each pixel in the hyperspectral cube in order to build a map that indicates which zones in the object belong to a specific class (mapping). For instance, we have studied the detection of common scab (a skin disease) in potato tubers. Thus, some pixels are classified as scab, and others as healthy surface. The user obtains an incidence map and incidence percentages. Independently of the type of problem, we need to segment the object from the background in every hyperspectral cube for later feature extraction tasks. We segment only one image from the hyperspectral cube so that we obtain a mask that will be applied in the rest of the hyperspectral cube. Segmentation runs in several steps using the open source library OpenCV [7]. First, we binarize the image with Otsu’s method [8] that calculates the optimum binarization thresh-

127

´ 8.2. SISTEMA HIPERESPECTRAL GENERICO

old. Then, a Gaussian blurring clusters the noise in the image. A connected-component labelling is performed to remark contiguous areas in the image. At this point, we know that the blob with the largest area (excluding the background) is the object of interest. We select this blob and create the mask to segment all the images in the hyperspectral cube (full). Other segmentation algorithms have been implemented to capture zones where the incidence of light is different, taking into account central (core) and external (border) portions. The Figure 4 visualizes examples of these processes.

we use feature selection to identify which wavelengths are sufficient to solve each problem in order to design a specific multi-spectral system with this information. We have tested some techniques regarding spectral bands selection on hyperspectral imaging systems (implemented on Weka [9]): Genetic Search [10], Scattered Search [11], Greedy Stepwise, Linear Forward Selection (LFS) [12], and Correlation-based Feature Subset Selection (CFS) [13]. Other techniques such as PCA and LDA do not reduce the number of wavelengths needed, as required, rather they generate a linear combination of the 256 features into a new feature space composed of less dimension. 2.6. Classification

Fig. 4. 1: Otsu’s binarization. 2: smooth operation. 3: blob analysis. 4: full mask. 5: core mask. 6: border mask.

2.4. Feature extraction The different types of problems need specific algorithms to extract their features. With mapping problems, the samples are provided by selecting manually regions of interest (ROI). From each hyperspectral cube, we can select many samples, always indicating the class each sample belongs to. In the case of 1o1c problems, each hyperspectral cube provides just one sample. We take into account just the zone selected by a segmentation algorithm (full, core or border). The objective of feature extraction is to represent each sample with one vector of values. Hyperspectral imaging provides spectral information, so we calculate the average luminance value of the pixels in the ROI or in a segmented zone for each image in the hyperspectral cubes (i.e., for each of the 256 wavelengths). In some 1o1c problems, we included three morphological features to the feature list, namely the area, the perimeter, and the relation area–perimeter of the object, that could be useful depending on the problem. 2.5. Feature Selection Feature selection is a common task in pattern recognition problems, specially in those cases where the initial number of features is high. In our case feature selection is a fundamental step to decrease the overall execution time, because

We have tested the problems with four classification algorithms: Random Forest (RF) [14], Support Vector Machines (SVM) [15] with Gaussian kernel (SVM-RBF) and linear kernel (SVM-LIN), and Logistic Regression (LR) [16]. For each dataset, we evaluate the classification algorithms using a method based on randomly generating 10 permutations of the dataset, so that each permutation has the same samples, but differently ordered. Then, each permutation is divided into three parts: training (50% of the samples), validation and parameter tuning (25%), and test (25%). The samples are normalized (zero mean and standard deviation one) to avoid that attributes in greater numeric ranges influence excessively over those with smaller variation. For each combination of tunable parameters and for each permutation, we train a classifier using the training sets. Then, we test its performance by using the validation sets. We select the parameter values which provide the best average accuracy over the 10 permutations. These parameters are: mtry (the number of features to be used in random selection) for RF, √ using mtry = p0 , mtry = p, mtry = p/4 and mtry = p/2, with p =number of features; the regularization parameter (C) and kernel spread (γ) for SVM-RBF, using C = 2n , n = −5..14 and γ = 2n , n = −15..0; C for SVM-LIN, using C = 2n , n = −5..14, and LR has the ridge estimator (r), using r = 10k , k = −9..0. Finally, for each permutation, we train the classifier using the training sets tuned with the best parameters found, evaluating its accuracy on the test sets only. 3. EXPERIMENTS AND RESULTS In the Table 1 some results are presented in order to summarize the problems that have been tested. For each problem, different alternatives have been compared, and the best option is chosen as the final solution. The common scab is a skin disease of the potato tubers that decreases the quality of the product and influences significantly the price. We have used the presented framework to solve the problem, achieving a 97.1% of accuracy using

128

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

Table 1. Accuracy percentages for the tested problems. Problem Acc. % Segm. Classif. Bands scab 97.1 ROI SVM 6 hollow heart 89.1 border SVM 11 honey 99 full SVM tests egg sex < 60 full many tests egg fecund. 100 full many tests

Support Vector Machines (C = 211 , γ = 2−5 ) and a specific subset of spectral features selected by the CFS algorithm. The hollow heart is an internal disorder of the potato tubers, that causes a star–shaped cavity that grows into the potato. Acoustics and X–Ray examination have tried to detect the hollow heart in the last years, but none of the approaches provide a non–destructive, orientation–independent and size– independent solution. Our system has found that using the border segmentation method and the SVM-LIN classification algorithm (C = 2−5 ), we get a 89.1% of accuracy detecting the hollow heart. This option uses a specific subset of spectral features selected by the genetic algorithm feature selection method, as well as three morphological features that represent size and roundness of the samples. The characterization of different types of honey, on the basis of their botanical origin, is an interesting tool for the food industry. A preliminary stage of the analysis has been performed, getting accuracies next to 99% (SVM-RBF, C = 27 , γ = 2−12 ) that should be confirmed in the future. Our system was also tested with the aim to classify hen eggs, while they are being incubated, according to their sex. In the past, some methods have been used for this purpose, but none got remarkable non–destructive results. Unfortunately, no more than a 60% of accuracy was achieved. After the in-ovo sex study, a fecundity determination was tested, getting a 100% of accuracy. Although this problem can be solved using faster and simpler methods, the application of our hyperspectral system shows it is a reliable technology that may be applied to multiple sets of problems.

5. REFERENCES [1] A. F. H. Goetz et al., “Imaging spectrometry for earth remote sensing,” Science, vol. 228, pp. 1147-1153, 1985. [2] C. Yang et al., “Machine vision system for online inspection of freshly slaughtered chickens,” Sens. & Instrumen. Food Qual., vol. 3, pp. 70-80, 2009. [3] A. A. Gowen et al., “Hyperspectral imaging for the investigation of quality deterioration in sliced mushrooms (Agaricus bisporus) during storage,” Sens. & Instrumen. Food Qual., vol. 2, pp. 133-143, 2008. [4] D. Ariana and R. Lu, “Quality evaluation of pickling cucumbers using hyperspectral reflectance and transmittance imaging,” Sens. & Instrumen. Food Qual., vol. 2, pp. 144160, 2008. [5] J. Gomez-Sanch´ıs et al., “Hyperspectral system for early detection of rottenness caused by Penicillium digitatum in mandarins,” J. Food Eng., vol. 89, pp. 80-86, 2008. [6] D. Sun, “Hyperspectral Imaging for Food Quality Analysis and Control”. San Diego, CA: Elsevier, 2009. [7] G. Bradski and A. Kaehler, “Learning OpenCV: Computer Vision with the OpenCV Library”. O’Reilly, 2008. [8] N. Otsu, “A threshold selection method for gray level histograms,” IEEE Trans. Syst. Man Cybern., vol. 9, pp. 62-6, 1979. [9] M. Hall et al., “The WEKA Data Mining Software: An Update,” SIGKDD Explorations. vol. 11(1), 2009. [10] D.E. Goldberg, “Genetic Algorithms in Search, Optimization and Machine Learning” Reading, MA: AddisonWesley, 1989. [11] F. Garc´ıa-L´opez et al., “Solving feature subset selection problem by a Parallel Scatter Search,” Eur. J. Oper. Res., vol. 169(2), pp. 477-489, 2008. [12] M. Guetlein et al., “Large Scale Attribute Selection Using Wrappers,” Proc IEEE Symp. on Comput. Intell. and Data Mining, pp. 332-339, 2009.

4. CONCLUSIONS

[13] M. Hall, “Correlation-based Feature Subset Selection for Machine Learning,”. Hamilton, New Zealand, 1998.

We presented a multiple purpose benchmarking hyperspectral framework for the designing of specific multi-spectral systems, that has been tested in some food quality problems. The specific systems are faster than the equivalent ones in the hyperspectral approach, because less wavelengths are inspected, after using feature selection algorithms. Pattern recognition experiments have been performed for deciding which other algorithms are required to solve the given problem. Moreover, NIR hyperspectral imaging has shown to be an interesting objective non–destructive choice for food quality assessment.

[14] L. Breiman, “Using Iterated Bagging to Debias Regressions,” Mach. Learn., vol. 45, pp. 261-277, 2001. [15] C.C. Chang and C.J. Lin “LIBSVM:a library for support vector machines,” http://www.csie.ntu. edu.tw/˜cjlin/libsvm/, 2008. [16] S. Le Cessie and J.C. Van Houwelingen, “Ridge Estimators in Logistic Regression,” Appl. Stat., vol. 41, 191-201, 1992.

´ 8.2. SISTEMA HIPERESPECTRAL GENERICO

129

Tabla Resumen T´ıtulo Datos Calidad Papel del autor Motivaci´ on

Resultados

Trabajo futuro

Rapid infrared multi-spectral systems design using a hyperspectral benchmarking framework. Icme 2011. Industrial Electronics, 2011. Annual Conferences of Ieee. Core B Fundamental. Exponer los avances acerca del sistema hiperespectral aplicados tanto a los problemas de patatas como al resto de problemas abordados. Diversos porcentajes en el an´alisis de sarna com´ un en patatas, coraz´ on hueco en patatas, determinaci´on de origen floral de miel, detecci´on de sexo in–ovo en gallina y detecci´ on de fecundidad in–ovo en gallina. Ampliaci´ on del sistema al rango visible.

130

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

8.3.

Visi´ on hiperespectral: coraz´ on hueco en patatas

El art´ıculo “Non–destructive detection of hollow heart in potatoes using hyperspectral imaging” va a ser presentado en la conferencia 14th International Conference on Computer Analysis of Images and Patterns (Caip 2011), a celebrar del 29 al 31 de agosto de 2011 en Sevilla (Espa˜ na). Posteriormente ser´ a publicado en la revista Lecture Notes in Computer Science (Springer– Verlag) durante 2011.

Autores Angel Dacal-Nieto Arno Formella Pilar Carri´ on Esteban Vazquez-Fernandez Manuel Fern´ andez-Delgado

Universidade Universidade Universidade Gradiant Universidade tela

de Vigo de Vigo de Vigo de Santiago de Compos-

Criterios de calidad Congreso Core Revista Editorial SJR Q3 Q3 Q4

14th International Conference on Computer Analysis of Images and Patterns (Caip 2011) B ’Artificial Intelligence and Image Processing’ Lecture Notes in Computer Science (Lncs) Springer Verlag. If = 0.033 (2009) ’Computer Science, miscellaneous’ (66/108) ’Hardware and Architecture’ (81/118) ’Mathematics - Theoretical Computer Science’ (67/74)

´ HIPERESPECTRAL: CORAZON ´ HUECO EN PATATAS 8.3. VISION

Non–Destructive Detection of Hollow Heart in Potatoes Using Hyperspectral Imaging Angel Dacal-Nieto1 , Arno Formella1 , Pilar Carri´on1 , Esteban Vazquez-Fernandez2 , and Manuel Fern´andez-Delgado3 1

2

Computer Science Department, Universidade de Vigo, Campus As Lagoas 32004 Ourense, Spain [email protected] GRADIANT, Galician R&D Center in Advanced Telecommunications, Spain 3 Centro de Investigaci´ on en Tecnolox´ıas da Informaci´ on (CITIUS), Universidade de Santiago de Compostela, Spain

Abstract. We present a new method to detect the presence of the hollow heart, an internal disorder of the potato tubers, using hyperspectral imaging technology in the infrared region. A set of 468 hyperspectral cubes of images has been acquired from Agria variety potatoes, that have been cut later to check the presence of a hollow heart. We developed several experiments to recognize hollow heart potatoes using different Artificial Intelligence and Image Processing techniques. The results show that Support Vector Machines (SVM) achieve an accuracy of 89.1% of correct classification. This is an automatic and non-destructive approach, and it could be integrated into other machine vision developments. Keywords: Hyperspectral, Infrared, Potato, SVM, Random Forest

1

Introduction

Potatoes (Solanum tuberosum) are nowadays one of the most consumed products in the world: they are the world’s fourth largest food crop. The annual production is 325 million tons and it moves an amount of global transactions of about 6 billion US dollars (2007 data). Thus, the world potato average consumption is 31 Kg per capita and year [1]. One of the internal characteristics of the potato tubers is the called hollow heart, a star–shaped cavity that grows into the potato. Some early studies point that there exist a relation between growing disorders and probability of the presence of a hollow heart [2]. Some contributions in the last years have tried to detect hollow hearts in potatoes using X–Ray examination [3] and acoustics [4,5], providing successful results (98%). However, [4] needs the potatoes to be isolated from noise and it can not detect tiny hollow hearts, meanwhile in [5] the potatoes are dropped to study the sound produced by the fall, which eventually bruises the samples. Moreover, both approaches are strongly dependent on the orientation of the potato. Despite these contributions, the main packaging companies in the North of Spain still use a human operator to deal with the problem,

131

132

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

2

Angel Dacal-Nieto et al.

by removing bigger and amorphous tubers after destructively checking a small sample of the production, which causes subjectivity mistakes and possibly lower (but unknown) accuracy rates. We propose a new automatic non–destructive method based on hyperspectral imaging, not dependent on the orientation, and with no potato isolation required. Hyperspectral imaging is a reliable approach to classical spectroscopy, because an object can be analysed in significantly less time, and always in a non-destructive way, despite a little loss of accuracy. This technology has become interesting in the field of food quality assessment [6], being used to predict the water content in potatoes [7], and to detect clods between a set of potato tubers [8]. Other contributions [9] use near–infrared (NIR) spectroscopy to predict specific gravity and dry matter in potatoes.

2

Image Acquisition System

The objective of hyperspectral imaging is to perform a spectroscopic analysis of the light reflected or transmitted by the object of interest. This is accomplished by coupling a spectrograph and a matrix camera, which obtains both spectral and spatial information. Our hyperspectral system has been designed for nondestructive food inspection in the NIR region. We coupled an infrared camera and a SWIR-NIR spectrograph, both sensitive from 900 nm to 1700 nm. Specifically, we used a Xenics Xeva 1.7-320 camera with an InGaAs 320 × 256 pixel sensor and USB connection. The spectrograph is a Specim Imspector N17E. The system has also three 50 W AC halogen lamps placed in the inspection plate to provide diffuse illumination to the potato surface. The diffuse light is obtained by the reflection in a plastic dome over the plate. The spectrograph has a linear input (one pixel height), where the x-axis represents the same x-axis (spatial) of the object. The y-axis (spectral) is then studied to obtain how every pixel in the row varies along the spectral range. With one spectral image, we are inspecting only one spatial line, so that we need to perform the inspection over the whole object. This is accomplished by joining a rotatory mirror scanner to the spectrograph. It is based on performing the mirror rotation, covering a 40◦ window over the object, taking care of synchronization between mirror stepping and image acquisition (Figure 1). Finally the images are transposed in order to obtain the hyperspectral cube (Figure 2). To sum up, our system obtains 320 spectral images (320 × 240 pixels), that are transposed into a hyperspectral cube formed by 256 images with 320 × 320 pixels, corresponding to 256 consecutive wavelengths, equally spaced from 900 nm to 1700 nm.

3

Experiment

The objective of the experiment is to compare different algorithms for each Pattern Recognition stage in order to compose the combination of methods that maximizes the accuracy classifying hollow heart affected and healthy potatoes.

´ HIPERESPECTRAL: CORAZON ´ HUECO EN PATATAS 8.3. VISION

A hyperspectral non–destructive detection of hollow heart in potatoes

Fig. 1. Left: scanning initial position at 70◦ . Right: scanning final position at 110◦ . The arrow shows the direction of scanning. Hyperspectral system scheme: a) camera, b) spectrograph, c) mirror scanner, d) object, e) diffuse chamber, f) halogen lamp.

Fig. 2. Up: Three spectral images taken from different lines of the object. Down: 978 nm, 1173 nm, and 1608 nm spatial images.

The experiment uses 234 potato tubers (variety Agria) from Xinzo de Limia (Spain), that have been collected from some potato packing companies during 2009. The potatoes have been captured from two sides, using the system described in Section 2, and cut later to check the presence of hollow heart. They have been placed in a stable position, so that the biggest area is acquired. 3.1

Segmentation

Segmentation runs in several steps to obtain a mask to remove the background for the hyperspectral cube using the open source library OpenCV [10]. First, we binarize the image using Otsu’s method [11], that calculates the optimum binarization threshold. Then, a Gaussian blurring clusters the noise in the image. Another binarization is needed for the next operation. A connected-component labelling is performed to remark contiguous areas in the image. At this point, we know that the blob with the largest area (excluding the background) is the potato. We select this blob and create the mask used to segment all the images in the hyperspectral cube. We call this segmentation method full.

133

3

134

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

4

Angel Dacal-Nieto et al.

Additionally, we have implemented three other segmentation methods. The core algorithm is intended to remove the external area of the potatoes, using a heavy erosion operation, so that we only take into account their central part. In the border algorithm, the aim is to remove the centre of the potato, so that the segmentation only makes visible a portion similar to a ring. The last segmentation method (scab) has been developed in a parallel research [12], aimed to detect common scab (a skin disease in the potatoes) in an automatic and non-destructive way, using the same acquisition system. We use the result of the scab segmentation to obtain a hyperspectral cube free of common scab, which might be more accurate in the detection of hollow heart. The Figure 3 visualizes examples of the results given by these processes.

Fig. 3. 1: Binarization using Otsu’s method. 2: smooth operation. 3: second binarization. 4: blob analysis. 5: mask used for hyperspectral cube segmentation. 6: full mask. 7: core mask. 8: border mask. 9: scab mask.

3.2

Feature Extraction

We calculated the average luminance value of the pixels belonging to the potato for each image in the hyperspectral cubes (i.e. for each of the 256 wavelengths). Depending on the segmentation method, we use the whole potato for this calculation (full mask), or different zones of the tuber (core, border and scab masks). Additionally, we included three morphological features in the feature list, namely

´ HIPERESPECTRAL: CORAZON ´ HUECO EN PATATAS 8.3. VISION

A hyperspectral non–destructive detection of hollow heart in potatoes

the area, perimeter and roundness of the potato. Our objective is to test whether the potato size and roundness are relevant for the hollow heart detection. Hence, every hyperspectral cube is represented with 259 attributes (256 spectral and 3 morphological features). We used 468 samples (208 hollow heart affected and 260 healthy potatoes). 3.3

Feature Selection

This stage identifies which wavelengths are the optimal to detect hollow heart potatoes, in order to decrease the number of images to analyse. We used some algorithms implemented in Weka [13], using their default parameters: Genetic Search [14], Scattered Search [15], Greedy Stepwise [16], Linear Forward Selection (LFS ) [17], and Correlation-based Feature Subset Selection (CFS ) [18]. We also included the data set with all the features (full ). We have discarded techniques such as Principal Component Analysis and Linear Discriminant Analysis, because they perform a linear combination of all the wavelengths, instead of selecting a subset, as the used feature selection methods do. 3.4

Classification

We present results of four classification algorithms: Random Forest (RF) [19], Support Vector Machines (SVM) [20] with Gaussian (SVM-RBF) and linear (SVM-LIN) kernels, and Logistic Regression (LR) [21]. Although LR is not among the most popular algorithms, it has been included in the experiment after good preliminary results with Weka [13]. Note that we have 4 segmentation methods and 6 feature selection methods (24 data sets) and 4 classification algorithms. In this stage we test each of these 96 options to solve our problem in order to evaluate which is the best solution. We randomly generated 10 permutations of the data sets. Each permutation was divided into three parts: training (50% of the samples), validation (25% of the samples, used for parameter tuning), and test (the remaining 25%). The samples were normalized (zero mean and standard deviation one) to avoid that attributes in greater numeric ranges influence excessively over those with smaller variation. For each classifier, for each combination of tunable parameters and for each permutation, we trained the classifier using the 10 training sets. We tested its performance on the validation sets, selecting the parameter values with the best average accuracy over the 10 permutations. These parameters are: mtry (the number of features to use in random selection) for RF, using mtry = p0 , mtry = √ p, mtry = p/4 and mtry = p/2, with p =number of features; the regularization parameter (C) and kernel spread (γ) for SVM-RBF, using C = 2n , n = −5 : 14 and γ = 2n , n = −15 : 0; SVM-LIN has just (C), using C = 2n , n = −5 : 14, and LR has the ridge estimator (r), using r = 10k , k = −9 : 0. Finally, for each permutation, we trained the classifier using the training sets tuned with the best parameters values, evaluating its accuracy on the 10 test sets.

135

5

136

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

6

4

Angel Dacal-Nieto et al.

Results and Discussion

The results are presented in Figure 4. Some average results using all the data sets are provided, in order to determine the best segmentation method (upper left panel in Figure 4), the best feature selection method (upper right panel), and the best classifier (lower left panel). The best data set uses the border segmentation method, the genetic feature selection method, and the SVM-LIN classification algorithm, achieving 89.06% of accuracy (lower right panel). The Table 1 shows the average confusion matrix achieved by the best data set–classifier pair using the test sets (117 samples).

Fig. 4. Upper left: average segmentation results using all the data sets. Upper right: average feature selection results using all the data sets. Lower left: average classification results using all the data sets. Lower right: results of the best data set (border–genetic).

Table 1. Average test confusion matrix achieved with the best combination of segmentation, feature selection and classification methods.

XXX

XClassified XXX as Hollow heart Healthy Real XX Hollow heart 57.9 6.4 Healthy 6.4 46.3

It is interesting to note that the three morphological features were selected by all the feature selection algorithms in all the data sets, so that it seems they are very important information for the problem, which confirms [2] conclusions. Finally, the Figure 5 presents the 10 wavelengths selected by the best feature selector (genetic), marked with black columns (wavelengths in 863, 905, 921,

´ HIPERESPECTRAL: CORAZON ´ HUECO EN PATATAS 8.3. VISION

A hyperspectral non–destructive detection of hollow heart in potatoes

1026, 1068, 1091, 1195, 1398, 1405, and 1434-1438 nm) over an example potato spectral chart. Although water absorption increases rapidly after 1450 nm [22], it is remarkable that all the selected wavelengths are below 1438 nm. This suggests that the water amount is not an important factor in the hollow heart detection.

Fig. 5. Selected wavelengths on the best data set, marked with columns. The x-axis represents the bands. The y-axis represents the average grey level.

5

Conclusions

Infrared hyperspectral imaging has shown to be a good choice for hollow heart detection in potatoes of Agria variety. We developed an objective and non– destructive detection method using Pattern Recognition and Image Processing techniques, achieving accuracies of about 89.1%. The result can be interesting for the industry, because nowadays the process is still handled by human operators. The border segmentation method seems slightly better than using the full potato. The results also indicate that removing the common scab from the hyperspectral cubes does not help the classification procedure and decreases the accuracy. The correlation between common scab and the presence of hollow heart will be studied in the future. Regarding feature selection, size and roundness were detected to be essential features for the hollow heart detection, and should be taken into account. Besides, genetic has shown to be the most suitable feature selection algorithm. In future work, it would be interesting to evaluate the system with other potato varieties, as well as researching the relationship between the optimal wavelengths and the biological causes of hollow heart. Acknowledgements. This work was partly supported by the “Xunta de Galicia” (projects PGIDIT08TIC004CT and PGIDIT08MMA010402PR). We want to acknowledge the “Laboratorio Oficial de Metrolox´ıa de Galicia (LOMG)” and the “Centro Tecnol´ oxico da Carne (CTC)” for their helpful collaboration.

137

7

138

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

8

Angel Dacal-Nieto et al.

References 1. Potato World, World-wide potato production statistics. International Year of the Potato 2008. http://www.potato2008.org/en/world/index.html (2008) 2. Rex, B.L., Mazza, G.: Cause, control and detection of hollow heart in potatoes: A review. Am. J. Potato Res. 66, No 3 (1989) 3. Finney, E.E., Norris, K.H.: X-Ray scans for detecting hollow heart in potatoes. Am. J. Potato Res. 55, No 2 (1978) 4. Jivanuwong, S.: Nondestructive detection of hollow heart in potatoes using ultrasonics. Master Thesis. Virginia Polytechnic Institute (1998) 5. Elbatawi, I.E.: An acoustic impact method to detect hollow heart of potato tubers. Biosyst. Eng. 100, 206-213 (2008) 6. Sun, D.: Hyperspectral Imaging for Food Quality Analysis and Control. Academic Press Elsevier, San Diego, California, USA (2009) 7. Singh, B.: Visible and near-infrared spectroscopic analysis of potatoes. M.Sc. Thesis, McGill University, Montreal, PQ, Canada (2005) 8. Al-Mallahi, A., Kataoka, T., Okamoto, H., Shibata, Y.: Detection of potato tubers using an ultraviolet imaging-based machine vision system. Biosyst. Eng. 105, 257265 (2009) 9. Kang, S., Lee, K., Son, J.: On-line internal quality evaluation system for the processing potatoes. Food Process. Autom. Conf. Proc., Providence, Rhode Island (2008) 10. Bradski, G., Kaehler, A.: Learning OpenCV: Computer Vision with the OpenCV Library. O’Reilly Media (2008) 11. Otsu, N.: A threshold selection method for gray level histograms. IEEE Trans. Syst. Man Cybern. 9, 62-66 (1979) 12. Dacal-Nieto, A., Formella, A., Carri´ on, P., Vazquez-Fernandez, E., Fern´ andezDelgado, M.: Common scab detection on potatoes using an infrared hyperspectral imaging system. To appear in Proceedings of ICIAP 2011, LNCS (2011) 13. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I.H.: The WEKA Data Mining Software: An Update. SIGKDD Explorations 11 (1) (2009) 14. Goldberg, D.: Genetic Algorithms in Search, Optimization and Machine Learning. Reading, Ma: Addison-Wesley (1989) 15. Garc´ıa-L´ opez, F., Garc´ıa-Torres, M., Meli´ an-Batista, B., Moreno-P´erez, J.A., Moreno-Vega, J.M.: Solving feature subset selection problem by a Parallel Scatter Search. Eur. J. Oper. Res. 169 (2), 477-489 (2008) 16. Weihs, C.: Multivariate Exploratory Data Analysis and Graphics, A tutorial. J. Chemom. 7, 305-340 (1993) 17. Guetlein, M., Frank, E., Hall, M. Karwath, A.: Large Scale Attribute Selection Using Wrappers. Proc IEEE Symposium on Computational Intelligence and Data Mining, 332-339 (2009) 18. Hall, M.: Correlation-based Feature Subset Selection for Machine Learning. Hamilton, New Zealand (1998) 19. Breiman, L.: Using Iterated Bagging to Debias Regressions. Mach. Learn. 45, 261277 (2001) 20. Chang, C.C., Lin, C.J.: LIBSVM:a library for support vector machines. http: //www.csie.ntu.edu.tw/~cjlin/libsvm/ (2008) 21. Le Cessie, S., Van Houwelingen, J.C.: Ridge Estimators in Logistic Regression. Appl. Stat. 41, 191-201 (1992) 22. Curcio, J.A., Petty, C.C.: The Near Infrared Absorption Spectrum of Liquid Water. J. Opt. Soc. Am. 41, 302-302 (1951)

´ HIPERESPECTRAL: CORAZON ´ HUECO EN PATATAS 8.3. VISION

139

Tabla Resumen T´ıtulo Datos Calidad Papel del autor Motivaci´ on Resultados

Conclusiones

Trabajo futuro

Non–destructive detection of hollow heart in potatoes using hyperspectral imaging. Caip 2011. Lecture Notes in Computer Science (Springer). 0.033 Sjr (Q3 x 2, Q4), Core B Fundamental. Es una enfermedad requerida en los objetivos del proyecto VISIOCAL. Se consigue un 89.1 % de acierto utilizando el clasificador Svm (kernel lineal) con el par´ametro C = 2−5 , utilizando solamente las bandas en 863 nm, 905 nm, 921 nm, 1026 nm, 1068 nm, 1091 nm, 1195 nm, 1398 nm, 1405 nm, 1434-1438nm, as´ı como las tres caracter´ısticas morfol´ ogicas, seleccionadas mediante algoritmo gen´etico sobre el conjunto de datos que genera la segmentaci´ on border. Mejor segmentaci´ on: border. Detectar la sarna no mejora la precisi´ on. Mejor algoritmo de selecci´on de caracter´ısticas: gen´etico. Las caracter´ısticas morfol´ ogicas son muy importantes. Mejor algoritmo de clasificaci´ on: Svm. Probar nuevas variedades. Probar m´etodos Pca y Lda.

140

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

8.4.

Visi´ on hiperespectral: sarna com´ un en patatas

El art´ıculo “Common scab detection on potatoes using an infrared hyperspectral imaging system” va a ser presentado en la conferencia 16th International Conference on Image Analysis and Processing (Iciap 2011), a celebrar del 14 al 16 de septiembre de 2011 en Ravenna (Italia). Posteriormente ser´a publicado en la revista Lecture Notes in Computer Science (Springer–Verlag) durante 2011.

Autores Angel Dacal-Nieto Arno Formella Pilar Carri´ on Esteban Vazquez-Fernandez Manuel Fern´ andez-Delgado

Universidade Universidade Universidade Gradiant Universidade tela

de Vigo de Vigo de Vigo de Santiago de Compos-

Criterios de calidad Congreso Core Revista Editorial SJR Q3 Q3 Q4

16th International Conference on Image Analysis and Processing (Iciap 2011) B ’Artificial Intelligence and Image Processing’ Lecture Notes in Computer Science (Lncs) Springer Verlag. If = 0.033 (2009) ’Computer Science, miscellaneous’ (66/108) ’Hardware and Architecture’ (81/118) ’Mathematics - Theoretical Computer Science’ (67/74)

´ HIPERESPECTRAL: SARNA COMUN ´ EN PATATAS 8.4. VISION

Common scab detection on potatoes using an infrared hyperspectral imaging system Angel Dacal-Nieto1 , Arno Formella1 , Pilar Carri´on1 , Esteban Vazquez-Fernandez2 , and Manuel Fern´andez-Delgado3 1

2

Computer Science Department, Universidade de Vigo, Campus As Lagoas 32004 Ourense, Spain [email protected] GRADIANT, Galician R&D Center in Advanced Telecommunications, Spain 3 Centro de Investigaci´ on en Tecnolox´ıas da Informaci´ on (CITIUS), Universidade de Santiago de Compostela, Spain

Abstract. The common scab is a skin disease of the potato tubers that decreases the quality of the product and influences significantly the price. We present an objective and non-destructive method to detect the common scab on potato tubers using an experimental hyperspectral imaging system. A supervised pattern recognition experiment has been performed in order to select the best subset of bands and classification algorithm for the problem. Support Vector Machines (SVM) and Random Forest classifiers have been used. We map the amount of common scab in a potato tuber by classifying each pixel in its hyperspectral cube. The result is the percentage of the surface affected by common scab. Our system achieves a 97.1% of accuracy with the SVM classifier. Keywords: Hyperspectral, Infrared, Potato, SVM, Random Forest

1

Introduction

Detecting and identifying defects and diseases in potato tubers (Solanum tuberosum) continue to be an important challenge for food engineering and automation. Industry uses a large variety of technologies and computer vision methods have been a specially successful choice. Nevertheless, some new technologies should be taken into account for improving non-destructive potato quality assessment. The importance of the potato industry is extreme, since potatoes are still one of the most consumed products in the world; they are the world’s fourth largest food crop. The annual production is 325 million tons and it moves an amount of global transactions of about 6 billion US dollars (2007 data). Thus, the world potato average consumption is 31 kg per capita and year [1]. Hyperspectral imaging is an emerging technology originally designed for military remote satellite inspection [2], but also used for remote sensing, astronomy and earth observation. It is also a reliable approach to classical spectroscopy, because despite a little loss of accuracy, an object can be analysed in significantly less time, in a non-destructive way.

141

142

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

2

Angel Dacal-Nieto et al.

The scientific community has started to show its interest in the last years in hyperspectral imaging possibilities for food quality [3]. Regarding the research in potato quality assessment, there are systems to predict the water content in potatoes using classical spectroscopy techniques [4]. Some other contributions are oriented to the detection of clods between a set of potato tubers using hyperspectral imaging [5]. Finally, there are contributions [6] that investigate composition characteristics from potato tubers like water, starch and proteins, using invasive spectroscopy techniques, meanwhile others [7] use NIR spectroscopy to predict specific gravity and dry matter in potatoes. Using other optical spectral methods [8], there are contributions for the detection of common scab, dry rot, gangrene, and other diseases, using wavelength ranges between 590 nm and 2030 nm, and getting accuracies up to 83%. Unfortunately, these systems are either destructive or they can not be easily included in classical machine vision developments in order to use the same image acquisition for all the processes. Our objective is to map the common scab affected areas in potato tubers. This has been achieved in the past by using different technologies, as it has been described before. However, mapping the common scab is not only a required objective itself: we also use this mapping as a preprocessing stage into a wider potato inspection system, which detects internal and external defects and diseases. Some of these diseases require a morphological study, so hyperspectral technology seems to be the best approach. It would be interesting to provide a solution using the same image acquisition system, in order to unify the inspection process, so hyperspectral imaging has been also the selected technology to solve the common scab mapping problem. Our solution is objective, automatic and non–destructive. Nevertheless, this choice makes difficult the comparison with other common scab detection methods. In fact, there are not hyperspectral solutions yet for detecting common scab, due to the novelty of the technology. Moreover, previous spectral contributions used different wavelength ranges, or performed a combined searching of other diseases, so a partial comparison is presented.

Fig. 1. Three examples of common scab affected potatoes.

´ HIPERESPECTRAL: SARNA COMUN ´ EN PATATAS 8.4. VISION

A hyperspectral non–destructive detection of common scab in potatoes

2

Image Acquisition System

The concept of hyperspectral imaging is to perform a spectroscopic analysis of the light reflected or transmitted by the object of interest. We couple a spectrograph and a matrix camera to obtain both spectral and spatial information. The camera is a Xenics Xeva 1.7–320 with an InGaAs 320 × 256 pixel sensor and USB connection (http://xenics.com); the spectrograph is a Specim Imspector N17E (http://specim.fi). Both are sensitive from 900 nm to 1700 nm. The system has also three 50 W AC halogen lamps placed in the inspection plate. The illumination is diffused by the reflection in a plastic dome over the plate. The spectrograph has a linear input (one pixel height), where the x-axis represents the same x-axis (spatial) of the object. The y-axis (spectral) is then studied to obtain how every pixel in the row varies along the spectral range. With one spectral image, we are inspecting only one spatial line, so we need to perform the inspection over the whole object. This is accomplished by joining a rotatory Mirror Scanner (http://specim.fi) to the spectrograph. It is based on performing the mirror rotation over the object, taking care of synchronization between mirror stepping and image acquisition (Figure 2). Finally, the obtained images are transposed in order to obtain the hyperspectral cube (Figure 3).

Fig. 2. Left: scanning initial position at 70◦ . Right: scanning final position at 110◦ . The arrow shows the direction of scanning. Hyperspectral system scheme: a) camera, b) spectrograph, c) mirror scanner, d) object, e) diffuse chamber, f) halogen lamp.

To sum up, our system obtains 320 spectral images (320 × 240 pixels), that are transposed into hyperspectral cubes formed by 256 images with 320 × 320 pixels, corresponding to 256 consecutive wavelengths from 900 nm to 1700 nm.

3

Experiment

We use a set of 234 potato tubers (variety Agria) from Xinzo de Limia (Spain), with different degrees of common scab incidence, that have been collected from some potato packing companies during the 2009 harvest.

143

3

144

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

4

Angel Dacal-Nieto et al.

Fig. 3. Up: Three spectral images taken from different lines of the object. Down: 978 nm, 1173 nm, and 1608 nm spatial images.

3.1

Segmentation

In every hyperspectral cube, we need to segment the potatoes from the background for later mapping tasks. We segment only one image from the hyperspectral cube (the wavelength 980 nm has been found after several performance tests). We obtain a mask that is applied in the rest of the cube. Segmentation runs in several steps (Figure 4), helped by the open source library OpenCV [9]. First, we binarize the image using Otsu’s method [10] that calculates the optimum binarization threshold using a probabilistic analysis of the image. Then, a Gaussian blurring clusters the noise in the image. Another binarization is needed before a connected-component labelling, performed to remark contiguous areas in the image. At this point, we know that the blob with the largest area (excluding the background) is the potato. We select this blob and create the mask used to segment all the images in the hyperspectral cube.

Fig. 4. 1: Binarization using Otsu’s method. 2: Smooth operation. 3: Blob analysis. 4: Example image after applying the full mask.

3.2

Feature extraction

In our problem, we have to distinguish two classes: common scab and healthy. To create a dataset with both common scab affected samples and healthy samples,

´ HIPERESPECTRAL: SARNA COMUN ´ EN PATATAS 8.4. VISION

A hyperspectral non–destructive detection of common scab in potatoes

experts helped us to identify which portions (ROI) were affected and which were not. Some hyperspectral cubes provided more samples (especially those more affected by common scab) meanwhile others provided just one healthy sample. Note that every hyperspectral cube consists of 256 images that correspond to the 256 bands of the hyperspectral system. For this reason, when we select a ROI, we are not selecting just a rectangle of pixels, but that rectangle all over the 256 images that are part of the hyperspectral cube. When selecting the ROI, the average intensity value of the pixels in the ROI is calculated for each band. Hence, every sample (independently of its size) is represented with 256 attributes and an extra attribute that denotes the class (common scab or healthy). Eventually, we have obtained 649 samples (208 corresponding to common scab class and 441 corresponding to healthy class). The samples can be visualized in a chart where the x-axis represents the wavelength range and the y-axis the grey level in the band, which is actually the arithmetic mean of pixels in every band of the ROI. In the Figure 5 we can see ROI selection of two samples and the corresponding luminance charts.

Fig. 5. Left: healthy and common scab affected (the brightest) ROI’s. Right: Luminance charts from two different samples. The x-axis represents the wavelength. The y-axis represents the average grey level in the ROI, for each band.

3.3

Feature Selection

Feature selection is a common task in pattern recognition, specially if the initial number of features is high. With less features, the learning process is faster and the generalization capabilities of the classifier are improved. In our case feature selection is a fundamental step to decrease the overall execution time, identifying which wavelengths are sufficient to solve the common scab detection problem. We have tested some techniques regarding spectral bands selection on hyperspectral imaging systems, implemented on Weka [11]: Genetic Search [12] (which selects 11 bands), Scattered Search [13] (11 bands), Greedy Stepwise [14] (5 bands), Linear Forward Selection (LFS) [15] (7 bands), and Correlationbased Feature Subset Selection (CFS) [16], (6 bands). Note that with CFS, three

145

5

146

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

6

Angel Dacal-Nieto et al.

contiguous zones have been selected: 1300 nm–1303 nm, 1336 nm–1342 nm and 1503 nm. Techniques such as Principal Component Analysis (PCA) and Linear Discriminant Analysis (LDA) are the most commonly used unmixing techniques in spectral imaging. However, these algorithms do not reduce the number of wavelengths needed, rather they generate a linear combination of the 256 features into a new feature space. This is the reason why only feature selection operations are interesting in this research. To summarize, after this step of the experiment, we provide six datasets to the classification procedure: genetic, scattered, greedy, LFS, CFS and full. 3.4

Classification algorithms

We present results for two classification algorithms: Random Forest (RF) and Support Vector Machines (SVM). Other classifiers have been tested in a preliminary stage (Logistic Regression, MLP and k-NN), but they performed poorly. A Random Forest [17] is a collection of trees that classifies individually an input sample, and then evaluates the individual responses of the trees to output the mostly voted class. We used the OpenCV implementation of RF, tuning the mtry parameter, which is the number of features to be used in random selection. SVM find the optimal hyperplane over a high dimensional space where the feature vectors have been mapped using a kernel function (Gaussian in our case). We can tune its behaviour with the regularization parameter (also known as cost, or C), which is not very relevant for the results [18], and the kernel spread (γ), with high relevance on the classification accuracy. SVM has been introduced in our system with the library LibSVM [19]. 3.5

Classification evaluation procedure

For each dataset, we evaluated the classification algorithms using a method based on randomly generating 10 permutations of the dataset, so that each permutation has the same samples, but differently ordered. Then, each permutation is divided into three parts: training (50% of the samples), validation and parameter tuning (25% of the samples), and test (remaining 25%). The samples are normalized (zero mean and standard deviation one) to avoid that attributes in greater numeric ranges influence excessively over those with smaller variation. For each combination of tunable parameters and for each permutation, we train a classifier using the training sets. Then, we test its performance by using the validation sets. We selected the parameter values which provide the best average accuracy over the 10 permutations. √ In the case of RF, the default value of mtry is p, being p the number of features of the problem. We follow a parameter tuning as being suggested by [20]. √ We use different values of mtry : mtry = p0 , mtry = p, mtry = p/4 and mtry = p/2. The rest of the parameters have been established as [20] recommends. Thus, the number of trees has been set to 500, since it is enough, and there is no penalty for having an excessive number of trees.

´ HIPERESPECTRAL: SARNA COMUN ´ EN PATATAS 8.4. VISION

A hyperspectral non–destructive detection of common scab in potatoes

In the case of SVM, we try pairs of (C, γ) using exponentially growing sequences for C and γ [19]. Thus, we use C = 2n , n = −5..14 and γ = 2n , n = −15..3, which gives 380 combinations. A finer adjustment has been discarded after some preliminary tests. Finally, for each permutation, we train the classifier using the training sets tuned with the best parameters found, evaluating its accuracy on the test sets. Note that using more permutations prevents unfair divisions of the dataset. For example, using only one permutation, if all the easy-to-classify samples are filled in the test set, it would cause unfairly good results. Additionally, each dataset has also been evaluated using leave-one-out cross-validation (loocv). 3.6

Affected surface measurement

Once being able to classify, the objectives are, for each potato (actually for each hyperspectral cube), obtaining an image that marks which zones are affected and computing the percentage of common scab affected surface. First, we segment the potato, removing the background from the hyperspectral cube. Then, each pixel in the hyperspectral cube is classified individually (excluding the background, that has been localized previously in the segmentation step). Each hyperspectral pixel has (in our system) 256 values: however, depending on the feature selection procedure, we will have only a few of them. With the information of membership of each pixel to one class or another, we create a common scab map image. To reduce noise in the final map, a closing operation is performed followed by an opening operation with the same kernel. Finally, we calculate the percentage of the affected surface. The objective of our system is to inspect 20 Kg samplings. Each potato will be inspected only by one side. Inspecting such an amount of potatoes averages individual errors, since we provide a statistical measurement. The result will be the average affected surface in the whole 20 Kg sampling.

4

Results and Discussion

The results of all datasets and classifiers can be seen in Table 1 including the leave-one-out cross-validation. Support Vector Machines show to be more effective than Random Forest in all the datasets. On the other hand, the CFS dataset seems to have the better subset of features, so that the pair SVM and CFS dataset is the best option to solve our problem. As commented in Section 3.3, PCA and similar methods have been analysed but considered not adequate. However, some preliminary work has been done to check their performance. Thus, a new dataset has been created using Weka, after applying the PCA method to the full dataset. The loocv results show that this dataset gets a 95.2% of accuracy with RF, and approximately a 96% of accuracy using SVM. These results are 2 points under the feature selection algorithms results, and even worse the full dataset.

147

7

148

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

8

Angel Dacal-Nieto et al. Best params. Valid. Acc. % Bands mtry √ full 95.4 96.1 p 95.6 256 genetic 94.3 96.2 p/2 93.6 11 scattered 93.8 96.9 p/4 95.0 11 RF greedy 95.9 97.4 p/2 96.7 5 √ LFS 94.5 96.8 p 95.2 7 √ CFS 95.8 96.5 p 96.1 6 C γ full 96.2 96.6 2−2 2−10 96.4 256 genetic 96.0 96.8 25 2−10 96.5 11 5 −2 scattered 95.7 96.9 2 2 96.5 11 SVM 12 −15 greedy 96.7 96.9 2 2 97.0 5 LFS 96.0 97.7 27 2−1 96.9 7 CFS 97.1 98.0 211 2−5 97.4 6 Table 1. Accuracy (in %) for each dataset and classification algorithm. Classifier Dataset Accuracy % loocv Acc. %

Now we are going to study further the best dataset–classifier pair. The best combination of parameters found was to be C = 211 and γ = 2−5 . The confusion matrix can be seen in Table 2. Note that these results were obtained using the test sets, composed by 25% of the samples (162 in our case). This is an average confusion matrix taking into account the ten permutations. XX XXClassified XXX as Common Scab Healthy Real XX

Common Scab 48.3 3.1 Healthy 1.6 109 Table 2. Average confusion matrix obtained with the CFS dataset using SVM.

Four samples (two of each class) are presented in their luminance chart in Figure 6. Columns in black mark zones being selected in the CFS dataset. Previous contributions [21] show that at wavelengths greater that 1100 nm, where absorption by water dominates, the reflectance increases due to dehydration in the affected area, as in the case of common scab. Our automatically selected wavelengths lie in that range. However, by the moment it is impossible to compare our results with other common scab detection methods, since they use different wavelength ranges, or searched for other diseases in the same experiment.

5

Conclusions

Hyperspectral imaging has shown to be an good technology applied to food quality assessment. We have used an objective and non-destructive infrared hyperspectral system to identify the surface affected by common scab on potatoes.

´ HIPERESPECTRAL: SARNA COMUN ´ EN PATATAS 8.4. VISION

A hyperspectral non–destructive detection of common scab in potatoes

Fig. 6. Four samples, two from each class. Columns in grey mark the zones used by the CFS dataset. The rest of the bands were not selected. The x-axis represents the wavelength. The y-axis represents the grey level.

Several feature selection algorithms have been tested, showing that this is a critical step to increase the system speed, because only 6 bands achieve the best accuracy. The selected bands with the CFS method (1300 nm, 1303 nm, 1336 nm, 1339 nm, 1342 nm and 1503 nm) provide enough information to classify common scab and healthy surface with a 97.1% of accuracy using the SVM classifier (tuned with C = 211 and γ = 2−5 ). This information could be useful for the designing of a specific multispectral image acquisition system, which would not have any mechanical device to move the camera or the object, because images could be captured within a reduced and specifically chosen group of wavelengths (in our case around 1301 nm, 1339 nm and 1503 nm). Hyperspectral cube reconstruction would not be needed any more. Hence, the time spent in an acquisition session would be considerably reduced. The system will be used as a preprocessing step to remove the common scab for improving other disease identification algorithms on potatoes, as hollow heart, or the dry matter estimation amount. In future work, it would be interesting to evaluate the system with other potato varieties. On the other hand, methods like LDA should be tested in order to compare with the feature selection methods used in this paper. Finally, the relationship between the wavelengths selected with the best dataset and the biological components of common scab should be researched. This could be achieved by using a different image acquisition system (i.e. sensitive from 500 nm to 2000 nm), in order to compare our results with the obtained in [8]. Acknowledgements. This work was partially supported by the Spanish regional government of the “Xunta de Galicia” (projects PGIDIT08TIC004CT and PGIDIT08MMA010402PR). We want to acknowledge the “Laboratorio Oficial de Metrolox´ıa de Galicia (LOMG)” and the “Centro Tecnol´oxico da Carne (CTC)” for their helpful collaboration.

149

9

150

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

10

Angel Dacal-Nieto et al.

References 1. Potato World - International Year of the Potato 2008. http://www.potato2008. org/en/world/index.html (2008). Accessed 01 January 2011. 2. Goetz, A., Vane, G., Solomon, J.E., Rock, B.N.: Imaging spectrometry for earth remote sensing. Sci. 228 (4704), 1147-1153 (1985) 3. Sun, D.: Hyperspectral Imaging for Food Quality Analysis and Control. Academic Press Elsevier, San Diego, California, USA (2009) 4. Singh, B.: Visible and near-infrared spectroscopic analysis of potatoes. M.Sc. Thesis, McGill University, Montreal, PQ, Canada (2005) 5. Al-Mallahi, A., Kataoka, T., Okamoto, H., Shibata, Y.: Detection of potato tubers using an ultraviolet imaging-based machine vision system. Biosyst. Eng. 105, 257-265 (2009) 6. Buning-Pfaue, H.: Analysis of water in food by near-infrared spectroscopy. Food Chem. 82, 107-115 (2003) 7. Kang, S., Lee, K., Son, J.: On-line internal quality evaluation system for the processing potatoes. Food Process. Autom. Conf. Proc., Providence, Rhode Island (2008) 8. Porteous, R.L., Muir, A.Y., Wastie, R.L.: The Identification of Diseases and Defects in Potato Tubers from Measurements of Optical Spectral Reflectance. J. Agric. Eng. Res. 26, 151-160 (1981) 9. Bradski, G., Kaehler, A.: Learning OpenCV: Computer Vision with the OpenCV Library. O’Reilly Media (2008) 10. Otsu, N.: A threshold selection method for gray level histograms. IEEE Trans. Syst. Man Cybern. 9, 62-6 (1979) 11. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I.H.: The WEKA Data Mining Software: An Update. SIGKDD Explorations 11 (1) (2009) 12. Goldberg, D.: Genetic Algorithms in Search, Optimization and Machine Learning. Reading, Ma: Addison-Wesley (1989) 13. Garc´ıa-L´ opez, F., Garc´ıa-Torres, M., Meli´ an-Batista, B., Moreno-P´erez, J.A., Moreno-Vega, J.M.: Solving feature subset selection problem by a Parallel Scatter Search. Eur. J. Oper. Res. 169 (2), 477-489 (2008) 14. Weihs, C.: Multivariate exploratory data analysis and graphics, a tutorial. J. Chemom. 7, 305-340 (1993) 15. Guetlein, M., Frank, E., Hall, M. Karwath, A.: Large Scale Attribute Selection Using Wrappers. Proc IEEE Symposium on Computational Intelligence and Data Mining, 332-339 (2009) 16. Hall, M.: Correlation-based Feature Subset Selection for Machine Learning. Hamilton, New Zealand (1998) 17. Breiman, L.: Using Iterated Bagging to Debias Regressions. Mach. Learn. 45, 261277 (2001) 18. Valentini, G., Dietterich, T.G.: Bias-variance analysis of support vector machines for the development of SVM-based ensemble methods. J. Mach. Learn. Res. 5, 725775 (2004) 19. Chang, C.C., Lin, C.J.: LIBSVM:a library for support vector machines. http://www.csie.ntu.edu.tw/ cjlin/libsvm/ (2008) 20. Svetnik, V., Liaw, A., Tong, C., Culberson, J.C., Sheridan, R.P. Feuston, B.P.: Random Forest: A Classification and Regression Tool for Compound Classification and QSAR Modeling. J. Chem. Inf. Comput. Sci. 43, 1947-1958 (2003) 21. Gunasekaran, S., Paulsen, M.R., Shove, G.C.: Optical methods for nondestructive quality evaluation of agricultural and biological materials. J. Agr. Eng. Res. 32, 209-241 (1985)

´ HIPERESPECTRAL: SARNA COMUN ´ EN PATATAS 8.4. VISION

151

Tabla Resumen T´ıtulo Datos Calidad Papel del autor Motivaci´ on

Resultados

Conclusiones Trabajo futuro

Common scab detection on potatoes using an infrared hyperspectral imaging system. Iciap 2011. Lecture Notes in Computer Science (Springer). 0.033 Sjr (Q3 x 2, Q4), Core B Fundamental. Es una enfermedad requerida en los objetivos del proyecto Visiocal. Adem´as, se utiliza como m´etodo para intentar mejorar la detecci´on del coraz´on hueco. Se consigue un 97.1 % de acierto utilizando el clasificador Svm con los par´ametros C = 211 y γ = 2−5 , utilizando solamente las bandas en 1300 nm, 1303 nm, 1336 nm, 1339 nm, 1342 nm y 1503 nm, seleccionadas por el algoritmo CFS sobre el conjunto de datos inicial. Mejor algoritmo de selecci´on de caracter´ısticas: Cfs. Mejor algoritmo de clasificaci´on: Svm. Probar nuevas variedades. Probar m´etodos Pca y Lda.

152

CAP´ITULO 8. PUBLICACIONES RELACIONADAS

Repercusi´ on en la prensa El peri´ odico ourensano La Regi´ on recogi´o en su edici´on del 20 de Febrero de 2009 los inicios del proyecto Visiocal (Figura 8.1).

Figura 8.1: Art´ıculo del peri´ odico La Regi´on del 20 de Febrero de 2009.

Bibliograf´ıa [Al-Mallahi et al., 2008] Al-Mallahi, A., Kataoka, T., Okamoto, H.: Discrimination between potato tubers and clods by detecting the significant wavebands. Biosystems Engineering 100, 329-337 (2008) [Al-Mallahi et al., 2009] Al-Mallahi, A., Kataoka, T., Okamoto, H., Shibata, Y.: Detection of potato tubers using an ultraviolet imaging-based machine vision system. Biosystems Engineering 105, 257-265 (2009) [Ariana & Lu, 2008] Ariana, D., Lu, R.: Quality evaluation of pickling cucumbers using hyperspectral reflectance and transmittance imaging. Sens. Instrumen. Food Qual. 2, 144-160 (2008) [Ariana & Lu, 2010] Ariana, D., Lu, R.: Evaluation of internal defect and surface color of whole pickles using hyperspectral imaging. Journal of Food Engineering 96, 583-590 (2010) [Blasco et al., 2009] Blasco, J., Aleixos, N., Gomez–Sanchis, J., Molto, E.: Recognition and classification of external skin damage in citrus fruits using multispectral data and morphological features. Biosystems Engineering, 103, 137-145 (2009) [Barnes et al., 2010] Barnes, M., Duckett, T., Cielniak, G., Stroud, G., Harper, G.: Visual Detection of Blemishes in Potatoes using Minimalist Boosted Classifiers. J. Food Eng. 98, 339-346 (2010) [Bradski & Kaehler, 2008] Bradski, G. Kaehler, A.: Learning OpenCV: Computer Vision with the OpenCV Library. O’Reilly Media (2008) [Breiman, 2001] Breiman, L.: Using Iterated Bagging to Debias Regressions. Mach. Learn. 45, 261-277 (2001) 153

154

BIBLIOGRAF´IA

[Brosnan & Sun, 2004] Brosnan, T., Sun, D.W.: Improving Quality Inspection of Food Products by Computer Vision, A Review. Journal of Food Engineering 61, 3-16 (2004). [Buning-Pfaue, 2003] Buning-Pfaue, H.: Analysis of water in food by nearinfrared spectroscopy. Food Chemistry, 82, 107-115 (2003) [Carri´ on, 2004] Carri´ on, P.: Algoritmos de clasificaci´on de texturas para la determinaci´ on del origen floral del polen ap´ıcola. Tesis Doctoral, Universidade de Vigo, Ourense, Espa˜ na (2004) [Chang & Lin, 2008] Chang, C.C., Lin, C.J.: LIBSVM: a library for support vector machines. http://www.csie.ntu.edu.tw/ cjlin/libsvm/ (2008) [Chao et al., 2009] Chao, K., McNaughton, J.L., Won, J., Kim, M.S., Lefcourt, A.M., Roberts, M.S.: Detection of microbial biofilms on food processing surfaces: hyperspectral fluorescence imaging study. Proceedings of the SPIE - The International Society for Optical Engineering, 7315 (2009) [Chtioui et al., 1998] Chtioui, Y., Bertrand, D., Barba, D.: Feature selection by a genetic algorithm. Application to seed discrimination by artifical vision. J Sci Food Agric 76, 77-86 (1998) [Cortes & Vapnik, 1995] Cortes, C., Vapnik, V.: Support-Vector Networks. Mach. Learn. 20(3), 273-297 (1995) [Crowley & Christensen, 1995] Crowley, J.L., Christensen, H.I.: Vision as Process. Springer (1995) [Curcio & Petty, 1951] Curcio, J.A., Petty, C.C.: The near infrared absorption spectrum of liquid water. J. Opt. Soc. Am. 41, 302-302 (1951) [Dacal-Nieto et al., 2009a] Dacal-Nieto, A., Vazquez-Fernandez, E., Formella, A., Mart´ın, F., Torres-Guijarro, S., Gonz´alez-Jorge, H.: A genetic algorithm approach for feature selection in potatoes classification by computer vision. Industrial Electronics, 2009. IECON’09. 35th Annual Conference of IEEE, 1955-1960, ISBN 978-1-4244-4648-3 (2009) [Dacal-Nieto et al., 2009b] Dos laboratorios aplican la visi´on artificial a la agroalimentaci´ on http://www.laregion.es/noticia/82472/Ourense/ laboratorio/metrolog%C3%ADa/, La Regi´on (2009)

BIBLIOGRAF´IA

155

[Dacal-Nieto et al., 2011a] Dacal-Nieto, A., Formella, A., Carri´on, P., Vazquez-Fernandez, E., Fern´ andez-Delgado, M.: Rapid infrared multispectral systems desing using a hyperspectral benchmarking framework. To appear in: Industrial Electronics, 2011. Annual Conferences of IEEE (2011) [Dacal-Nieto et al., 2011b] Dacal-Nieto, A., Formella, A., Carri´on, P., Vazquez-Fernandez, E., Fern´ andez-Delgado, M.: Non-destructive detection of hollow heart in potatoes using hyperspectral imaging. To appear in: Lecture Notes in Computer Science (2011) [Dacal-Nieto et al., 2011c] Dacal-Nieto, A., Formella, A., Carri´on, P., Vazquez-Fernandez, E., Fern´ andez-Delgado, M.: Common scab detection on potatoes using an infrared hyperspectral imaging system. To appear in: Lecture Notes in Computer Science (2011) [Du & Sun, 2004] Du, C., Sun, D.: Recent developments in the applications of image processing techniques for food quality evaluation. Food Science Technology, 15, 230-249 (2004) [Du & Sun., 2006] Du, C., Sun, D.: Learning techniques used in computer vision for food quality evaluation: a review. Journal of Food Engineering, 72, 3955 (2006) [Duda et al., 2000] Duda, R.O., Hart, P.E. Stork, D.G.: Pattern Classification. Wiley. USA (2000) [Elbatawi, 2008] Elbatawi, I.E.: An acoustic impact method to detect hollow heart of potato tubers. Biosystems Engineering, 100, 206-213 (2008) [El-Manzalawy & Honavar, 2005] EL-Manzalawy, Y., Honavar, V.: WLSVM : Integrating LibSVM into Weka Environment. Software available at http://www.cs.iastate.edu/ yasser/wlsvm (2005) [ElMasry et al., 2007] ElMasry, G., Wang, N., ElSayed, A., Ngadi, N.: Hyperspectral imaging for non–destructive determination of some quality attributes for strawberry. Journal of Food Engineering, 81, 98-107 (2007) [Finney & Norris, 1978] Finney, E.E., Norris, K.H.: X-Ray scans for detecting hollow heart in potatoes. American Journal of Potato Research, 55, No 2 (1978)

156

BIBLIOGRAF´IA

[Garc´ıa-Allende et al., 2008a] Garc´ıa-Allende, P. B., Conde, O. M., Mirapeix, J., Cobo, A., L´ opez-Higuera, J.M.: Quality Control of Industrial Processes by Combining a Hyperspectral Sensor and Fishers’s Linear Discriminant Analysis. Sensors and Actuators B Chemical, 129, Nº 2, pp. 977-984 (2008) [Garc´ıa-Allende et al., 2008b] Garc´ıa-Allende, P. B., Anabitarte, F., Conde, O. M., Mirapeix, J., Madruga, F. J., L´opez-Higuera, J.M.: Support Vector Machines in Hyperspectral imaging spectroscopy with application to material identification. Defense and Security 2008, pp. 69661V-1 / 69661V-11 (2008) [Garc´ıa-Allende et al., 2010a] Garc´ıa-Allende, P. B., Conde, O. M., Mirapeix, J., Cobo, A., L´ opez-Higuera, J.M.: Hyperspectral imaging sustains production-process competitiveness. SPIE Newsroom 2, pp. 1-4 (2010) [Garc´ıa-Allende et al., 2010b] Garc´ıa-Allende, P. B., Conde, O. M., Mirapeix, J., Cobo, A., L´ opez-Higuera, J.M.: Hyperspectral imaging for diagnosis and quality control in agro-food and industrial sectors. SPIE Photonics Europe (2010) [Garc´ıa-L´ opez et al., 2006] Garc´ıa-L´ opez, F., Garc´ıa-Torres, M., Meli´anBatista, B., Moreno-P´erez, J.A., Moreno-Vega, J.M.: Solving feature subset selection problem by a Parallel Scatter Search. Eur. J. Oper. Res. 169 (2), 477-489 (2008) [Goetz et al., 1985] Goetz, A., Vane, G., Solomon, J.E., Rock, B.N.: Imaging spectrometry for earth remote sensing. Science, 228(4704), 1147-1153 (1985) [Goldberg., 1989] D. Goldberg: Genetic Algorithms in Search, Optimization and Machine Learning. Reading, Ma: Addison-Wesley (1989) [G´ omez-Sanch´ıs et al., 2007] Gomez-Sanchis, J., Blasco, J., Molto, E., CampsValls, G.: Hyperspectral detection of citrus damage with Mahalanobis kernel classifier. Electronic Letters, 43(20), 1082-1084 (2007) [G´ omez-Sanch´ıs et al., 2008] Gomez-Sanchis, J., Gomez-Chova, L., Aleixos, N., Camps-Valls, G., Montesinos-Herrero, C., Molto, E., Blasco, J.: Hyperspectral system for early detection of rottenness caused by Penicillium digitatum in mandarins. Journal of Food Engineering, 89, 80-86 (2008) [Goldberg, 1989] Goldberg, D.: Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley (1989)

BIBLIOGRAF´IA

157

[Gong & Yang, 2004] Gong, M., Yang, Y.: Quadtree-based genetic algorithm and its applications to computer vision. Pattern Recognition 37, 1723-1733 (2004) [Gonz´ alez et al., 2011] Gonz´ alez, E., Carri´ on, P., Formella, A., Fern´andezDelgado, M., Cernadas, E.: Statistical and wavelet based texture features for fish oocyte classification. Lecture Notes in Computer Science (2011) [Gonz´ alez & Woods, 2008] Gonz´ alez, R.C., Woods, R.E.: Digital Image Processing. Prentice Hall (2008). [Gowen et al., 2007] Gowen, A.A., O’Donnell, C.P., Cullen, P.J., Downey, G., Frias, J.M.: Hyperspectral imaging - an emerging process analytical tool for food quality and safety control. Food Science Technology, 18, 590-598 (2007) [Gowen et al., 2008] Gowen, A.A., O’Donnell, C.P., Taghizadeh, M., Gaston, E., O’Gorman, A., Cullen, P.J., Frias, J.M., Esquerre, C., Downey, G.: Hyperspectral imaging for the investigation of quality deterioration in sliced mushrooms (Agaricus bisporus) during storage. Sens. Instrumen. Food Qual., 2, 133-143 (2008) [Goyache et al., 2001] F. Goyache, A. Bahamonde, J. Alonso, S. Lopez, J.J. Del Coz, J.R. Quevedo, J. Ranilla, O. Luaces, I. Alvarez, L.J. Royo, J. Diez: The usefulness of artificial intelligence techniques to assess subjective quality of products in the food industry. Food Science and Technology 12, 370-381 (2001) [Graves & Batchelor, 2004] Graves, M., Batchelor, B.: Machine Vision for the Inspection of Natural Products. Springer (2004) [Guetlein et al., 2009] Guetlein, M., Frank, E., Hall, M. Karwath, A.: Large Scale Attribute Selection Using Wrappers. Proc IEEE Symposium on Computational Intelligence and Data Mining, 332-339 (2009) [Guyer & Yang., 2000] Guyer, D., Yang, X.: Use of genetic artificial neural networks and spectral imaging for defect detection on cherries. Computers and Electronics in Agriculture, 29, 179-194 (2000) [Gunasekaran et al., 1985] Gunasekaran, S., Paulsen, M.R., Shove, G.C.: Optical methods for nondestructive quality evaluation of agricultural and biological materials. J. Agr. Eng. Res. 32, 209-241 (1985)

158

BIBLIOGRAF´IA

[Haase, 2006] Haase, N.U.: Rapid estimation of potato tuber quality by nearinfrared spectroscopy. Starch, 58, 268-273 (2006) [Hall, 1998] Hall, M.: Correlation-based Feature Subset Selection for Machine Learning. Hamilton, New Zealand (1998) [Hall et al., 2009] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I.H.: The WEKA Data Mining Software: An Update. SIGKDD Explorations, 11(1) (2009) [Holland., 1992] J.H. Holland: Adaptation in Natural and Artificial Systems. University of Michigan Press (1992). [Hughes, 1968] Hughes, G.F: On the mean accuracy of statistical pattern recognizers. IEEE Trans. Inform. Theory IT-14, 55-63 (1968) [Jain et al., 2000] Jain, A. K., Duin, R. P. W., Mao,J.: Statistical Pattern Recognition: A Review. IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (2000) [Jarchi & Boostani, 2006] Jarchi, D., Boostani, R.: A New Weighted LDA Method in Comparison to Some Versions of LDA. World Academy of Science, Engineering and Technology 24, 28-33 (2006) [Jivanuwong, 1998] Jivanuwong, S.: Nondestructive detection of hollow heart in potatoes using ultrasonics. M.S. Thesis, Virginia Polytechnic Institute and State University, Blacksburg, VA, U.S.A. (1998) [Jun et al., 2009] Jun, W., Kim, M.S., Lee, K., Milner, P., Chao, K.: Assessment of bacterial biofilm on stainless steel by hyperspectral fluorescence imaging. Sens. Instrumen. Food Qual., 3, 41-48 (2009) [Kang et al., 2004] Kang, S., Lee, K., Choi, W., Son, J., Choi, D., Kim, G.: A Near-Infrared Sensing Technique for Measuring the Quality of Potatoes. ASAE Annual Meeting, (Paper number 033137) (2004) [Kang et al., 2008] Kang, S., Lee, K., Son, J.: On-line internal quality evaluation system for the processing potatoes. Food Processing Automation Conference Proceedings, Providence, Rhode Island (2008) [LeCessie & Houwelingen, 1992] Le Cessie, S., Van Houwelingen, J.C.: Ridge Estimators in Logistic Regression. Applied Statistics, 41, 191-201 (1992)

BIBLIOGRAF´IA

159

[Lefebvre et al., 1993] Lefebvre, M., Gil, S., Brunet, D., Natonek, E., Baur, C., Gugerli, P., Pun, T.: Computer vision and agricultural robotics for disease control: The Potato Operation. Comput. Electron. Agric. 9, 85-102 (1993) [Lin et al., 2003] Lin, C. J., Hsu, C. W., Chang, C. C.: A practical guide to support vector classification, http://www.csie.ntu.edu.tw/cjlin/papers/ guide/guide.pdf (2004) [Liu et al., 2007] Liu, Y., Chen, Y., Kim, M.S., Chan, D.E., Lefcourt, A.M.: Development of simple algorithms for the detection of fecal contaminants on apples from visible/near infrared hyperspectral reflectance imaging. Journal of Food Engineering, 81, 412-418 (2007) [Mart´ın, 2003] Mart´ın, F.: Analysis Tools for Gray Level Histograms. Proceedings of SPPRA (2003) [Mart´ın et al., 2008a] Mart´ın, F., Vazquez-Fernandez, E., Formella, A., Gonz´ alez-Jorge, H., Dacal-Nieto, A.: Automatic reading of digital instrumentation. Industrial Electronics, 2008. ISIE’08, 913-918, ISBN 978-14244-1665-3 (2008) [Mart´ın et al., 2008b] Mart´ın, F., Vazquez-Fernandez, E., Formella, A., Gonz´ alez-Jorge, H., Dacal-Nieto, A.: Sistema de calibrado de instrumentaci´ on mediante visi´ on artificial. Proceedings of the XXIII Simposium Nacional de la Uni´ on Cient´ıfica Internacional de Radio (URSI 2008), ISBN 978-84-612-6291-5 (2008) [Mart´ın et al., 2009a] Mart´ın, F., Saavedra, D., Vazquez-Fernandez, DacalNieto, A., Gonz´ alez-Jorge, H.: Localizaci´on de caracteres en im´agenes de instrumentaci´ on digital. Proceedings of the XXIV Simposium Nacional de la Uni´ on Cient´ıfica Internacional de Radio (URSI 2009), ISBN 978-848102-550-7 (2009) [Mart´ın et al., 2009b] Mart´ın, F., Vazquez-Fernandez, E., Formella, A., Alvarez-Valado, V., Gonz´ alez-Jorge, H., Dacal-Nieto, A.: SCIMVA: Sistema de calibraci´ on de instrumentaci´ on mediante visi´on artificial. Procee´ dings of the IX Reuni´ on Nacional de Optica (RNO 2009), ISBN 978-84692-5024-2 (2009) [Mart´ın et al., 2011] Mart´ın, F., Vazquez-Fernandez, E., Dacal-Nieto, A., Formella, A., Alvarez-Valado, V., Gonz´ alez-Jorge, H.: Digital instrumentation calibration using computer vision. Lecture Notes in Computer Science 6112, 335-344, ISBN 978-3-642-13774-7 (2010)

160

BIBLIOGRAF´IA

[Martinez et al., 2005a] Mart´ınez-Us´ o, A., Pla, F., Garc´ıa-Sevilla, P.: Multispectral Image Segmentation by Energy Minimization for Fruit Quality Estimation. Lecture Notes in Computer Science 3523, 689-696, ISBN 978-3540-26154-0 (2005) [Martinez et al., 2005b] Mart´ınez-Us´ o, A., Pla, F., Garc´ıa-Sevilla, P.: Multispectral Image Segmentation for Fruit Quality Estimation. Artificial Intelligence Research and Development, Frontiers in Artificial Intelligence and Applications 131, 51-58, ISBN 978-1586035606 (2005) [Muir et al., 1999] Muir, A.Y., Ross, D.W., Dewar, C.J., Kennedy, D.: Defect and disease detection in potato tubers. Scott. Agric. Coll. Crop Sci. Res. Rep., 5-9 (1999) [Naganathan et al., 2008] Naganathan, G.K., Grimes, L.M., Subbiah, J., Calkins, C.R., Samal, A., Meyer, G.E.: Visible/near-infrared hyperspectral imaging for beef tenderness prediction. {Computers and Electronics in Agriculture, 64, 225-233 (2008) [Noordam et al., 2000] Noordam, J.C., Otten, G.W., Timmermans, A.J.M., van Zwol, B.H.: High speed potato grading and quality inspection based on a color vision system (2000) [Nylund & Lutz, 1950] Nylund, R.E., Lutz, J.M.: Separation of hollow heart potato tubers by means of size grading, specific gravity, and X-Ray examination. American Journal of Potato Research, 27, No 6 (1950) [Otsu, 1979] Otsu, N.: A threshold selection method for gray level histograms. IEEE Trans. Syst. Man Cybern., 9, 62-6 (1979) [Pajares & De la Cruz, 2001] Pajares, G., De la Cruz, J.M.: Visi´on por computador. Ra-Ma (2001) [Park et al., 2006] Park, B., Lawrence, K.C., Windham, W.R., Smith, D.P.: Performance of hyperspectral imaging system for poultry surface fecal contaminant detection. Journal of Food Engineering, 75, 340-348 (2006) [Park et al., 2007] Park, B., Kise, M., Lawrence, K.C., Windham, W.R., Smith, D.P., Thai, C.N.: Real-time multispectral imaging system for online poultry fecal inspection using unified modeling language. Sens. Instrumen. Food Qual., 1, 45-54 (2007)

BIBLIOGRAF´IA

161

[Park et al., 2008] Park, B., Kise, M., Windham, W.R., Lawrence, K.C., Yoon, S.C.: Textural analysis of hyperspectral images for improving contaminant detection accuracy. Sens. Instrumen. Food Qual., 2, 208-214 (2008) [Pic´ on, 2008] Pic´ on-Ruiz, A.: Classification of materials through the integration of spectral and spatial features from hyperspectral data. Tesis Doctoral, Universidad del Pa´ıs Vasco, Espa˜ na (2008) [Porteous et al., 1981] Porteous, R.L., Muir, A.Y., Wastie, R.L.: The Identification of Diseases and Defects in Potato Tubers from Measurements of Optical Spectral Reflectance. J. Agric. Engng Res. 26, 151-160 (1981) [Potato World, 2008] Potato World - World-wide potato production statistics http://www.potato2008.org/en/world/index.html Website for the International Year of the Potato 2008. [Qiao et al., 2007a] Qiao, J., Ngadi, M.O., Wang, N., Gariepy, C., Prasher, S.O.: Pork quality and marbling level assesment using a hyperspectral imaging system. Journal of Food Engineering, 83, 10-16 (2007) [Qiao et al., 2007b] Qiao, J., Wang, N., Ngadi, M., Gunenc, A., Monroy, M., Gariepy, C., Prasher S.O.: Predicition of drip-loss, pH, and color for pork using a hyperspectral imaging technique. Meat Science, 76, 1-8 (2007) [Rex & Mazza, 1989] Rex, B.L., Mazza, G.: Cause, control and detection of hollow heart in potatoes: A review. American Journal of Potato Research, 66, No 3 (1989) [Russ, 2007] Russ, J.C.: The Image Processing Handbook, Fifth Edition. CRCPress (2007) [Schott, 2011a] Schott DCR III Plus DDL Light Source http://www.schott. com/lightingimaging/english/download/04.21.09_dcr_iii_plus_ row_.qxd.pdf [Schott, 2011b] Schott Single Randomized Bundle http://www.schott.com/ lightingimaging/english/download/04.23.09_random_calibrated_ row.qxd.pdf [Shapiro & Stockman, 2001] Shapiro, L.G., Stockman, G.C.: Computer Vision. Prentice Hall. (2001)

162

BIBLIOGRAF´IA

[Singh, 2005] Singh, B.: Visible and near-infrared spectroscopic analysis of potatoes. M.Sc. Thesis, McGill University, Montreal, PQ, Canada (2005) [Specim, 2011a] Specim Spectral Imaging Ltd. Imspector http://www.specim.fi/media/pdf/imspector-datasheets/ nir-swir-imspectors-ver1-2007.pdf

N17E

[Specim, 2011b] Specim Spectral Imaging Ltd. Mirror Scanner http://www.specim.fi/products/hyperspectral-cores/scanners.html [Sun, 2006] Sun, D.: Computer Vision Technology for Food Quality Evaluation. Academic Press Elsevier, San Diego, California, USA (2008) [Sun, 2009] Sun, D.: Hyperspectral Imaging for Food Quality Analysis and Control. Academic Press Elsevier, San Diego, California, USA (2009) [Svetnik et al., 2003] Svetnik, V., Liaw, A., Tong, C., Culberson, J.C., Sheridan, R.P. Feuston, B.P.: Random Forest: A Classification and Regression Tool for Compound Classification and QSAR Modeling. J. Chem. Inf. Comput. Sci. 43, 1947-1958 (2003) [Valentini & Dietterich, 2004] Valentini, G., Dietterich, T.G.: Bias-variance analysis of support vector machines for the development of SVM-based ensemble methods. J. Mach. Learn. Res. 5, 725-775 (2004) [Vapnik, 1995] Vapnik, V.: The nature of statistical learning theory. SpringerVerlag (1995) [Vazquez-Fernandez et al., 2008] Vazquez-Fernandez, E., Gonz´alez-Jorge, H., Dacal-Nieto, A., Mart´ın, F., Formella, A.: Human feature perception as a complementary method for digit recognition. Proceedings of the IASTED 8th International Conference on Visualization, Imaging and Image Processing (VIIP 2008), ISBN 978-0-88986-759-8 (2008) [Vazquez-Fernandez et al., 2009a] Vazquez-Fernandez, E., Dacal-Nieto, A., Gonz´ alez-Jorge, H., Mart´ın, F., Formella, A., Alvarez-Valado, V.: A machine vision system for the calibration of digital thermometers. Measurement Science and Technology 20, 065106, 7pp, ISSN 0957-0233-20-6-065106 (2009) [Vazquez-Fernandez et al., 2009b] Vazquez-Fernandez, E., Dacal-Nieto, A., Mart´ın, F., Formella, A., Torres-Guijarro, S., Gonz´alez-Jorge, H.: A computer vision system for visual grape grading in wine cellars. Lecture Notes

BIBLIOGRAF´IA

163

in Computer Science (LNCS) 5815, pp. 335-344, ISBN 978-3-642-04666-7 (2009) [Vazquez-Fernandez et al., 2009c] Vazquez-Fernandez, E., Dacal-Nieto, A., Torres-Guijarro, S., Gonz´ alez-Jorge, H., Mart´ın, F., Formella, A., AlvarezValado, V.: Sistema de visi´ on artificial para calibraci´on de instrumentaci´on con display digital. Proceedings of the 4º Congreso Espa˜ nol de Metrolog´ıa (2009) [Vazquez-Fernandez et al., 2010a] Vazquez-Fernandez, E., Dacal-Nieto, A., Mart´ın, F., Torres-Guijarro, S.: Entropy of Gabor Filtering for Image Quality Assessment. Lecture Notes in Computer Science (LNCS) 6111, pp. 52-61, ISBN 978-3-642-13771-6 (2010) [Vazquez-Fernandez et al., 2010b] Vazquez-Fernandez, E., Dacal-Nieto, A., Mart´ın, F., Formella, A., Torres-Guijarro, S., Gonz´alez-Jorge, H.: Control de calidad en uva mediante visi´ on artificial. Proceedings of the XXV Simposium Nacional de la Uni´ on Cient´ıfica Internacional de Radio (URSI 2010) (2009) [Wang & Xiao, 2005] Hui-Yuan, W., Xiao-Juan, W.: Weighted PCA space and its application in face recognition. Proc. Int. Conf. Mach. Learn. Cybern. (Guangzhou, China) 7, 4522-4527 (2005) [Weihs, 1993] Weihs, C.: Multivariate exploratory data analysis and graphics, a tutorial. J. Chemom. 7, 305-340 (1993) [Weiss & Kulikowski, 1991] Weiss, S.M., Kulikowski, C.A.: Computer Systems That Learn. Morgan Kaufmann (1991) [Weka, 2011] Weka - Data mining software http://www.cs.waikato.ac.nz/ ml/weka [Xenics, 2011] Xenics Xeva 1.7-320 http://www.xenics.com/en/infrared_ camera/visnir-nir_camera_-visual_near_and_near_infrared_ cameras_-_ingaas/xeva_near_ir_night_vision_camera_-_ingaas_ fpa.asp [Xing et al., 2007] Xing, J., Ngadi, M., Gunenc, A., Prasher, S.O., Gariepy, C.: Use of visible spectroscopy for quality classification of intact pork meat. Journal of Food Engineering, 82, 135-141 (2007)

164

BIBLIOGRAF´IA

[Xing et al., 2008] Xing, J., Guyer, D., Ariana, D., Lu, R.: Determining optimal wavebands using genetic algorithm for detection of internal insect infestation in tart cherry. Sens. Instrumen. Food Qual., 2, 161-167 (2008) [Xu et al., 2008] Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A.F.M., Liu, B., Yu, P.S., Zhou, Z.H., Steinbach, M., Hand, D.J., Steinberg, D.: Top 10 Algorithms in Data Mining, Knowledge and Information Systems 14, no. 1, pp. 1-37, (2008) [Yang et al., 2009] Yang, C., Chao, K., Kim, M.S.: Machine vision system for online inspection of freshly slaughtered chickens. Sens. Instrumen. Food Qual., 3, 70-80 (2009) [Yoon et al., 2009] Yoon, S.C., Lawrence, K.C., Siragusa, G.R., Line, J.E., Park, B., Feldne, P.W.: Hyperspectral reflectance imaging for detecting a foodborne pathogen: Campylobacter. Transactions of ASABE, 52(2), 651-662 (2009) [Zheng et al., 2006] Zheng, C., Sun, D., Zheng, L.: Recent developments and applications of image features for food quality evaluation and inspection a review. Food Science Technology, 17, 642-655 (2006) [Zhou et al., 1998] Zhou, L., Chalana, V., Kim, Y.: PC-Based Machine Vision System for Real-Time Computer-Aided Potato Inspection. International Journal of Imaging Systems and Technology, 9, 423-433 (1998)

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.