La inteligencia sintética y los sentidos artificiales por Sergio Moriello
Normalmente la expresión “inteligencia artifi...
18 downloads
1462 Views
145KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
La inteligencia sintética y los sentidos artificiales por Sergio Moriello
Normalmente la expresión “inteligencia artificial” (abreviada IA) suele aplicarse a la simulación de los complejos procesos cognitivos que caracterizan al comportamiento del hombre con el fin de volver más útiles a los sistemas informáticos. Pero, a pesar de que esta disciplina ha sido capaz de reproducir eficientemente las funciones “superiores” de la inteligencia humana como el razonamiento, la resolución de problemas, la toma de decisiones y la manipulación y el almacenamiento de enormes cantidades de datos; todavía no pudo duplicar el sentido común de un niño de corta edad ni la capacidad sensora de un vulgar insecto. Y es justamente la ausencia de esta última habilidad lo que limita su capacidad de desarrollo. En efecto, de la misma forma que la mente de un niño seguramente se atrofiaría de modo irreversible si fuese encerrado en una celda sin contacto con el mundo, sin comunicación directa con la realidad exterior, el micromundo enormemente simplificado de los sistemas de IA no les ha permitido desarrollar todo su potencial. En el caso del ser humano, así como en los demás animales, sus sistemas sensoriales fueron “diseñados” por la Naturaleza para proporcionar al cerebro información sobre el entorno. La información recibida se evalúa y se la integra con la estructura de conocimientos ya aprendidos, enriqueciéndola. De aquí se deduce que sólo percibe un ser capaz de comprender, es decir, de saber de qué se trata aquello que sus sentidos captan. Un aspecto parcial de la percepción, es el “reconocimiento de formas o de patrones”, que no sólo se limita a lo visual, sino también a los sonidos, al olfato, al tacto o al gusto. Un ejemplo de esta extraordinaria capacidad humana se pone de manifiesto cuando, por ejemplo, en medio de una ruidosa fiesta, con música y parloteo incesante, se llega a reconocer la voz de algún familiar o amigo, aun cuando haya pasado bastante tiempo desde la última vez que se vieron. Esta habilidad del cerebro para reconocer información, literalmente sumida en el caos del ruido, y retraerla además de una manera correcta, es uno de los muchos procesos asombrosos del cerebro que se desea duplicar en una máquina. Lo deseable y lo posible A fin de que participen activamente del “mundo humano”, se necesitaría que las computadoras puedan reconocer su entorno, aceptando información en formatos muy variados y no sólo estandarizados. En el caso de los animales -y fundamentalmente en el hombre- la entrada de información se verifica a través de sus sentidos; por este motivo, habría que 1
conferirles a las máquinas sistemas sensoriales equivalentes y potenciar la interacción con el hombre. Aunque todavía en una situación incipiente, los dispositivos análogos de los sentidos humanos comienzan a estar presente en las máquinas, tornándolas mucho más efectivas. De esta manera, las “computadoras inteligentes” ya pueden conversar con personas en lenguaje natural y reconocer la escritura manual o las imágenes, aunque en un entorno muy restringido, acotado, específico y limitado. Por ejemplo, estas máquinas pueden reconocer la voz humana, pero es necesario hablarles con una entonación correcta; también pueden sintetizar voces en varios idiomas, con diferentes entonaciones fonéticas (hombre o mujer, niño o viejo), y en diferentes estados psicológicos (irritación, ansiedad, o miedo, entre otros), aunque sus registros sonoros carecen de la calidez típicamente humana. Incluso, son capaces de traducir frases simples, pero se descarrilan por modismos, metáforas o expresiones no gramaticales. Asimismo logran distinguir imágenes y reconocer objetos diseñados, siempre y cuando estén claramente resaltados del fondo. El ser humano ya nace con una estructura mental para comprender, para entender significados. Empieza su vida con “armazones” a la que agrega, a lo largo de su vida, cosas que “encajan” en ellos. Para cualquier operación que involucre percepción, la comprensión es esencial. Pero existe una comprensión profunda y otra menos profunda. ¿Qué nivel de profundidad tiene que alcanzar la comprensión para que sea útil? En otras palabras, ¿en qué se diferencia la comprensión del mero reconocimiento? Tómese como ejemplo una charla desarrollada en una fiesta: una persona hace un comentario que la otra no entiende del todo. No obstante, debido al contexto de la situación, la segunda persona responde de una manera que parece apropiada. Quizás no sepa nada acerca del tema en cuestión, salvo unos pequeños rudimentos, pero esto no impide que la conversación siga, de hecho, desarrollándose durante un largo rato. Es que la comprensión tiene lugar por referencia al mundo; es mucho más fácil saber de qué se habla o qué se ve si se tienen incorporados conocimientos generales de sentido común y conocimientos específicos propios del dominio que se encara. Por ejemplo, si alguien dice: “Jorge va al supermercado. Hoy es el cumpleaños de Luis”, es muy difícil deducir lógicamente -si no se cuenta con un conocimiento general acerca del mundo y de las buenas costumbres- que normalmente se le hace un regalo a la persona que cumple un nuevo año y que los regalos pueden comprarse en los supermercados. Estas respuestas no están explícitas en la frase, ni siquiera en forma implícita. Igualmente, el sistema debería ser capaz de establecer referencias temporales, deduciendo que primero hay que ir al supermercado y recién después al cumpleaños; así como inferir que Jorge y Luis mantienen una estrecha relación de amistad. De 2
manera análoga, oraciones tales como “el cuaderno está dentro del cajón” y “el cajón está dentro del cuaderno”, que un traductor mecánico literal confundiría completamente, son traducidas con suma facilidad por un ser humano que tiene incorporado un modelo de mundo en el cual, obviamente, los cuadernos se guardan dentro de los cajones. O, en el caso del reconocimiento de imágenes, por ejemplo en una fotografía satelital, un pequeño rectángulo puede interpretarse como una casa, pero también como un automóvil. Sin embargo, un conocimiento más completo de la situación permite inferir que un rectangulito ubicado en un área relativamente estrecha y larga tiene muchas chances de ser un automóvil. Aunque se han logrado extraordinarios progresos en el reconocimiento de voz y de imagen, y aunque pueden manipular inmensas cantidades de datos millones de veces más rápido que los seres humanos, las computadoras todavía no pueden comprender lo que oyen ni lo que ven. Si el hombre fuera capaz de construir sistemas que entiendan, que comprendan, las máquinas extenderán aún más su ya de por sí amplio abanico de tareas. ¿Por qué hubo tan poco progreso? se pregunta el profesor Patrick Winston, y él mismo se responde “debido a que el campo de la IA nació en los años sesenta, la mayoría de sus practicantes ha creído que la visión, el lenguaje y las facultades motoras sólo son los canales de entrada/salida de la inteligencia humana. […] Creo que nuestra inteligencia está en nuestros canales de entrada/salida, no detrás de ellos, y que debemos entender las contribuciones de la visión computacional, del procesamiento del lenguaje y las facultades motoras”. Las dificultades de la lengua El lenguaje es una propiedad esencial de los seres humanos, una característica biológica tan propia de la especie como las plumas son para las aves. Esta concepción es llevada al extremo por el lingüista norteamericano Noam Chomsky, quien cree que hay un “molde” innato para el lenguaje natural, incluyendo los aspectos conceptuales, que ya está preestablecido (“precableado”, dicen algunos) por la evolución. Algunos antropólogos consideran que el lenguaje utilizado por una sociedad es el principal factor que determina su manera de pensar y de razonar, ya que condiciona la manera de expresar los conceptos y permite contrastarlos con la de los otros individuos. No obstante, otros expertos entienden exactamente lo contrario, que es el pensamiento el que influye en el lenguaje. Incluso, algunos científicos opinan que el hombre debe su supremacía biológica a esta capacidad, debido a que no sólo es una manifestación primaria de la racionalidad humana, sino porque fundamentalmente es el que hizo posible inventar y conservar la cultura y la civilización. En efecto, le permite al hombre transmitir sus experiencias, razonamientos, emociones, 3
sensaciones y deseos a través de incontables generaciones. El manejo apropiado del lenguaje fue, es y será fundamental en cualquier sociedad humana. Sería muy conveniente para el ser humano poder decirle a una máquina en lenguaje natural lo que tiene que hacer y recibir de ésta un comentario hablado sobre la factibilidad de la orden; no sólo porque la voz es la forma de comunicación más natural y cómoda (hay que recordar que se aprende a hablar antes que a leer o escribir), sino porque en casos de incapacidades físicas es el único medio posible. El inconveniente es que el lenguaje humano, aunque relativamente eficaz para la comunicación entre personas, no es muy apropiado para transmitir a la computadora instrucciones claras y precisas sobre lo que debe llevar a cabo. Por este motivo, el desarrollo de una interfaz dialógica es, para muchos investigadores, una de las metas principales que la IA debe alcanzar. Una computadora que comprenda el lenguaje natural podría utilizar a éste de un modo tan efectivo como lo emplea el ser humano, pudiéndose comunicar con la persona en forma simple y directa. Después de todo, y como afirma Michael Dertouzos, director del Laboratorio de Ciencias de la Computación del MIT, “no nacimos con teclados y puertos para mouse, sino con bocas, ojos y oídos”. Para lograr ese objetivo, el sistema no sólo tendría que comprender la semántica (o el significado de cada palabra de la oración -recuérdese que un lenguaje como el español o el inglés contiene cientos de miles de palabras-), la sintaxis (o la estructura de la oración o de la frase -con sus cientos de reglas y excepciones-) y el contexto en que se pronuncia, sino también debería considerar la pronunciación, la entonación, el acento, las pausas, el ruido ambiental y tendría que conocer, incluso, el tema del que se habla y varios hechos referentes a él. Es por esta razón que es extremadamente difícil para los sistemas informáticos identificar coherentemente el discurso hablado: porque cada individuo habla de un modo diferente, porque -a veces- su voz está influenciada por su estado de ánimo, la fatiga, el alcohol o el resfrío, porque pueden convivir casi incontables acentos en un mismo idioma, porque cada grupo social y profesional tiene su jerga, porque hay mucha ambigüedad, inexactitud y -en numerosos casos- contradicciones, porque una misma palabra puede tener varias acepciones según el contexto, porque hay múltiples maneras de decir lo mismo, porque muchas veces se producen frases mal construidas, dobles sentidos y metáforas, y porque se habla sin fluidez: se repite, se dicen muletillas, se inventan nuevas palabras, se abrevia y no se completan las oraciones (incluso, a veces, ni siquiera las palabras). Pero, ¿cómo se explica el hecho de que la excesiva ambigüedad e inexactitud -tan característicos del lenguaje natural- no dificulte la comunicación entre los hablantes de un mismo idioma? Aparentemente, debido a que la gente posee un conocimiento común y 4
compartido acerca del mundo, cuenta con la capacidad para hacer inferencias sobre las creencias de los otros, y porque la comunicación se produce siempre dentro de un determinado contexto, dentro de un marco específico. Esto les permite a las personas desentrañar las ambigüedades contenidas en la comunicación (tanto oral como escrita), y sería conveniente que los sistemas artificiales cuenten con análogas capacidades. Probablemente, la mejor forma de resolver el problema de la ambigüedad sea a través de una flexible comunicación bidireccional e interactiva entre la computadora y el ser humano, en la cual la máquina (al igual que la persona) sea capaz de indicar su entendimiento -o también su confusión- a través de la interrogación mutua, pidiendo precisiones sobre tal o cual problema y aclaraciones sobre tal o cual información. No hay que olvidarse que, una de las reglas sobre la naturaleza de la comprensión es que, si uno recibe una respuesta sensata a una pregunta, entonces puede asumir que su interlocutor la ha entendido. Los sistemas de reconocimiento del lenguaje hablado que han logrado mejores resultados son aquellos que restringen y limitan suficientemente el dominio (el “mundo”) y en donde las reglas de este dominio son claras y sin ambigüedades (es decir, cuando el problema está “bien estructurado”). Por ejemplo, los sistemas de respuesta vocal interactiva (Interactive Voice Response o IVR) permiten a una computadora guiar telefónicamente al usuario con una serie de mensajes grabados o contestar a todas las preguntas de rutina, en diversos idiomas y adaptándose a los diferentes acentos regionales. Asimismo, ya se encuentran disponibles en laboratorio sistemas capaces de responder las consultas sobre el tiempo meteorológico, los horarios de los diferentes vuelos de las compañías aéreas o los resultados de la liga de basket. Incluso la consulta puede hacerse en varias lenguas y la respuesta se da casi en tiempo real, es decir, con la fluidez con que se desenvuelve una conversación normal entre dos personas. Además, no sólo responde a preguntas simples del tipo “¿en qué ciudad jugó el equipo X en noviembre de 1987?”, sino también otras como “¿cuántos partidos ganaron los equipos como locales en el primer trimestre de 1998?”, o “¿qué jugador integró más de tres equipos diferentes en los últimos veinte años?”. Y ya es famoso el programa Eliza (de Joseph Weizenbaum) diseñado para simular una conversación entre un psicoanalista y un paciente, con la máquina en el papel de analista. Sin embargo, no se basa en una comprensión real, sino más bien en un proceso de comparación y clasificación que funciona aceptablemente en ciertos casos -muy limitados- pero que falla en tareas más arduas, como en el caso de una verdadera conversación. Un programa basado en Eliza pero más evolucionado, el Dr. Abuse, posibilita actualmente “hablar” con la computadora y ha sido entrenado en cientos de conversaciones con personas o máquinas a través de Internet y otros medios. 5
El exquisito arte de hablar A fin de lograr la citada comunicación interactiva, es necesario que las computadoras no sólo simulen la comprensión del lenguaje sino también es imperativo que sean capaces de sintetizar la voz humana. Existen básicamente dos formas de lograrlo: a través de la síntesis por copia o por medio de la síntesis por reglas. En ambos casos, el sistema cuenta con unidades lingüísticas discretas (como fonemas, sílabas o palabras) almacenadas en su memoria; pero mientras que en el primer método la salida es una mera copia (una reproducción) del discurso pregrabado, en el segundo, la palabra se construye analizando la entrada mediante reglas especificadas, con lo cual se puede generar un discurso continuo sin limitaciones de vocabulario. Aunque los sistemas más eficaces de síntesis hablada están restringidos a grandes computadoras, se esperan posibles implementaciones en computadoras personales de escritorio. Con el reconocimiento y la síntesis del habla los objetos podrán escuchar y hablar. Uno podrá preguntarle a su reloj, computadora de mano, radio, televisor o teléfono si hay algún mensaje nuevo, confirmar un vuelo, averiguar cómo está el tiempo, ubicar una localidad, reservar un hotel, buscar un producto o averiguar el resultado de un partido de fútbol. Es probable que pronto se desarrollen sistemas que comprendan preguntas formuladas en un lenguaje casi natural y que se encarguen de buscar -por uno o varios textos- la oración, párrafo o artículo que resultara más adecuado como respuesta. También en el relativamente corto plazo posiblemente haya equipos capaces de “leer y comprender” abrumadoras cantidades de información textual de forma tal de poder indizarla automáticamente, es decir, señalar las palabras-clave que correspondan a una comprensión superficial, colocar referencias bibliográficas y archivarlas a fin de que se la pueda encontrar cuando se la necesite. Los sistemas serán igualmente capaces de elaborar y recitar automáticamente resúmenes de relatos, compendiar artículos periodísticos y extraer inferencias básicas acerca del argumento, los personajes y las motivaciones. Desde un teléfono celular, por ejemplo, y en el caso de las películas, se podrá indicar en qué ciudad se está y qué filme se está buscando, y el aparato dirá el nombre de los cines y las horas donde la están pasando, además de las críticas de especialistas y un resumen del argumento. También será posible -con la voz- controlar y/o dirigir aplicaciones informáticas (como procesadores de texto o planillas de cálculo) o maquinaria (como electrodomésticos o microscopios) cuando, por ejemplo, se tienen las manos ocupadas. Asimismo, un sistema de síntesis vocal podría dar una alarma oral si se produce una situación de emergencia en un entorno industrial o señalar situaciones de peligro en otros tipos 6
de ambientes. En todos los casos, el inconveniente de estos sistemas es que, por ahora, no pueden decidir de modo convincente cuándo enfatizar una palabra o elevar o bajar el “tono de la voz”. Por eso, lo que se busca actualmente es evitar la voz monótona e incluir colorido, expresión y tono de acuerdo con la intención y el contenido del mensaje a transmitir. Un cerebro biológico es capaz de procesar información de manera rápida y precisa y puede ser entrenado para reconocer e identificar patrones, aún los incompletos (por extrapolación). No obstante, la perceptibilidad humana se ve afectada por preocupaciones emocionales (expectativas, ansiedades, humor) o estados físicos (fatiga, dolores, malestares). En cambio, los sistemas artificiales -precisamente porque no aceptan matices- pueden llegar a ser muchas veces más exactos que los especialistas humanos en tareas de reconocimiento y análisis de información fáctica. Sería el caso, por ejemplo, del análisis químico (de espectrogramas), la interpretación médica (de electrocardiogramas) o el diagnóstico ingenieril (de sistemas mecánicos). Derribando la Torre de Babel Hoy en día se hablan en el planeta unos 6.500 idiomas diferentes, aunque cerca del 2100 sólo sobrevivirán 300 de ellos. Las diferencias idiomáticas impiden que los pueblos se entiendan correctamente entre sí, generando problemas de comunicación que, no pocas veces, sirven de asidero al odio y la sospecha. La traducción automática, sin duda, ayudará a la mutua comprensión de las personas de diferentes lenguas, reduciendo los problemas originados por la mala interpretación o por la ignorancia. De esta forma, se espera que la IA contribuya significativamente a la caída de las barreras idiomáticas. En la actualidad se acepta universalmente que para traducir bien se requiere una cierta profundidad de comprensión, y las computadoras aún no cuentan con esta capacidad. Por lo tanto, hasta los sistemas más elaborados sólo ofrecen buenos borradores -aunque cada vez más válidos- que son ligeramente aproximados a los textos o documentos originales. El problema es que no alcanza con un “mero” traductor -ni siquiera varios especializados en algunas ramas específicas del saber, como ingeniería, medicina o derecho-, ya que las palabras corrientes normalmente son ambiguas, sus límites son difusos y sus diversas acepciones raras veces son las mismas en los diferentes lenguajes. Es decir, el significado de una frase en muchas ocasiones no refleja una transcripción estricta de las palabras, principalmente debido a que ciertos términos no se pueden traducir con exactitud al pasar de un idioma al otro. La manera correcta de hacer una precisa traducción solamente puede lograrse si se conoce el contexto en el cual se utilizan las palabras y se sabe lo que sabe la gente acerca del mundo. Como dice 7
Marvin Minsky, uno de los “padres” de la IA, “la actual tecnología aun no puede compararse a un buen traductor humano porque realmente el software no entiende lo que está traduciendo. Lo ideal sería que tuviese un conocimiento de sentido común, además del conocimiento sobre el vocabulario, la sintaxis, la gramática, etc.”. Por esta razón, tan simple, la traducción mecánica se torna tan complicada. Por ejemplo, la palabra inglesa “date” significa fecha o plazo, pero también cita, pareja o acompañante, según el contexto en que use. La palabra española “fecha” significa date, pero no tiene nada que ver con meeting o couple. Por otra parte, en español, “cita” significa meeting y appointment, pero no term o time. Finalmente, “pareja” se puede traducir como pair o couple, pero ni por las tapas significa meeting o time. Como se ve con claridad, no hay una palabra en español que equivalga exactamente al término inglés “date”. Por estos tipos de inconvenientes, los programas actuales de traducción sólo son relativamente útiles en campos muy específicos y limitados, como la documentación técnica, los manuales de instrucción y las guías de diseño. Pero, y probablemente dentro del lapso temporal de una década, la integración de estas tres tecnologías hoy balbucientes (reconocimiento y síntesis del lenguaje y traducción automática) habrá evolucionado a fin de configurar un intérprete universal, automático, capaz de traducir cualquier idioma en tiempo real, incluso sin necesidad de que se limite excesivamente la riqueza del lenguaje de origen. Así, por ejemplo, una aplicación interesante podría ser en una videoconferencia, donde las palabras se traduzcan al mismo tiempo en que se pronuncian y los movimientos faciales de cada hablante se simulen por el sistema para adecuarlos a las palabras del idioma respectivo. Incluso, las conversaciones podrían imprimirse en tiempo real, con distinto color, por ejemplo, para diferenciar a cada uno de los participantes. Por otra parte, no hay que olvidarse que la humanidad -durante el transcurso de toda su vasta historia- acumuló y sigue acumulando una gigantesca cantidad de información en incontables libros y revistas escritos en decenas de lenguas diferentes, un invalorable tesoro para muchas personas deseosas de conocimientos. Un sistema capaz de procesar cientos de palabras por segundo podría, en un tiempo razonable, traducir todo ese capital intelectual actualmente alcanzable sólo a grandes eruditos o a aquellos estudiosos que dominan simultáneamente varias lenguas, con lo cual se “democratizaría” el acceso al saber. Asimismo, se facilitaría la enseñanza de los idiomas, ya que la gente se sentiría mucho más cómoda al no poner de manifiesto su vergüenza ante otras personas, en el momento de pronunciar mal una palabra o frase. Pero no es absolutamente necesario disponer de programas sofisticados en la propia computadora personal de sobremesa. En efecto, en el caso de los turistas o los viajeros de 8
negocios, se podría sencillamente transportar una miniaturizada -aunque potente- computadora conectada de forma inalámbrica con un conjunto de servidores especializados. En el momento de hacer una pregunta o comenzar un diálogo, un micrófono captaría la voz del interlocutor y, en el mismo instante, la computadora establecería una comunicación con el servidor adecuado. La versión traducida en tiempo real, adaptada a la velocidad de elocución de los hablantes, se oiría por los auriculares miniaturizados que cada uno, disimuladamente, llevaría en sus oídos. Cuando la conversación se saliera del restringido campo de especialidad de un servidor, éste automáticamente le pasaría el control a otro más adecuado. De esta forma, es probable que, tal vez dentro de un cuarto de siglo, mantener una comunicación fluida en cualquier idioma sea tan común como hoy es utilizar un procesador de textos. Las ventajas del mirar En los primates, incluido el Homo Sapiens, una enorme porción del volumen cerebral se halla dedicada al tratamiento de la información visual. Este hecho no debería de sorprender, si se considera lo mucho que dependen estos animales de los ojos en su vida habitual. La visión es algo fundamental para la comprensión del mundo y el ser humano posee la más completa del reino animal, debido a que su cerebro está organizado para dar prioridad al procesamiento de la información visual antes que a la de los otros sentidos. Desde esta perspectiva, entonces, se podría decir que el hombre es -en gran medida- un animal eminentemente visual. Dicho de forma simple, lo que la visión hace es transformar patrones de luz bidimensionales (imágenes) en representaciones internas tridimensionales (objetos en términos de forma, color, textura, tamaño, distancia y movimiento). En este proceso, el reconocimiento de formas es fundamental y equivalente al proceso de reconocimiento de palabras en la comprensión del habla continua: consiste en realizar, en tiempo real, el contraste entre la información de entrada (la imagen) y los conocimientos anteriores (la experiencia previa). Es este conocimiento general acerca del mundo (probablemente ya programado genéticamente en el cerebro animal) el que permite la correcta interpretación de la información visual, ya que, al reducir la ambigüedad, simplifica enormemente la identificación de las imágenes. “Sólo unos pocos millares de formas son físicamente posibles, y es este conocimiento, y no la capacidad de un razonamiento profundo, lo que permite a un sistema dotado de visión analizar e identificar formas”, dice la escritora y divulgadora Pamela McCorduck, en su libro “Máquinas que piensan”. De manera similar, análogas estructuras cerebrales innatas son igualmente esenciales para la adecuada interpretación de los demás procesos perceptivos (degustación, olfación y tacto), así como en la comprensión del discurso y del lenguaje. 9
La visión artificial o computacional tiene como objetivo que la máquina interprete o infiera una imagen bidimensional, una forma tridimensional o una escena, a partir de las señales visuales, de forma tal de permitirle interactuar con su entorno. Su problema fundamental es que, para las computadoras, todos los puntos de una imagen tienen igual valor. Procesarlos la totalidad de ellos hasta distinguir un patrón es una tarea fuera del alcance hasta de los mayores sistemas informáticos. Es bastante probable que las computadoras aumenten significativamente su eficiencia visual si adoptan estrategias similares a las de los animales: dando importancia sólo a los elementos más significativos de una escena y no a los detalles y excluyendo del análisis un buen número de formas por ser físicamente imposibles. La ventaja de los sistemas de visión computacional reside en su habilidad para realizar tareas repetitivas y tediosas con alto grado de eficiencia. Además de eso, estos sistemas son capaces de ver una pieza que se desplaza a una velocidad que el ojo humano no puede percibir y tomarle medidas con una precisión imposible para el hombre, así como distinguir los colores de pequeñísimas piezas iguales y clasificarlas por color. Esas características permiten la aplicación de este tipo de sistemas en inspección automática, detección de fallas, análisis microscópico, control de calidad o selección de componentes, entre otras. Por ejemplo, se podría mejorar las imágenes de fotografías poco claras o difícilmente visibles, como la de un automóvil envuelto en la neblina, a fin de revelar el número de la patente. Asimismo, el software biométrico servirá tanto para aumentar la seguridad como para facilitar la vida de la gente. Este tipo de programas aprovecha las características físicas propias, particulares e individuales de una persona con el fin de lograr su identificación precisa, unívoca, segura y única. Las huellas digitales, las características faciales y la forma del iris (junto con el timbre de la voz) se han mostrado como medios idóneos para la tarea. Ya se piensa en lectores ópticos de huellas digitales colocados en teclados de computadoras, agendas electrónicas, teléfonos celulares y tarjetas de crédito, y que incluirán la capacidad de verificar si el dedo o la mano está viva (midiendo su temperatura o sus pulsaciones sanguíneas), a fin de excluir la posibilidad de que algún impostor utilice una reproducción del dedo o de la mano de otra persona -o directamente la cercene- para tener acceso a un área restringida. En el futuro, por ejemplo, el reconocimiento facial se volverá tan eficaz que podrá distinguir un rostro en una multitud (y avisar de que se trata de alguien conocido o desconocido), funcionará bajo diferentes condiciones de iluminación y se adaptará a los cambios en las expresiones o en los peinados. Se podrá usar para controlar zonas restringidas en empresas o aeropuertos, o para el control fronterizo y las transacciones financieras en cajeros automáticos. También podrá utilizarse en los grandes hipermercados, que guiarán 10
adecuadamente al cliente hacia la sección en que se encuentra la ropa de su talla, o en la puerta de la casa, que se abrirá automáticamente al reconocer que su dueño tiene las manos ocupadas. Sabuesos electrónicos Aunque el hombre confía mucho en su vista y en sus oídos, los sentidos que más impresión de realidad le aportan son el olfato y el tacto. La nariz artificial imita el sentido humano por medio de un conjunto de microsensores electroquímicos (cada uno hecho de un polímero distinto) asociada con una red de neuronas artificiales. Mediante esta ingeniosa combinación es posible detectar, identificar y clasificar -casi en forma infalible- vapores, perfumes y olores contenidos en el aroma que las sustancias, objetos o criaturas dispersan tanto en líquidos como en gases, incluso en cantidades despreciables. El sistema informa acerca de los componentes moleculares básicos del olor, de modo muy parecido a como una cámara digital informa acerca de los componentes rojo, verde o azul de los colores que capta. Las muestras digitales obtenidas pueden rápidamente compararse con otras ya almacenadas y codificadas, determinando así las diferencias -si las hay- entre aromas que supuestamente debieran ser iguales. La ventaja que proporciona la nariz artificial es su absoluta objetividad, su neutralidad, su “incontaminación” al proceso, debido a que es incapaz de sentir emoción alguna; su reacción es exactamente igual tanto frente a un vapor de olor desagradable como en presencia del más exquisito perfume. Como principales aplicaciones se podría mencionar: catar cerveza o café, monitorear niveles de emisión de gases, diagnosticar enfermedades (tanto en animales como en humanos), precisar el punto de madurez de un queso, distinguir los componentes aromáticos de una flor, determinar si una herida está infectada, o revelar sustancias contaminantes en el ambiente, en el agua o en los alimentos. Podría también ser capaz de realizar una rapidísima “imagen olfativa” del tipo de ser viviente o inerte que se encuentra dentro de su radio de acción, algo especialmente útil en ambientes donde la sensibilidad a la luz o a los sonidos tienen escasa importancia. Incluso, por medio del análisis feromónico de las pisadas, el sistema podría rastrear el residuo odorífero y seguir el paradero de cualquier criatura, indicando el tiempo transcurrido. También sería capaz de detectar, identificar y reconocer -en forma precisa- a personas en plena oscuridad o en medio de una multitud de sus congéneres (a través de la captación y posterior discriminación de las emanaciones emitidas por sus particulares y características glándulas sudoríparas). Otra aplicación interesante sería como sistema de seguridad: colocando la palma de la mano sobre una puerta, por ejemplo, el sistema analizaría el espectro de olores emanados (una “señal aromática” tan intransferible como las huellas 11
dactilares o el ADN) y lo compararía con los vapores que guarda en su biblioteca de olores. El sistema no sería engañado, por ejemplo, si una persona se unta la mano con alguna crema o se da la mano con otra persona. El conocimiento es poder El empleo de sensores supone una ventaja considerable para las inteligencias artificiales ya que tienen mayor sensibilidad y precisión que los sistemas sensoriales del hombre; incluso, pueden medir variables extrañas a éste, como las radiaciones energéticas o concentraciones de sustancias químicas. Por ejemplo, un sistema de percepción visual podría “ver” en todo el espectro electromagnético y no sólo en su porción visible, objetos cercanos o lejanos (tanto criaturas microscópicas como astros distantes), bajo cualquier condición de iluminación (tanto en la oscuridad casi completa como con la fuente de luz más intensa) y a cualquier velocidad (procesos demasiados lentos o excesivamente veloces para el ojo humano). Asimismo, un sistema de percepción auditivo podría “oír” todo tipo de sonido y no sólo los audibles, como los movimientos telúricos que suelen “sonar” a frecuencias muy bajas, o “explorar” acústicamente los materiales, cuerpos y objetos a través de un sistema de reflexión de ultrasonidos similar al del murciélago. No obstante, para interactuar adecuadamente con el mundo real en general y con el ser humano en particular, se necesita algo más que simples sensores. Los seres humanos normalmente nacen con sistemas sensoriales apropiados para recibir señales, con un cerebro adecuado para procesarlas y adquieren rápidamente el conocimiento necesario para comprenderlas. Pero nacen sabiendo muy poco y sólo después de bastante tiempo logran aprender a construir una casa, a diseñar un automóvil o a diagnosticar una enfermedad; para ello se precisa acumular suficientes conocimientos durante muchos años. Aparentemente la destreza (o la inteligencia, si se quiere) no depende tanto de los métodos de razonamiento, como se creía antes, sino fundamentalmente de la capacidad de utilizar -en formas diferentes- grandes cantidades de conocimientos de varias clases. Pero la mera acumulación de información no sirve, lo verdaderamente útil es la competencia para actuar, para saber aplicar ese conocimiento. Pero para eso, uno debe “interiorizarlo”, a fin de que pase a formar parte de uno mismo. El problema del conocimiento humano es que -en gran parte- es implícito, tácito e intuitivo, fruto de la integración de las percepciones y de la información contenida en el material genético. Guardarlo no es lo difícil, lo complicado es poder adquirirlo, representarlo y organizarlo adecuadamente. Otro problema adicional es que no es estático, ya que se modifica 12
con el transcurso del tiempo. En efecto, la experiencia directa transforma a la persona, moldeando su estructura de conocimientos y sus esquemas de pensamiento. Es necesario encontrar formas adecuadas para actualizar todo el “saber”, para que la nueva pieza de información “fluya en cascada” a lo largo de la vasta red de conocimientos interconectados. Para que un sistema sea considerado inteligente tendría que ser capaz de mejorar su comportamiento de forma incremental, tanto aceptando consejos del usuario como aprendiendo de la experiencia. Por ejemplo, dice John McCarthy, otro de los “padres” de la IA, “un bebé considera inicialmente que la palabra mamá es un nombre propio, luego un nombre general para las mujeres adultas, y más tarde la designación de una relación, todo ello sin perder la información más vieja”. Por último, está el problema de la extracción de la información pertinente. La red de conocimientos debe estar organizada de manera tal que el sistema no sólo pueda encontrar cada elemento de información con facilidad, sino también que tenga alguna forma de saber qué hechos pueden ser concernientes para ayudar a resolver el problema en cuestión. Experiencias personales Para algunos investigadores, en vez de tener un modelo del mundo programado dentro de la máquina, es mejor que ésta lo pueda adquirir a través de su propia “experiencia perceptiva”. Según el filósofo Daniel Crevier, para las personas “aparentemente, basta con un nivel muy bajo de procesamiento de la información para interaccionar con el mundo, ya que hay precedentes y restricciones físicas que nos dicen cómo actuar. Por ejemplo, utilizar una aparato telefónico resulta natural porque, dada la forma de nuestras manos y de nuestra cabeza, sólo hay una forma de sujetarlo. En vez de las específicas y complejas instrucciones que necesitaría un robot para sujetar al auricular, nosotros sólo necesitamos el suficiente conocimiento general para ajustarnos a la física de la situación”. El filósofo americano Hubert Dreyfus es, tal vez, más drástico y extremista; para él, sin un cuerpo material no se puede hablar de inteligencia general. En efecto, la inteligencia del ser humano se asienta sobre un organismo, un cuerpo que es extremadamente complejo: tiene percepciones, sentimientos y emociones desarrolladas a lo largo de miles de millones de años de evolución. Sin embargo, el acercamiento que predominó -hasta ahora- fue el de una inteligencia artificial descorporizada, es decir, máquinas sin cuerpo, aunque quizás puedan llegar a alcanzar la capacidad de razonamiento humana… o aun sobrepasarla holgadamente. Rodney Brooks, investigador principal en el Laboratorio de Robótica del MIT (Instituto Tecnológico de Massachusetts), piensa de forma parecida: “la inteligencia no puede ser 13
separada de la experiencia subjetiva de un cuerpo”. Encabezando un equipo multidisciplinario, diseñó a “Cog”, un robot de metal, plástico y silicio inspirado en estructuras biológicas y que se asemeja físicamente -aunque de manera muy vaga- a la forma del hombre. El objetivo de Brooks es lograr una inteligencia parecida a la humana más que una simple inteligencia, para lo cual decidió que a la máquina se le dieran experiencias humanas y que asimilase el conocimiento tanto a través de la programación como por intermedio de la proximidad con la gente y la interacción social. Cog fue diseñado para aprender como lo hace una persona, que se basa en la prueba y el error; es como un bebé que tiene que aprender a hablar, caminar y tomar decisiones. Además de sensores visuales y auditivos, tiene también una especie de “piel” -en realidad, una membrana sintética sensible al contacto- con la cual puede experimentar sensaciones de temperatura y se pretende que sienta dolor. Ella le permite, al tocar o rozar un objeto, enviar información a su cerebro sintético, de forma análoga a como ocurre en los seres humanos. El robot aprende, así, a retroceder si el objeto tiene posibilidad de dañarlo. Tal vez, cuando empiece a aprender, Cog se vuelva cada vez más sofisticado desde el punto de vista social, de un modo parecido a como el bebé se vuelve niño. Quizás tenga la “necesidad” de interactuar con la gente, de verlos actuar, de escucharlos, y de conversar con ellos. No obstante, y a fin de que la experiencia sea significativa para una persona, ésta tiene que encontrar creíble a la criatura, por ejemplo, que aparente tener “emociones, intenciones, deseos y creencias”. Asimismo, y con el objeto de mejorar la interacción, la comunicación necesitaría del rico y complejo lenguaje corporal para expresarse; es decir, en el uso de canales paralelos como los gestos, los movimientos de los brazos y las manos, las expresiones faciales, la mirada, el aspecto exterior, la postura y las entonaciones de la voz. Sin embargo, existe la posibilidad que Cog -y fundamentalmente sus sucesores- emprendan el camino hacia una “evolución artificial”, tomando a su cargo su propia evolución. Sin duda, sería mucho más rápida que la biológica, ya que las nuevas generaciones de máquinas surgen muy deprisa, “adaptándose al entorno” con una rapidez pasmosa. En consecuencia, no es del todo insensato pensar que, en algún momento, este tipo de creaciones puedan escaparse totalmente del control humano…
14