Phi-3 Mini: un modelo ligero de IA diseñado para su adopción en smartphones

Phi-3 Mini: un modelo ligero de IA diseñado para su adopción en smartphones

abril 23, 2024 Desactivado Por

Microsoft anunció Phi-3 Mini, un modelo ligero de inteligencia artificial (IA) diseñado para ejecutarse en smartphones y otros dispositivos locales. La IA es sin lugar a dudas el producto comercial que más se quiere implementar en 2024, pero está claro que el boom de esta tecnología no llegará en 2025. Para allanar el camino, Microsoft ha presentado el primero de tres pequeños modelos de lenguaje Phi-3 que la compañía lanzará en un futuro próximo.

El objetivo de estos modelos es proporcionar una alternativa más económica a los LLM basados ​​en la nube, permitiendo a las organizaciones más pequeñas adoptar la IA. Esto se implica emplear la propia potencia del dispositivo para dar vida a esta IA. Evitando así recurrir a posibles servicios en la nube ligados al pago de una suscripción.

Phi-3 Mini está a la par de modelos más grandes como Llama 2

O al menos eso es lo que asegura Microsoft. La compañía indica que el modelo de lenguaje Phi-3 supera cómodamente a su anterior modelo pequeño Phi-2. Es más, dicen que está a la par con modelos más grandes como Llama 2. Ahondando en la información, conocemos que este modelo lingüístico de 3.800 millones de parámetros se ha entrenado con 3,3 billones de tokens. Microsoft defiende que Phi-3 Mini proporciona respuestas cercanas al nivel de un modelo 10 veces su tamaño.

Presentamos Phi-3 Mini, un modelo lingüístico de 3.800 millones de parámetros entrenado con 3,3 billones de tokens, cuyo rendimiento global, medido tanto por referencias académicas como por pruebas internas, rivaliza con el de modelos como Mixtral 8x7B y GPT-3.5 (por ejemplo, Phi-3 Mini alcanza un 69% en MMLU y un 8,38 en MT-bench), a pesar de ser lo suficientemente pequeño como para instalarse en un teléfono.

La innovación radica por completo en nuestro conjunto de datos de entrenamiento, una versión ampliada del utilizado para Phi-2, compuesto por datos web muy filtrados y datos sintéticos. Además, el modelo se ajusta en cuanto a robustez, seguridad y formato de chat. También proporcionamos algunos resultados iniciales de escalado de parámetros con modelos de 7B y 14B entrenados para 4,8 billones tokens, denominados Phi-3 Small y Phi-3 Medium, ambos significativamente más capaces que Phi-3 Mini (por ejemplo, respectivamente 75% y 78% en MMLU, y 8,7 y 8,9 en MT-bench).

Por ahora, el modelo estará disponible en Azure, Hugging Face y Ollama

Microsoft espera que con Phi-3 Mini las empresas que no pueden permitirse un LLM conectado a la nube saltar a la IA. Por otro lado, Microsoft ya prácticamente está lista para lanzar Phi-3 Small y Phi-3 Medium con capacidades significativamente mayores. En concreto, hablamos de 7.000 millones de parámetros y 14.000 millones de parámetros de forma respectiva. Por lo que son un salto relativamente enorme respecto a los 3.800 millones del Phi-3 Mini, el cual tiene, evidentemente, algunas limitaciones.

La que más nos afecta, es que por ahora está únicamente diseñada para funcionar en inglés. Por otro lado se habla de un problema de almacenar el conocimiento factual. Con esto se refiere a una información concreta y objetiva sobre hechos, datos y eventos del mundo real que pueden ser representados y utilizados por los sistemas de IA para realizar tareas específicas.

En términos de capacidades LLM, aunque el modelo Phi-3 Mini alcanza un nivel similar de comprensión del lenguaje y capacidad de razonamiento que modelos mucho más grandes, sigue estando fundamentalmente limitado por su tamaño para ciertas tareas. El modelo simplemente no tiene la capacidad de almacenar demasiado «conocimiento factual», lo que puede verse por ejemplo con el bajo rendimiento en TriviaQA. Sin embargo, creemos que esta debilidad puede resolverse con un motor de búsqueda.

Otro punto débil relacionado con la capacidad del modelo es que en la mayoría de los casos restringimos el idioma al inglés. Explorar las capacidades multilingües de los Small Language Models es un importante paso a seguir, con algunos resultados iniciales prometedores en Phi-3 Small al incluir más datos multilingües. A pesar de nuestros diligentes esfuerzos de RAI, como ocurre con la mayoría de los LLM, sigue habiendo retos en torno a las imprecisiones factuales (o alucinaciones), la reproducción o amplificación de sesgos, la generación de contenidos inapropiados y los problemas de seguridad.

La entrada Phi-3 Mini: un modelo ligero de IA diseñado para su adopción en smartphones aparece primero en El Chapuzas Informático.