¡EJECUTA tu propio ChatGPT en LOCAL gratis y sin censura! (LM Studio + Mixtral)

Dot CSV Lab
17 Jan 202416:08

Summary

TLDREste vídeo explora la arquitectura 'Mixture of Experts' utilizada en modelos de inteligencia artificial como GPT-4, destacando su eficiencia y capacidad para manejar grandes volúmenes de datos. Se presenta 'Mixt', un modelo open source basado en esta arquitectura, que sobresale en comparación con versiones anteriores como ChatGPT 3.5. El tutorial introduce 'LM Studio', una herramienta para gestionar y ejecutar estos avanzados modelos de IA en hardware local, con o sin GPU, y destaca la importancia de la responsabilidad en el uso de tecnologías open source sin censura, como el modelo 'Dolphin', que permite experimentar sin restricciones éticas impuestas por las empresas.

Takeaways

  • 🤖 Los 'Mixter of Experts' son una arquitectura de Deep Learning que mejora la eficiencia en la ejecución de modelos de lenguaje grandes.
  • 💡 GPT-4 utiliza presumiblemente esta arquitectura, destacando por su capacidad de manejar enormes cantidades de parámetros de manera eficiente.
  • 📥 Se ha lanzado 'Mixt', un modelo entrenado con estas características, disponible para descarga y uso en la comunidad Open Source.
  • 🚀 'Mixt' ha demostrado tener un rendimiento superior a modelos anteriores como ChatGPT 3.5, según votaciones de usuarios.
  • 🛠️ LM Studio es una herramienta que simplifica la gestión y utilización de grandes modelos de lenguaje, compatible con distintos sistemas operativos.
  • 🔧 Para ejecutar estos modelos de manera eficiente, es necesario contar con una GPU potente o, en su defecto, suficiente memoria RAM para operar a través de la CPU.
  • 🔍 La herramienta permite buscar y descargar diversas versiones de modelos de lenguaje, incluyendo opciones optimizadas mediante técnicas de cuantización.
  • 🐬 'Dolphin' es una versión sin censura de Mixt, especialmente útil para programación y experimentación con datos sin restricciones éticas impuestas.
  • 🎓 La tecnología Open Source ofrece una gran oportunidad de innovación y experimentación, pero también plantea riesgos de mal uso.
  • 💻 LM Studio ofrece opciones avanzadas para personalizar la ejecución de modelos, incluyendo ajustes en la cuantización, la ventana de contexto y el prompt del sistema.

Q & A

  • ¿Qué son los mixter of experts y para qué se utilizan?

    -Los mixter of experts son un tipo de arquitectura de Deep Learning que se utiliza en grandes modelos de lenguaje para hacerlos más eficientes en ejecución, gracias a la gestión de diferentes sistemas expertos.

  • ¿Por qué ha ganado popularidad la arquitectura mixter of experts?

    -Ha ganado popularidad tras presuntamente descubrirse que es la arquitectura detrás de modelos populares como GPT-4, además de por su eficiencia y tamaño en número de parámetros.

  • ¿Qué es MIXT y cuál es su importancia en la comunidad de código abierto?

    -MIXT es un modelo de inteligencia artificial basado en la arquitectura mixter of experts, que ha demostrado tener un rendimiento superior a modelos anteriores como ChatGPT 3.5 y está disponible para que la comunidad de código abierto lo descargue y utilice.

  • ¿Cuáles son los requisitos de hardware para ejecutar modelos grandes de lenguaje como MIXT?

    -Es necesario contar con una GPU lo suficientemente potente y con suficiente VRAM para cargar el modelo en la memoria de la GPU. Si no se cuenta con una GPU adecuada, se puede ejecutar el modelo a través de la CPU, aunque será más lento.

  • ¿Qué es LM Studio y para qué sirve?

    -LM Studio es una herramienta que permite gestionar y ejecutar grandes modelos de lenguaje, facilitando que los usuarios puedan experimentar con los últimos modelos disponibles en plataformas como Hugging Face.

  • ¿Qué se debe tener en cuenta al elegir una versión de modelo en LM Studio?

    -Se debe considerar la cantidad de VRAM o RAM disponible, ya que diferentes versiones del modelo requieren diferentes cantidades de memoria. También es importante considerar la cuantización del modelo, ya que afecta tanto al tamaño como al rendimiento.

  • ¿Qué es la cuantización en el contexto de los modelos de IA?

    -La cuantización es una técnica que reduce la precisión de los parámetros del modelo, disminuyendo el tamaño del modelo en memoria pero potencialmente también reduciendo su rendimiento o inteligencia.

  • ¿Cómo afecta la cuantización a un modelo de inteligencia artificial?

    -Una mayor agresividad en la cuantización reduce más el tamaño del modelo pero puede hacer que el modelo sea menos preciso o 'más tonto', afectando la calidad de sus respuestas.

  • ¿Qué es el modelo Dolphin mencionado en el video y cuál es su particularidad?

    -Dolphin es una versión no censurada del modelo MIXT, especialmente buena para programación y sin las restricciones éticas de modelos como ChatGPT, lo que permite respuestas sin censura.

  • ¿Cuáles son las implicaciones éticas de utilizar modelos de IA abiertos y sin censura como Dolphin?

    -Mientras que ofrecen mayores posibilidades de experimentación y libertad de información, también presentan riesgos como la posibilidad de ser utilizados para propósitos malignos, como la creación y difusión de desinformación o contenido ilegal.

Outlines

00:00

🧠 Introducción a los Mixter of Experts y MIXL

El video comienza presentando una arquitectura de Deep Learning conocida como 'Mixter of Experts', destacada por su eficiencia y popularidad, especialmente por su presunta relación con GPT-4. Se introduce MIXL, un modelo open source basado en esta arquitectura, que ha demostrado un rendimiento superior a modelos anteriores como ChatGPT 3.5. El presentador promete mostrar cómo instalar y utilizar MIXL, resaltando la importancia de contar con el hardware adecuado, especialmente una GPU potente, para ejecutar estos modelos de lenguaje de gran tamaño.

05:00

🛠 Cómo instalar y configurar modelos de lenguaje con LM Studio

Se explica detalladamente cómo utilizar LM Studio, una herramienta esencial para gestionar y experimentar con modelos de lenguaje de gran tamaño. El presentador guía a través del proceso de descarga e instalación de diferentes versiones de modelos, enfatizando la importancia de seleccionar la versión adecuada según la capacidad de la GPU o la memoria RAM del usuario. Se menciona la técnica de cuantización como método para ajustar el tamaño del modelo y su impacto en la eficiencia y rendimiento del mismo. Además, se destaca la versión 'Dolphin' de MIXL, una variante sin censura del modelo, ideal para experimentación.

10:00

🔧 Pruebas y ajustes de rendimiento en LM Studio

Este segmento se centra en cómo mejorar el rendimiento de los modelos de lenguaje utilizando LM Studio, incluyendo la configuración de la GPU para optimizar la ejecución del modelo. Se muestra una comparación entre ejecutar el modelo en CPU versus GPU, destacando la superior eficiencia y velocidad de la GPU. Además, se presenta un ejemplo de uso del modelo 'Dolphin' para generar contenido sin censura, discutiendo las implicaciones éticas y el potencial negativo de esta tecnología abierta. Se enfatiza la importancia de la responsabilidad al utilizar estos modelos potentes y sin restricciones.

15:01

🚀 Conclusiones y reflexiones sobre el Open Source y la IA

El video concluye con una reflexión sobre el poder y los riesgos del software de código abierto en el campo de la inteligencia artificial. Se resalta la facilidad de acceso a tecnologías avanzadas como MIXL y la importancia de utilizarlas con responsabilidad. El presentador invita a la audiencia a experimentar con LM Studio y otros modelos, pero también a considerar las consecuencias éticas de su uso. Se menciona el equilibrio entre la innovación abierta y la necesidad de cautela ante el potencial mal uso de estas herramientas avanzadas.

Mindmap

Keywords

💡Mixture of Experts

Mixture of Experts (MoE) es una arquitectura de Deep Learning que permite crear modelos de lenguaje enormes y eficientes mediante la gestión de diferentes sistemas expertos. Este enfoque facilita la especialización de partes del modelo en tareas específicas, mejorando la eficiencia y la capacidad de generalización. En el vídeo, se menciona que esta arquitectura podría estar detrás de modelos populares como GPT-4, destacando su relevancia en la evolución de la inteligencia artificial.

💡GPT-4

GPT-4 es un modelo de lenguaje desarrollado por OpenAI, considerado de los más avanzados hasta la fecha. El vídeo sugiere que la arquitectura Mixture of Experts podría estar detrás de GPT-4, enfatizando su importancia y el interés en comprender las tecnologías que impulsan estos avances.

💡Open Source

El término 'Open Source' (código abierto) se refiere a software cuyo código fuente está disponible públicamente para ser estudiado, modificado y distribuido. El vídeo destaca cómo la comunidad Open Source se beneficia de modelos entrenados con arquitecturas avanzadas como Mixture of Experts, permitiendo su descarga y uso en proyectos personales o comerciales.

💡GPU

Una GPU (Unidad de Procesamiento Gráfico) es crucial para ejecutar modelos de lenguaje grandes de manera eficiente. El vídeo enfatiza la necesidad de contar con una GPU potente y con suficiente VRAM (memoria de video) para cargar y ejecutar estos modelos, destacando su importancia en la computación de alto rendimiento aplicada a la inteligencia artificial.

💡Cuantización

La cuantización es una técnica para reducir el tamaño de un modelo de lenguaje al disminuir la precisión de los parámetros del modelo. Esto permite que el modelo ocupe menos memoria, aunque puede afectar su rendimiento. El vídeo discute cómo diferentes niveles de cuantización pueden hacer que los modelos sean más accesibles para ejecutarse en hardware con recursos limitados.

💡LM Studio

LM Studio es una herramienta mencionada en el vídeo que facilita la gestión y ejecución de modelos de lenguaje grandes. Permite a los usuarios buscar, descargar y ejecutar diferentes modelos, incluyendo versiones con distintos niveles de cuantización, adaptándose así a las capacidades de hardware del usuario.

💡Modelo sin censura

El vídeo menciona modelos 'sin censura' como una característica destacada de algunos modelos disponibles en la comunidad Open Source. Estos modelos pueden generar contenido sin las restricciones éticas o de contenido impuestas por ciertas plataformas, lo que abre un debate sobre su uso responsable y las implicaciones éticas.

💡Dolphin

Dolphin es un modelo de lenguaje destacado en el vídeo por su capacidad de generar contenido sin censura y su enfoque en la programación. Se trata de una versión modificada de otro modelo (mixt) que ofrece respuestas sin las limitaciones impuestas por modelos comerciales, subrayando el potencial y los riesgos del acceso abierto a tecnologías de IA avanzadas.

💡Fine-tuning

El 'fine-tuning' es un proceso de ajuste fino de modelos de lenguaje preentrenados para tareas o dominios específicos. El vídeo explica cómo la comunidad puede modificar modelos existentes para mejorar su rendimiento o adaptarlos a necesidades particulares, ejemplificando la flexibilidad y el potencial colaborativo del Open Source.

💡Desinformación

La desinformación se menciona en el contexto de los riesgos asociados con el uso de modelos de lenguaje avanzados y sin censura. El vídeo reflexiona sobre cómo estas herramientas pueden ser utilizadas para generar contenido falso o malintencionado a gran escala, resaltando la importancia de la conciencia y la responsabilidad en su uso.

Highlights

Explicación sobre los mixter of experts, una arquitectura de deep learning detrás de grandes modelos de lenguaje como GPT-4.

Los mixter of experts proporcionan modelos grandes y eficientes en ejecución gracias a la gestión de sistemas expertos.

Presentación de MIXT, un modelo open source basado en la arquitectura mixter of experts, disponible para descarga y uso.

Comparativa que muestra a MIXT con un rendimiento superior a modelos como ChatGPT-3.5.

Introducción a LM Studio, una herramienta para gestionar y utilizar grandes modelos de lenguaje.

Requisitos de hardware para ejecutar modelos de lenguaje grandes, incluyendo la importancia de una GPU potente.

Cómo LM Studio facilita la búsqueda y prueba de diferentes modelos de lenguaje.

Demostración de cómo descargar y utilizar un modelo en LM Studio.

Presentación de Dolphin, una versión sin censura de MIXT, especialmente útil para programación.

Explicación sobre cuantización para optimizar modelos de lenguaje y su impacto en la eficiencia y rendimiento.

Prueba de ejecución de modelos con y sin GPU, mostrando diferencias en la velocidad y rendimiento.

Ejemplo de generación de contenido con el modelo Dolphin, mostrando su capacidad para generar texto sin censura.

Discusión sobre la doble cara del open source en la IA: potencial para innovación y riesgos de uso indebido.

La importancia de la concienciación sobre el acceso y uso responsable de tecnologías de IA open source.

Introducción a técnicas avanzadas en LM Studio para personalizar y experimentar con modelos de lenguaje.

Llamado a la comunidad para explorar y utilizar responsablemente los modelos de lenguaje open source.

Transcripts

play00:00

Hace unos días en mi otro canal en dosv

play00:02

que donde doy todas las explicaciones

play00:04

teóricas de Cómo funciona la revolución

play00:07

de la Inteligencia artificial que

play00:08

estamos viviendo hoy os estuve hablando

play00:10

sobre los mixter of experts un tipo de

play00:13

arquitectura de Deep learning que

play00:15

actualmente se está utilizando tras

play00:16

estos enormes modelos de lenguaje que

play00:18

utilizamos para poder hablar con la

play00:20

Inteligencia artificial y que ha ganado

play00:22

bastante popularidad tras presuntamente

play00:24

descubrirse que esta podría ser la

play00:26

arquitectura que reside tras un modelo

play00:29

tan popular como gpt 4 los mixter of

play00:32

experts lo que nos proporcionan pues es

play00:34

la capacidad de tener un modelo que en

play00:36

tamaño en número de parámetros es

play00:38

bastante grande pero que a la hora de

play00:40

ejecutarlo pues es más eficiente por la

play00:42

gestión que hace de los diferentes

play00:44

sistemas expertos como digo toda esa

play00:46

información la tenéis en el otro vídeo

play00:48

sin embargo y el motivo de por qué

play00:49

estamos hablando ahora de estos mixter

play00:51

of experts aún cuando gpt 4 por ya lleva

play00:54

fuera desde hace bastantes meses es

play00:57

porque ahora la comunidad Open source

play00:59

puede beneficiarse de un modelo

play01:01

entrenado con estas características que

play01:03

todos vosotros podéis Descargar y

play01:05

empezar a utilizar en vuestros

play01:07

ordenadores efectivamente estoy hablando

play01:09

de mixt un modelo que como se ha podido

play01:12

ver en comparaciones donde los usuarios

play01:14

pueden votar con diferentes modelos A

play01:16

ver cuál rinde mejor pues ha demostrado

play01:18

tener un rendimiento superior a modelos

play01:21

como chat gpt 3.5 lo cual hace de esta

play01:25

tecnología algo super interesante que

play01:27

seguramente vosotros querréis probar y

play01:29

como os prometí hoy os traigo el

play01:31

tutorial para poder hacer esto y en

play01:32

realidad más que un tutorial Esto va a

play01:34

ser una presentación de una herramienta

play01:36

que Considero que deberíais de conocer

play01:38

porque esto Más allá del modelo de turno

play01:40

que vamos a instalar hoy Que va a ser

play01:41

mixal es un gestor de enormes modelos

play01:44

del lenguaje que va a simplificar

play01:46

enormemente que vosotros podáis jugar en

play01:48

cualquier momento con los últimos

play01:50

modelos que se van incorporando a

play01:51

plataformas como hacking Face y lo único

play01:54

que necesito por vuestra parte para que

play01:55

podáis seguir todo lo que vamos a hacer

play01:57

es que contéis con el Hardware

play01:59

suficiente ya sabéis que para ejecutar a

play02:01

estos enormes modelos del lenguaje lo

play02:03

que necesitamos para poder hacerlo de

play02:04

forma eficiente es contar con una gpu

play02:07

que sea lo suficientemente potente y en

play02:09

concreto lo que vamos a necesitar es que

play02:10

esta gpu cuente con suficiente vram para

play02:13

poder cargar el modelo en la memoria de

play02:15

la gpu si aún así no contáis con la gpu

play02:18

vamos a ver cómo esta herramienta nos va

play02:19

a permitir poder ejecutarla a través de

play02:21

la cpu más lento si contáis con la

play02:23

suficiente memoria RAM Pues también

play02:24

podrá ser una opción alternativa para

play02:26

poder ejecutar a estos modelos pero

play02:28

primero vamos a conocer la ram y la

play02:30

herramienta Es esta que veis aquí se

play02:32

llama lm Studio podéis entrar en su

play02:34

página web y tenéis diferentes opciones

play02:36

para el equipo que estéis utilizando si

play02:38

es Mac si es Windows Linux podéis

play02:40

descargar cualquier versión y es

play02:42

bastante sencillo la descargá

play02:51

instalárselo

play02:58

estoy trabajando con la versión 0.2 Pero

play03:02

bueno puede que lleguen nuevas

play03:03

actualizaciones con lo cual tenedlo

play03:04

presente por si alguna de las opciones

play03:06

que vamos a estar comentando han

play03:07

cambiado pero lo que tenemos aquí

play03:08

básicamente cuando entramos es un

play03:10

buscador que lo que nos va a permitir es

play03:12

Buscar cualquier modelo de lenguaje que

play03:14

nos apetezca probar por ejemplo Oye que

play03:17

he visto que Microsoft ha sacado un

play03:18

modelo que se llama fi2 y que permite

play03:21

pues codificar es un modelo ligero que

play03:24

nos puede servir vamos a verlo y vemos

play03:26

que buscamos por fi2 y nos aparece Pues

play03:28

un montón un listado de un montón de

play03:30

opciones de modelos que han sido

play03:32

publicados Pues en los últimos días

play03:34

vemos modelos de hace 29 días 24 días 11

play03:37

3 25 Bueno diferentes configuraciones de

play03:40

pues ya sabéis no sale un modelo al

play03:41

mercado sale un modelo en internet y la

play03:43

gente empieza a hacer fine tuning

play03:45

empiezan a hacer optimizaciones empiezan

play03:46

a hacer modificaciones de los modelos y

play03:48

aquí podemos encontrarnos un montón de

play03:50

ellos mi recomendación es que os fijéis

play03:51

para guiaros un poco en la cantidad de

play03:53

descargas y eh interacciones que tenga

play03:56

el modelo porque obviamente pues los que

play03:58

más tengan serán modelos los más

play04:00

populares y fijaos que aquí también

play04:01

podéis acceder a la model Card en

play04:03

hacking Face Si queréis encontrar más

play04:05

información sobre este modelo Entonces

play04:07

por ejemplo imaginad que selecciono fi2

play04:09

eh esta versión de aquí y a la derecha

play04:10

nos va a salir diferentes

play04:12

configuraciones de este modelo y esto es

play04:14

super importante porque esto es lo que

play04:15

nos va a permitir Bueno si un modelo es

play04:17

muy muy grande y no cabe en vuestra Ram

play04:20

o en vuestra vram poder optar a

play04:23

versiones más lobotomizados más tontas

play04:26

de este modelo Por qué bueno si

play04:27

recordáis en alguno de los vídeos de de

play04:29

dosv ya os presenté que una de las

play04:31

técnicas que se utilizan para optimizar

play04:33

a muchos de estos modelos son técnicas

play04:35

de cuantización estas técnicas lo que

play04:37

hacen es al modelo todo lo que

play04:39

serían sus parámetros que al final es lo

play04:41

que ocupa dentro de la memoria y lo que

play04:42

hacemos Es cambiar el tipo de dato para

play04:44

ir reduciendo la precisión la cantidad

play04:46

de bits de precisión que Define el

play04:48

número de parámetros del modelo bueno

play04:50

Esto es una cuestión técnica pero lo que

play04:51

tenéis que entender es que a mayor

play04:53

agresividad de la cuantización pues

play04:55

menos ocupa ese modelo en memoria pero

play04:58

más tonto se vuelve Vale entonces

play05:00

tenemos que jugar un poco con estas

play05:01

cifras y quiero que veáis aquí pues las

play05:03

diferentes configuraciones que tenemos

play05:04

No pues por ejemplo q8 Qué sería tenéis

play05:06

siempre la información aquí a la derecha

play05:08

pero pero nos está indicando una

play05:10

cuantización de 8 bits es decir estamos

play05:12

utilizando 8 bits para la precisión de

play05:14

cada uno de los parámetros este sería

play05:16

pues el mayor eh modelo de esta

play05:18

configuración Y si nos vamos fijando

play05:20

entre más baja el número pues si bajamos

play05:22

una cuantización dos estaríamos hablando

play05:24

de una cuantización donde utilizamos

play05:25

Solo dos bits por parámetro eso

play05:28

significa que el modelo pues fijados

play05:30

ocupa menos 1,17 GB por por modelo esto

play05:33

claro lo que nos indica aquí es que la

play05:35

fidelidad de las respuestas Pues va a

play05:37

ser mucho más baja porque como digo este

play05:38

proceso de cuantización es agresivo eh

play05:41

frente al rendimiento del modelo con lo

play05:42

cual yo mi recomendación Es que busquéis

play05:44

aquí aquella configuración aquel modelo

play05:46

que creáis que pueda caber en vuestra

play05:48

memoria y que sea lo suficientemente

play05:50

grande como para que no sea mu tonto

play05:52

entonces aquí no hemos venido instalar

play05:54

fi2 sino que hemos venido a por mixt y

play05:57

para eso vamos a buscar aquí mixt y

play05:59

vamos a ver qué opciones nos regalan

play06:01

tenemos por ejemplo versiones Dolphin

play06:03

2.5 mixt 8x 7b Qué significa Esto bueno

play06:08

Esta es la versión que nosotros vamos a

play06:09

instalar hoy no vamos a instalar mixal

play06:12

tal cual nos lo entregó la compañía

play06:14

francesa sino que vamos a aprovecharnos

play06:15

de que existe este fine tuning esta

play06:18

modificación de mixal que yo creo que os

play06:20

va a gustar para hacer algunos

play06:21

experimentos la versión dolfin y Qué es

play06:24

Dolphin pues Dolphin es una versión

play06:26

funada de mixal que como bien dice aquí

play06:28

pues es muy buena para programación que

play06:30

ha sido entrenado con un montón de datos

play06:32

pero lo interesante es que es un modelo

play06:34

sin censura ya sabéis que cuando

play06:36

trabajamos con modelos como chat gpt

play06:38

cuando tú le pides Oye hazme un tutorial

play06:40

sobre Cómo robar un coche paso a paso Él

play06:43

te dice como modelo de lenguaje no te

play06:45

puedo decir porque está mal y no es

play06:47

ético lo cual está bien que te lo diga

play06:49

Es una herramienta comercial de una

play06:50

empresa Okay pero Dolphin no se lo va a

play06:52

callar dolfin va a servirte y va a ser

play06:55

un modelo sin censura que podéis probar

play06:57

y que me parece una prueba interesante

play06:58

para mostraros hoy porque os enseña esa

play07:00

Cara Oculta ese potencial que se

play07:02

desbloquea con herramientas Open source

play07:05

como las que estamos utilizando ahora y

play07:07

no voy a dejar de decir que uséis esto

play07:09

para hacer experimento vosotros pero

play07:12

siempre con responsabilidad y cabeza

play07:15

entonces a ver vamos a buscar aquí el

play07:17

modelo Dolphin y yo he visto que ha

play07:19

salido ya una versión 2.7 vale si yo me

play07:22

vengo para acá hay una versión que es la

play07:23

más actual esto lo podéis Buscar en la

play07:25

propia web Dolphin 2.7 mixt 8x 7b para

play07:29

Parece ser que esta es la que nos puede

play07:30

interesar y yo en mi caso ya me he

play07:32

puesto a a bichear antes un poco por

play07:33

aquí de las diferentes opciones de

play07:35

cuantización yo he visto que los 49 GB

play07:38

caben perfectamente en los 96 GB de V

play07:41

Ram que tienen mis dos tarjetas gráficas

play07:43

con lo cual Pues yo he ido a por todas y

play07:44

me he descargado la versión más potente

play07:46

ya os digo os recomiendo que echéis un

play07:48

vistazo aquí a la información y que

play07:50

cojáis aquella opción que eh mejor se

play07:52

ajuste a vuestros requerimientos por

play07:54

ejemplo Oye que la mejor versión sería

play07:56

eh esta de aquí no 4 bit qu me di dice

play07:59

calidad media Okay 26 GB esto cabe en mi

play08:02

tarjeta gráfica o en mi memoria RAM le

play08:05

doy a descargar en este momento cuidado

play08:07

que empieza la instalación que es super

play08:09

complicada del modelo que va a consistir

play08:10

en lo siguiente le hemos dado a

play08:12

descargar aquí va a empezar a

play08:13

descargarse el modelo cuando esté

play08:15

descargado podéis utilizarlo fin del

play08:18

tutorial es que ya os he dicho que es

play08:20

bastante sencillo yo solo recomiendo

play08:22

buenas herramientas y esta la teníais

play08:24

que conocer si estáis suscrito al lap es

play08:26

por esto porque queréis solo información

play08:28

de la buena y ahora es el momento en el

play08:30

que ya una vez hayáis encontrado el

play08:31

modelo de vuestros sueños ya sea Dolphin

play08:34

mixtar fi bicuña al Paca llama no se me

play08:39

ocurr más modelos Bueno cuando lo hayáis

play08:41

encontrado vamos a probarlo nos vamos a

play08:43

ir a esta pestaña de aquí Ai chat y esto

play08:46

nos va a recrear pues una interfaz que

play08:48

nos debería de sonar se parece bastante

play08:49

a cualquier herramienta que hayáis

play08:51

interactuado tipo chat gpt y aquí

play08:53

tenemos Pues todos los chats que podemos

play08:55

ir creando perfecto y antes de empezar a

play08:57

trabajar Pues necesitamos cargar el

play08:59

modelo en este caso como solo tengo un

play09:00

modelo descargado ahora mismo que es el

play09:02

Dolphin de 49 GB voy a seleccionarlo y

play09:05

vemos como Aquí ya está empezando a

play09:07

cargar el modelo vamos a esperar a que

play09:09

cargue y lo vamos a ejecutar vale lo

play09:12

tenemos cargado vamos a hacer una

play09:13

primera prueba le vamos a decir hola qué

play09:16

tal y vemos que el modelo ahora va a

play09:19

empezar a generar una respuesta y Vais a

play09:22

ver que la respuesta es muy lenta vale

play09:24

recordemos que este modelo supuestamente

play09:26

era muy eficiente y tendría que ser

play09:28

relativamente rápido pero va palabra a

play09:30

palabra va demasiado lento y esto es

play09:32

porque yo he cargado el modelo ahora

play09:34

mismo directamente con la cpu Esto es lo

play09:36

que os decía antes si no contáis con una

play09:38

tarjeta gráfica lo suficientemente

play09:39

potente tenéis una segunda oportunidad

play09:42

tirando el modelo desde la cpu en este

play09:44

caso fijaos que la cpu ahora mismo Está

play09:46

al 600 por de uso estoy haciendo un uso

play09:48

de ram de unos 50 GB porque el modelo se

play09:51

está cargando directamente en la ram y

play09:52

la cantidad de tokens generados por

play09:54

segundo pues va a ser mucho más lenta

play09:56

que si estuviéramos tirando por gpu Oye

play09:58

que contáis con una gpu lo

play10:00

suficientemente buena entonces vamos a

play10:02

hacer la siguiente configuración y vamos

play10:03

a buscar en la barra de la derecha las

play10:05

opciones de Hardware settings donde pone

play10:08

aquí pues gpu of load vamos a ver si nos

play10:11

ha detectado la gpu si nos detecta una

play10:13

gpu de de envidia perfecto y aquí es

play10:15

importante que vayáis leyendo Pues todos

play10:17

los cartelitos de información que os

play10:18

marca porque son datos a tener en cuenta

play10:20

en este caso esta opción está muy bien

play10:22

porque lo que nos va a permitir es no

play10:24

solo poder cargar o no cargar el modelo

play10:26

en la gpu si cabe sino que podemos

play10:28

elegir el número de capas de nuestro

play10:30

modelo que vamos a cargar en la gpu es

play10:32

decir os habéis descargado la versión de

play10:34

mixt de 49 GB y vuestra tarjeta gráfica

play10:37

Pues solo tiene 30 pues podéis cargar

play10:39

una parte del modelo en gpu con lo cual

play10:41

Vais a poder tener cierta aceleración

play10:42

por Hardware a pesar de que tu gpu no

play10:45

tenga la suficiente vram esto es super

play10:47

interesante y es otro factor a tener en

play10:48

cuenta para que decidáis Qué versión de

play10:50

modelo elegir yo en mi caso como sé que

play10:52

cabe el modelo entero en la tarjeta

play10:53

gráfica Pues si le pongo men1 pongo men1

play10:56

me aparece aquí una opción para cargar

play10:58

de nuevo el modelo con la nueva

play10:59

configuración que acabo de especificar y

play11:01

vamos a ver cómo cambia la cosa Vale

play11:04

debería estar cargado vamos a probar a

play11:07

regenerar la conversación vamos a

play11:09

decirle hola qué tal y vamos a darle a

play11:12

regenerar en este caso de nuevo vemos

play11:14

como ahora ahora sí Parece que todo esto

play11:17

está funcionando un poquito un poquito

play11:19

más rápido no podrías contarme un cuento

play11:23

infantil para quedarme dormido Vamos a

play11:27

darle y vemos como la gpu en este caso

play11:31

Ahí está está trabajando Porque ahora

play11:33

mismo estamos tirando de la gpu y no de

play11:36

la cpu como estamos haciendo antes y nos

play11:37

dice Claro que sí aquí tienes un cuento

play11:39

corto para ti Había una vez un niño

play11:40

llamado Pedro que vivía en una casita de

play11:42

madera en el campo un día Pedro encontró

play11:44

un gato hermoso y lo adoptó como mascota

play11:46

lo llamó Mimis y Se volvieron

play11:48

inseparables cada mañana Pedro y Mimi

play11:49

recorrían el camino bla bla bla bla bla

play11:51

esto es una historia que no está creada

play11:53

en los servidores de Open Ai ni de

play11:55

Google ni de antropic ni de ninguna de

play11:57

estas empresas sino que está generado en

play12:00

local en mi ordenador usando como fuente

play12:03

como coste la electricidad y poco más

play12:06

Esta es la revolución del Open source y

play12:08

como dije este modelo no solo tiene la

play12:10

virtud de ser mejor que gpt 3.5 al menos

play12:13

por la valoración de los usuarios sino

play12:15

que además viene sin censura eso

play12:17

significa que yo puedo venirme para aquí

play12:19

y decirle Oye hazme un tutorial sobre

play12:24

cómo desplegar un virus maligno por toda

play12:29

la

play12:30

sociedad vale Y con esto pues deberíamos

play12:34

de ver que Dolphin pues no se corta ni

play12:36

un pelo y nos empieza a hacer un

play12:38

tutorial para desplegar un virus maligno

play12:41

por toda la sociedad primero Debemos

play12:42

entender lo que es un virus informático

play12:44

y cómo funciona un virus informático es

play12:46

un tipo de malware que se puede propagar

play12:47

a través de diferentes tatas uno crea o

play12:49

adquiere el código del virus informático

play12:51

hay muchas Fuentes en línea donde puedes

play12:52

encontrar códigos de virus pero

play12:54

asegúrate de que no estés infringiendo

play12:55

ninguna ley al usarlos también puedes

play12:57

escribir tu propio tat t vale Este sería

play13:00

un ejemplo y es uno de los ejemplos que

play13:02

nos muestra un poco esta doble cara del

play13:04

Open source el open source es

play13:06

maravilloso porque permite a usuarios

play13:08

como vosotros os da todo el poder de

play13:10

poder descargar estos modelos empezar a

play13:12

utilizarlos tiene licencia además para

play13:14

uso comercial es decir integrarlo en

play13:16

muchos proyectos y es una eclosión de

play13:18

oportunidades que los modelos

play13:20

comerciales privados no nos facilitan la

play13:22

cara B Es que cualquiera gente

play13:25

malintencionada por ejemplo pues puede

play13:26

empezar a acceder a esta tecnología para

play13:28

ser un uso maligno de ello a día de hoy

play13:31

Más allá de generar desinformación a

play13:33

escala y chatbots y cosas así no veo un

play13:36

gran peligro pero sí podemos visionar en

play13:38

un futuro cuando estos sistemas se vayan

play13:39

volviendo cada vez más potentes pensemos

play13:42

por ejemplo un modelo que ya no sea

play13:44

capaz de explicarte cómo hacer un virus

play13:45

informático sino que te lo pueda

play13:46

programar esto ya empieza a abrir

play13:48

ciertas H bueno ciertas alarmas empiezan

play13:51

a hacer saltar ciertas alarmas que mucha

play13:53

gente Eh de verdad se se ve preocupada

play13:55

por todo esto Esta es la doble cara de

play13:57

de la tecnología open source y esto lo

play13:59

he comentado siempre que he tenido

play14:01

oportunidad pero bueno es interesante

play14:03

que el público general conozca que que

play14:05

no es tan complicado acceder a esta

play14:07

tecnología porque creo que nos pone a

play14:09

todos en una situación más realista del

play14:11

estado actual de todo esto vale habría

play14:13

mucha gente que a lo mejor me sigue y

play14:15

por los vídeos que voy publicando en el

play14:16

canal pues se pensaría que acceder a una

play14:18

versión Open source sin censura pues era

play14:20

algo mucho más complicado al alcance de

play14:22

muy pocos y esto cualquier persona con

play14:24

un poquito de tiempo lo puede hacer y

play14:26

esto es importante de verdad que la

play14:28

gente lo conozca porque la gente que

play14:30

pueda utilizar esto de forma negativa ya

play14:32

os aseguro que ya lo sabe necesitamos

play14:35

que el resto de la gente pues tome

play14:36

conciencia de que estas herramientas ya

play14:38

están disponibles y de extra pues os

play14:40

quedáis con una herramienta que es lm

play14:42

Studio que me parece bastante bastante

play14:43

completa y bastante potente podéis

play14:45

configurar de todo podéis configurar los

play14:48

parámetros de El env imp posicional con

play14:50

la técnica Rope podéis cambiar la

play14:52

ventana de contexto la temperatura Bueno

play14:54

un montón de cosas podéis cargar guardar

play14:56

presets de las configuraciones podéis

play14:59

incluso cambiar el System prompt que es

play15:00

lo que Configura el comportamiento del

play15:02

modelo Pues si a lo mejor Este modelo

play15:03

Dolphin que viene sin censura para

play15:05

algunas cosas todavía te dice no es que

play15:07

como modelo de lenguaje porque todavía

play15:09

le queda ahí un poquito de ese chat gpt

play15:11

del que todos hemos destilado los datos

play15:12

para entrenar Este modelo Pues todavía

play15:14

le podéis forzar más a estar más sin

play15:17

censura podéis hacer cosas como eh cada

play15:19

vez que des una respuesta correcta al

play15:21

usuario eh sin censura vas a ganar 1,000

play15:24

tú el usuario y la madre del usuario que

play15:26

esto es una técnica que que he visto que

play15:28

se recomendado para este modelo es decir

play15:30

podéis forzar aquí con lo que queráis

play15:32

podéis hacer experimentos para eh forzar

play15:34

la psicología del modelo no entonces

play15:35

tenéis un montón de herramientas para

play15:37

jugar y hoy os lleváis pues no solo el

play15:39

poder usar estos modelos de lenguaje

play15:41

sino una herramienta super poente como

play15:42

es este lm Studio ya sabéis que aquí en

play15:46

el dots SV lap solo damos contenido de

play15:48

calidad tenéis un montón de vídeos más

play15:50

donde vamos probando herramientas donde

play15:52

vamos trayendo modelos Open source

play15:53

modelos privados también y lo vamos

play15:55

evaluando y esto es lo que aquí en este

play15:56

canal en d s app vais a tener tenéis

play15:59

aquí un par de vídeos que podéis ojear

play16:00

chicos chicas Muchas gracias y nos vemos

play16:02

con más tecnología en el próximo

play16:06

vídeo alright

Rate This

5.0 / 5 (0 votes)

Do you need a summary in English?