Recursos para usar la inteligencia artificial generativa en las aulas de clase

Por: Karen De la Hoz

Esta semana leí sobre el impacto de la inteligencia artificial generativa en las aulas de clase y encontré experiencias que vale la pena revisar, adaptar e incluso replicar. Me inquieta el bucle de profesores generando actividades con chatbots, estudiantes resolviendo esas actividades con chatbots y profesores evaluando de vuelta con chatbots. Para no ser un instrumento de esta tecnología, hay que abordarla sin miedo y con mucha creatividad. A continuación, algunas ideas y varias preguntas.

[ARTÍCULO] My class required AI. Here’s what I’ve learned so far, de ​​Ethan Mollick, profesor de Wharton School of the University of Pennsylvania. Una lectura muy recomendada para docentes que están pensando en formas de integrar la IA generativa en sus clases. Mollick describe en detalle el tipo de actividades que asignó a sus estudiantes y comparte las guías de trabajo que preparó para ellos: guías para utilizar la IA, escribir con ChatGPT y generar ideas con ChatGPT

[ARTÍCULO] A New Class of AI Tools, de Stanford GSE Office of Innovation and Technology. El texto se enfoca en los retos que supone la inteligencia artificial para la educación. Estas son algunas de las preguntas que plantea: ¿cuáles serán las futuras estrategias de evaluación si la IA se convierte en el nuevo procesador de textos? En la era de la proliferación de la IA, ¿cuáles son las futuras competencias en las que deberían centrarse las instituciones educativas? ¿Provocará una mayor inclusión o más disparidades en los resultados de los alumnos?

***
Prompts que utilicé para editar este post:
Eres un experto en gramática y un periodista y editor con amplia experiencia. Tienes excelente redacción y ortografía. Revisa este post. Corrige errores tipográficos, errores en signos de puntuación, errores en conjugaciones de tiempos verbales, redundancias y palabras repetidas.

Lista, uno a uno, todos los cambios que realizaste en el texto.

***
Tu alma quiere: ORDEN

Experimentando con ChatGPT para corregir gramática y ortografía en artículos periodísticos

Por: Karen De la Hoz

Recientemente participé en The Generative AI in the Newsroom Project, un proyecto promovido por el profesor e investigador Nick Diakopoulos para explorar los usos de la inteligencia artificial en la sala de redacción. El siguiente artículo, publicado originalmente aquí, resume mi exploración de ChatGPT para corregir redacción y ortografía:

La Silla Vacía, un reconocido medio nativo digital colombiano, tiene una sección llamada En Vivo. Todos los periodistas de la redacción hacen al menos un turno de 6 horas cada 15 días para actualizar esta sección. Su objetivo es narrar, a través de entradas de texto cortas y concisas, las principales noticias del momento. 

Reducir el número de errores de redacción, gramática y ortografía en el En Vivo, y en todas las secciones del sitio, es uno de los objetivos de periodistas y editores. Para facilitar esta labor comenzamos a experimentar con varios de los modelos de OpenAI (GPT-3.5 y GPT-4). 

El objetivo a mediano plazo es generar un círculo virtuoso: periodistas más conscientes de sus errores, que se editan en tiempo real y pasan menos errores a sus editores, que a su vez dedican menos horas a corregir errores sencillos y tienen más tiempo para ocuparse de labores más relevantes para el medio y para la audiencia.

Los resultados de nuestras pruebas son agridulces. El sistema identifica y corrige la mayoría de los errores. Sin embargo, en ocasiones indica haber corregido una frase, pero al revisar la frase “corregida», esta es exactamente igual a la original. Adicionalmente, como trabajamos con un sistema que no entrenamos con nuestro estilo de escritura, algunas de sus sugerencias, aunque son gramaticalmente correctas, no nos resultan relevantes. Por último, la creación y perfeccionamiento de prompts tarda más tiempo del que estimamos inicialmente.

A pesar de lo anterior, confío en que podemos alcanzar un punto en el que el sistema nos permita revisar la correcta aplicación de nuestro manual de estilo. La colaboración y la documentación compartida son clave en este proceso. En ningún escenario contemplamos publicar un texto corregido por ChatGPT sin que estas correcciones hayan sido aprobadas por un periodista o un editor humano.

A continuación describo mi proceso de experimentación con ChatGPT.

Randomness, system prompts y user prompts

Al iniciar este experimento quería lograr dos cosas: que el sistema hiciera correcciones a un texto y que el sistema me indicara en formato lista qué había corregido y por qué. Obtener una lista de errores y sugerencias me parecía la forma más óptima de sacar provecho de la AI y la forma más rápida de integrar sus sugerencias a un texto.

Este fue uno de los primeros prompts que utilicé en GPT-3.5 desde chat.openai.com: Actúa como un editor de estilo. Identifica e indícame errores gramaticales como redundancias, errores de concordancia en género y número o errores en los usos de los signos de puntuación. También indícame palabras mal escritas o typos e identifica cualquier incoherencia en el estilo del texto. Al mostrarme los resultados indícame la frase original, el error y la nueva redacción que me propones.

Empecé a notar que, aunque la instrucción era la misma, el sistema hacía cosas diferentes cada vez que interactuaba con él. Por sugerencia de Nick, comencé a hacer pruebas desde el Playground de OpenAI, una interfaz diferente la anterior, y entendí que había una variable llamada temperature a la que podía asignarle un valor de entre 0 y 2, y que entre más cerca fuera ese valor a 0 las respuestas del sistema serían más coherentes y predecibles; en otras palabras, menos aleatorias. Así entendí que podía controlar el “randomness”. 

En GPT-4 también empecé a distinguir entre “system prompts» y “user prompts”. El “system prompt» es el texto inicial que se da al modelo para establecer el contexto de la conversación. El “user prompt» se utiliza para orientar al modelo hacia el objetivo específico de la conversación.

Estas fueron algunas de las versiones de system prompt que utilicé: 

  • Actúa como un editor de estilo.
  • Actúa como un editor de estilo en un medio de comunicación. 
  • Eres un experto en gramática española y un editor en un medio de comunicación. 
  • Eres un experto en gramática española y un periodista y editor con amplia experiencia. Tienes habilidad para editar noticias, garantizar el uso correcto y preciso del lenguaje, la redacción y la ortografía. 
  • Eres un experto en gramática y un periodista y editor con amplia experiencia. Tienes excelente redacción y ortografía. (Este es mi favorito hasta ahora)

Para construir los user prompts revisé el Manual de estilo de La Silla Vacía e identifiqué una lista de errores que quería corregir usando ChatGPT. Lo que mejor me funcionó fue crear un prompt para cada norma y, cuando comprobaba que ese prompt funcionaba, intentaba construir prompts que integraran instrucciones que habían funcionado por separado. En la mayoría de los casos utilicé zero-shot prompt, aquellos en los que se da al sistema una descripción o una indicación de lo que se espera que pueda hacer, sin introducir ejemplos específicos. 

Para probar los prompts que había creado preparé un set de 5 textos de prueba y agregué intencionalmente los errores que quería que el sistema corrigiera. Si el sistema no corregía los errores hacía ajustes al prompt y volvía a intentarlo. En ninguno de los casos le indiqué al sistema lo que estaba haciendo mal, solo volvía a intentarlo. Cuando logré corregir los errores en los textos de prueba, hice pruebas en tiempo real con 15 artículos. Este fue uno de los prompts que utilicé:

Corrige typos, redundancias y palabras repetidas. Corrige cualquier error en el uso de signos de puntuación. Nunca separes el sujeto y el predicado por una coma. Usa comas antes y después de la información adicional. Usa comas después de expresiones de enlace. Corrige cualquier error en la conjugación de tiempos verbales. 

Como mi objetivo era tener las correcciones y sugerencias en formato lista, utilicé un segundo prompt para conseguirlo. Mi primera intuición fue crear un único user prompt que incluyera la indicación de corregir los errores y listar esos errores, pero como no obtuve buenos resultados decidí usar prompts separados. Así fue evolucionando este segundo prompt:

  • Indícame qué correcciones realizaste
  • Indícame todos los cambios que realizaste en el texto
  • Lista todos los cambios que realizaste en el texto
  • Lista, uno a uno, todos los cambios que realizaste en el texto

Nota: A finales de mayo, cuando estaba revisando la ortografía y gramática de este artículo, me di cuenta de que el prompt anterior no funcionaba tan bien como antes. El sistema comenzó a decirme «No se proporcionó ningún texto específico para corregir en la solicitud anterior. Por favor, proporcione el texto con los errores para que pueda hacer las correcciones y enumerar los cambios realizados». Hice un pequeño ajuste en el mensaje y eso solucionó el problema. Este fue el nuevo prompt:

  • Lista, uno a uno, todos los cambios que realizaste en el texto anterior.

Lo que me llamó la atención

  1. Correcciones de estilo: la sección En vivo usa un estilo cercano y mucha jerga política colombiana. Como el modelo no fue entrenado con el estilo de escritura de La Silla Vacía, en cada prueba obtuvimos sugerencias que, aunque gramaticalmente eran correctas, no nos resultaban útiles. 
  2. ¿Correcciones?: en algunos casos, el sistema presentaba como correcciones frases a las que no les había hecho ninguna modificación; es decir, la versión antes y después de la “corrección” eran exactamente iguales.   
  1. Manejo de citas directas: el sistema hacía cambios no esenciales en citas directas que se encontraban entre comillas. Entiendo que necesitaría indicaciones adicionales en el prompt para que el sistema pueda darles un tratamiento diferente a las citas directas. No hice pruebas adicionales para este tema.
  2. Sin alucinaciones ni información adicional: en ninguna de las 20 pruebas (las de errores introducidos ni las reales) el sistema agregó u omitió información diferente a la proporcionada.
  3. Gramática inglesa en las correcciones: la gramática española indica que el punto, la coma y el punto y coma se escriben siempre después de las comillas de cierre, en la gramática inglesa se escriben antes. A pesar de que todo este ejercicio se hizo todo en español (textos y prompts), al momento de listar las correcciones el sistema, en algunas ocasiones, usa gramática inglesa. 🤔
  4. Cambios de versión inesperados: este experimento y la retroalimentación de Nick me hicieron darme cuenta de la importancia de ser consciente de los cambios de versión en ChatGPT. Como usuarios, no tenemos ningún control sobre el sistema subyacente y éste podría cambiar de versión sin que nos diéramos cuenta, lo que podría afectar el funcionamiento de los prompts.

Conclusiones 

En resumen, las pruebas nos permitieron corregir errores en el uso de comas, errores en el uso de mayúsculas, errores de conjugación, errores tipográficos, eliminar palabras repetidas y mejorar la redacción de algunas frases. Por otro lado, recibimos sugerencias de estilo que no nos resultaron relevantes, y el modelo presentó como correcciones frases que no habían sido corregidas. Estos resultados se basan en pruebas con GPT-4 en modo chat; los parámetros utilizados fueron Temperature 0, Top 1, Frequency penalty 0 y Presence penalty 0. Las pruebas se realizaron entre abril y mediados de mayo de 2023. 

Finalmente, y aunque creo que la herramienta es útil, me pregunto si el Playground es la mejor interfaz para usar en el día a día en las salas de redacción para revisión de gramática y ortografía. Tal vez esto lo haría mejor otro sistema, tal vez es una interfaz más amigable con los parámetros deseados preestablecidos. Al tiempo me pregunto cuántas instrucciones diferentes puedo darle al sistema en un mismo prompt sin que esto afecte la calidad del resultado.

***
Agradecimiento: Gracias a Nick por su paciente acompañamiento y a María José Restrepo, periodista de La Silla Vacía, por su ayuda para probar los prompts. 

Using ChatGPT to Correct Spanish Grammar and Style in News Articles

Por: Karen De la Hoz

Recientemente participé en The Generative AI in the Newsroom Project, un proyecto promovido por el profesor e investigador Nick Diakopoulos para explorar los usos de la inteligencia artificial en la sala de redacción. El siguiente artículo, publicado originalmente aquí, resume mi exploración de ChatGPT para corregir redacción y ortografía:

La Silla Vacía, a well-known Colombian digital native media outlet focused on political coverage, has a section called En Vivo (Live). All the journalists in the newsroom work at least a 6-hour shift every 15 days to update this section. Its objective is to narrate, through short and concise text entries, the main news of the moment.

Reducing the number of writing, grammar and spelling mistakes in En Vivo, and in all sections of the site, is one of the objectives of journalists and editors. To facilitate this task, we began experimenting with OpenAI models (GPT-3.5 and GPT-4).

The medium-term goal is to generate a virtuous circle: journalists who are more aware of their mistakes, who edit themselves in real time and pass fewer errors on to their editors, who in turn spend fewer hours correcting simple errors and have more time to focus on tasks that are more relevant to the audience.

The results of our tests are bittersweet. The system identifies and corrects most errors. However, it sometimes indicates that it has corrected a sentence, but when we check the “corrected” sentence, it is exactly the same as the original. Additionally, since we are working with a system that we did not train with our writing style book, some of its suggestions, although grammatically correct, are not relevant to our site. Last but not least, creating prompts takes longer than we initially estimated.

Despite the above, I am confident that we can reach a point where the system allows us to review the correct application of our styling guide. Collaboration and shared documentation and experiences are key in this process. For the time being, we do not contemplate a scenario where we would publish a text corrected by ChatGPT without these corrections having been approved by a human journalist or editor.

Below I describe my experimentation process with ChatGPT.

Randomness, system prompts and user prompts

When I started this experiment I wanted to achieve two things: I wanted the system to make corrections to a text and I wanted the system to tell me in bullet point format what it had corrected and why. Getting a list of errors and suggestions seemed to me the most optimal and the fastest way to integrate ChatGPT suggestions into a text.

This was one of the first prompts I used in the ChatGPT interface (with URL “https://chat.openai.com/” ): Actúa como un editor de estilo. Identifica e indícame errores gramaticales como redundancias, errores de concordancia en género y número o errores en los usos de los signos de puntuación. También indícame palabras mal escritas o typos e identifica cualquier incoherencia en el estilo del texto. Al mostrarme los resultados indícame la frase original, el error y la nueva redacción que me propones.

(You are a style editor. Identify and point out grammatical errors such as redundancies, gender and number agreement errors, or errors in the use of punctuation marks. Also indicate misspelled words or typos and identify any inconsistencies in the style of the text. When you show me the results, please indicate the original sentence, the error and the new wording you propose).

I started to notice that, although giving the system the same instruction, the system did different things every time I interacted with it. At Nick Diakopoulos’ suggestion, I started testing on OpenAI Playground, a different interface from the previous one. Under Nick’s guidance I understood that there was a variable called temperature to which I could assign a value between 0 and 2, and that the closer that value was to 0, the more coherent and predictable the system responses would be. I decided to set the temperature parameter to 0 in this experiment.

In GPT-4 I also started to distinguish between system prompts and user prompts. The system prompt is the initial text given to the model to establish the context of the conversation. The user prompt is used to orient the model to the specific goal of the conversation.

These were some of the versions of system prompts that I tried out:

  • Actúa como un editor de estilo.
    (You are a style editor.)
  • Actúa como un editor de estilo en un medio de comunicación. Eres un experto en gramática española y un editor en un medio de comunicación. (You are a style editor in a media outlet. You are an expert in Spanish grammar and an editor in a media outlet.)
  • Eres un experto en gramática española y un periodista y editor con amplia experiencia. Tienes habilidad para editar noticias, garantizar el uso correcto y preciso del lenguaje, la redacción y la ortografía.
    (You are an expert in Spanish grammar and an experienced journalist and editor. You are skilled at editing news stories, ensuring correct and accurate use of language, writing and spelling.)
  • Eres un experto en gramática y un periodista y editor con amplia experiencia. Tienes excelente redacción y ortografía.
    (You are a grammar expert and an experienced journalist and editor. You have excellent writing and spelling skills.)
    [This is my favorite so far.]

To build the user prompts I reviewed the La Silla Vacía Styling book and identified a list of guidelines that I wanted to check using ChatGPT. What worked best for me was to create a prompt for each rule and, when I checked that the prompt worked, I tried to build larger prompts that integrated instructions that had worked separately. In most cases I used zero-shot prompts, those in which I give the system a description or an indication of what I expect it to be able to do, without introducing specific examples.

To test the prompts I prepared a set of five test texts and intentionally added the errors I wanted the system to correct. If the system did not correct the errors, I made adjustments to the prompt and tried again and again. In none of the cases did I tell the system what it was doing wrong, I just kept trying. When I succeeded, I ran a real time test with 15 articles. By real time test I mean that when an article was ready to be published I checked it with ChatGPT and took the suggestions that were relevant. This was one of the prompts I used on real time tests.

Corrige typos, redundancias y palabras repetidas. Corrige cualquier error en el uso de signos de puntuación. Nunca separes el sujeto y el predicado por una coma. Usa comas antes y después de la información adicional. Usa comas después de expresiones de enlace. Corrige cualquier error en la conjugación de tiempos verbales. (Corrects typos, redundancies and repeated words. Correct any errors in the use of punctuation marks. Never separate the subject and predicate by a comma. Use commas before and after additional information. Use commas after linking expressions. Correct any errors in the conjugation of verb tenses).

Since my goal was to have the corrections in list format, I used a second prompt to accomplish this. My first intuition was to create a single user prompt, but as I did not get good results, I decided to use separate prompts. This is how this second prompt evolved:

  • Indícame qué correcciones realizaste.
    (Tell me what corrections you have made)
  • Indícame todos los cambios que realizaste en el texto.
    (List all the changes you have made in the text.)
  • Lista, uno a uno, todos los cambios que realizaste en el texto
    (List, one by one, all the changes you made in the text).
    [This is my favorite so far]

Note: By the end of May, when I was checking the grammar for the Spanish version of this article, I noticed that the prompt above was not working as well as before. The system started to tell me “No specific text to correct was provided in the above request. Please provide text with errors so that I can make corrections and list the changes made”. I did a little adjustment to the prompt and it fix the problem:

  • Lista, uno a uno, todos los cambios que realizaste en el texto anterior.(List, one by one, all the changes you made in the previous text).
On the left, article with errors added; on the right, ChatGPT-4 corrections and suggestions.
On the left, article with errors added; on the right, ChatGPT-4 corrections and suggestions.
Corrections and suggestions listed.

What caught my eye

Useless styling corrections: Our En vivo section uses Colombian political jargon. Since ChatGPT-4 was not trained with the writing style of La Silla Vacía, in each test we obtained suggestions that, although grammatically correct, were not useful.

Non-corrections: in some cases, the system presented as corrections some sentences to which no modifications had been made, i.e. the version before and after the “correction” were exactly the same.

Handling of direct quotes: the system was making non-essential changes to direct quotes that were in quotation marks. I understand that I would need additional prompts so that the system could treat direct quotes differently. I did not do additional testing for this issue.

No hallucinations or additional information: in none of the 20 tests (those of introduced errors nor the real time ones) did the system add or omit information different from that provided.

English grammar in the corrections: Spanish grammar indicates that the period, comma and semicolon are always written after the closing quotation marks, in English grammar they are written before. Although this whole exercise was done in Spanish (texts and prompts), when listing the corrections from the system, in some cases, it uses English grammar rules. 🤔

Unexpected version changes: this experiment and Nick’s feedback made me realize the importance of being aware of version changes in ChatGPT. As users, we don’t have any control over the underlying system and this could change versions without us even realizing which could impact performance of prompts.

Conclusions

In summary, the tests allowed us to correct errors in the use of commas, errors in the use of capital letters, conjugation errors, typographical errors, eliminate repeated words and clarify some sentences. We also received style suggestions that were not relevant to us, and the model presented non-corrections to us. These results are based on tests with GPT-4 in chat mode in the OpenAI Playground; the parameters used were Temperature 0, Top 1, Frequency penalty 0 and Presence penalty 0. The test was run between April and mid-May 2023.

Finally, and although I think the tool is useful, I wonder if Playground is the best interface to use on a day-to-day basis in newsrooms for grammar and spell checking. Perhaps this would be better done by another system, something with a more user-friendly interface and the desired parameters preset. At the same time, I wonder how many different instructions I can give the system in the same prompt without affecting the quality of the result. I will continue experimenting and sharing my findings in my blog nochesdemedia.com

***Acknowledgements: Thanks to Nick for his patient support, and to María José Restrepo, journalist at La Silla Vacía, for her help in testing the prompts.

Recursos para entender Google Analytics 4, un curso sobre membresías de Membership Puzzle Project y una entrevista a Geoffrey Hinton

Por: Karen De la Hoz

Buscando documentación sobre programas de membresías volví a recorrer el maravilloso archivo que nos dejó el Membership Puzzle Project, y que espero que mantengan siempre en línea, allí encontré un curso por correo electrónico que no había notado antes. También sumé nuevos recursos para entender Google Analytics 4 y escuché un episodio del pódcast The Daily sobre inteligencia artificial.

[ARTÍCULOS] Me hacía falta un buen glosario para darle sentido a lo que veo en Google Analytics 4. Lo encontré en la documentación de Google en un recurso llamado [GA4] Dimensiones y métricas de Analytics. Por otro lado, buscando replicar los segmentos de usuarios leales, casuales y amantes de marca que había construido en Google Analytics Universal, Cecilia Bazan me recomendó [GA4] Crear, editar y archivar audiencias, y era justo lo que necesitaba.

[CURSO POR CORREO] El Membership Puzzle Project es todo lo que alguien necesita para conceptualizar, lanzar y hacer crecer un programa de membresías. Volviendo a explorar su biblioteca de recursos descubrí un curso por correo electrónico, puedes encontrarlo en The Membership Guide Newsletter Course.

[UN PODCAST] The Daily reproduce y comenta una entrevista del periodista Cade Metz con Geoffrey Hinton, el apodado ‘Padrino’ de la inteligencia artificial. El episodio recorre la vida e inquietudes profesionales de Hinton, que es a su vez un recorrido por la evolución de la inteligencia artificial, y ahonda en sus preocupaciones acerca de la evolución de la IA.

Ñapa: de mi consumo cultural te recomiendo un episodio sobre el valor de decir «no», del pódcast Tercera Vuelta, de Alejandro Gaviria y Ricardo Silva Romero.  

***
Prompts que utilicé para editar este post:
Eres un experto en gramática y un periodista y editor con amplia experiencia. Tienes excelente redacción y ortografía. Revisa este post. Corrige errores tipográficos, errores en signos de puntuación, errores en conjugaciones de tiempos verbales, redundancias y palabras repetidas.

Lista, uno a uno, todos los cambios que realizaste en el texto.

***
Tu alma busca: PACIENCIA