La herramienta de escritura Word de Microsoft pronto podrá grabar y transcribir audio, lo que marca una evolución solicitada durante mucho tiempo por todos, desde estudiantes hasta periodistas y ejecutivos de Microsoft. Pero tiene características sorprendentemente limitadas en comparación con la competencia.

La nueva tecnología de transcripción, que estará disponible de forma gratuita para los suscriptores de Microsoft 365 que escriban con Word a través de un navegador Web, permite a las personas grabar y cargar archivos de audio para que se transcriban con frecuencia en cuestión de segundos. En unas pruebas con reporteros el lunes 24 de agosto, Microsoft demostró que la herramienta funciona muy bien, grabando sonido desde las bocinas de una computadora al micrófono interno (por lo tanto, no hay audífonos enchufados). Las personas también pueden cargar audio pregrabado al servicio.

Pero ahí es donde terminan sus características que coinciden con su competencia y donde la lista de cosas que no puede hacer comienza a acumularse.

La función de transcripción solo funciona en la versión Web de Word, no en sus aplicaciones de escritorio de Windows o Mac, ni en las versiones móviles. Microsoft dijo que espera tener la tecnología disponible para teléfonos y tabletas para fin de año, pero no se compromete a ofrecer la tecnología para las aplicaciones de escritorio.

Otros competidores, como las herramientas de transcripción creadas por Google para teléfonos con su software Android, pueden trabajar con más idiomas o sin conexión a Internet. Y aplicaciones como Otter.ai, por ejemplo, ofrecen búsquedas, marcas y uso compartido más sencillo.

Microsoft dijo que lo que ofrece frente a los competidores es la simplicidad de grabar, almacenar y acceder a las transcripciones dentro de su conjunto de aplicaciones.

“Estamos realmente en una posición única para ayudar a proporcionar una ventanilla única, donde el audio, la transcripción de la grabación, las notas y, en última instancia, tu historia pueden convivir dentro de una única herramienta segura y familiar”, dijo Dan Parish, gerente de programa de grupo de Microsoft que trabajó en esta nueva función. Parish dijo que la tecnología surgió del esfuerzo de Microsoft para ayudar a las personas a “dedicar menos tiempo y energía a crear su mejor trabajo y realmente concentrarse en lo que más importa”.

La decisión de Microsoft de ofrecer tecnología de transcripción marca un cambio que incluso la compañía admitió que tardó en llegar. Las personas confían cada vez más en la tecnología habilitada por voz para muchos aspectos de sus vidas, ya sea para subir el volumen de la música mientras cocinan, para enviar un mensaje de texto mientras conducen o buscar una película en su dispositivo de TV inteligente. Incluso el gobierno de EE.UU. confía en la transcripción de voz automatizada para ayudar a mantener registros de algunas de las llamadas telefónicas del presidente.

A medida que las personas se adaptan cada vez más a trabajar fuera de la oficina, Microsoft dijo que su software de transcripción puede ayudar, tanto para tomar notas como para actuar como una tercera mano si un niño o una mascota nos interrumpe repentinamente durante una reunión o sesión de lluvia de ideas.

Pero Microsoft admitió que tiene limitaciones que espera mejorar.

Por ejemplo, Microsoft dijo que también permitirá a las personas grabar audio ilimitado si usan un navegador Web, pero los limita a 300 minutos (5 horas) por mes si graban y cargan más tarde, como si están en un aula con una mala conexión a Internet. Microsoft también dijo que cada archivo de audio que la gente cargue tiene que ser de 200MB, o alrededor de 75 minutos de grabación MP3 mono de baja calidad. Al igual que otros servicios, las personas pueden cargar archivos MP3, WAV, MP4 y M4A, aunque otros servicios como Otter.ai también ofrecen soporte para varios archivos de películas, como AVI, MOV y MPG.

Microsoft también dijo que si bien la transcripción de una grabación realizada en Word ocurrirá a los pocos momentos de presionar detener, en parte porque Microsoft realmente está transcribiendo detrás de escena, un archivo de audio cargado podría tardar tanto como la grabación en transcribirse.

Pero Microsoft dijo que se ve a sí misma “definitivamente en la cima de la industria” en términos de cuán preciso es su servicio. Eso es en parte gracias a sus conexiones con la tecnología Azure Cognitive Services, que ha estado perfeccionando durante años.

“En general, obviamente, nos sentimos bastante confiados en la calidad que estamos produciendo aquí”, dijo Parish..