Convertir texto de una página web (html) con imágenes a markdown .md incluidas las imágenes, con pandoc en Linux

 Como requerimiento usaremos LibreOffice o WPS Office y necesitamos tener instalado a pandoc, así:

sudo apt install pandoc


Ahora bien, tengo el texto con imágenes de la siguiente entrada en Blogger:

https://facilitarelsoftwarelibre.blogspot.com/2020/10/instalar-realtime-kernel-en-mx-linux.html


primero debo seleccionar todo el texto con las imágenes y copie:


ahora peguelo en LibreOffice:


y guarde el documento como docx:


y abra una terminal en la carpeta donde guardó el archivo, que yo le puse como nombre:

jack-audio-rt-y-avl.docx


 y ponga el siguiente comando:

pandoc --extract-media=. jack-audio-rt-y-avl.docx -o README.md

así:


pero por cierto, usted deberá usar el nombre de su archivo, el mío lo tengo sin espacios, pero si el nombre de su archivo tuviera espacios ejemplo: 

mi nombre de archivo.docx

usted deberá escribir en la terminal así:

"mi nombre de archivo.docx"

y el comando sería así:

pandoc --extract-media=. "mi nombre de archivo.docx" -o README.md

y con el archivo de salida, yo le puse de nombre README.md pero usted le puede poner otro, y si le quiere poner varias palabras y con espacios entre ellas ejemplo:

archivo de salida.md

usted deberá escribirlo así:

"archivo de salida.md"

Ahora abra el archivo de salida con ejemplo Typora Linux:


y como vemos el archivo markdown contiene las imagenes que estaban en el blog (html):


ahora, sabía que el archivo creado y la carpeta se pueden poner en github para crear un README:


lo cual es justo lo que he hecho:


mi archivo markdown contiene en github todas las imagenes que tenía en blogger:

https://github.com/wachin/Como-instalar-un-Kernel-en-Tiempo-Real-en-MX-Linux

revisen y me dicen


Nota: este tutorial también lo tengo en github.

La unica falla es que debajo de las imagenes están los tamaños de la imagen:




CONSULTAS

Pandoc convert docx to markdown with embedded images










Comentarios