捕获和转换Web的工具

GrabzIt如何将HTML转换为DOCX

HTML 可以表示许多复杂的结构,例如内联 DIV 或并排的 SPAN。 HTML 元素重叠,并且边框应用于不同的 HTML 元素。 在大多数情况下,这在 DOCX 中不是一个明智的方法,尽管可以创建 float将 HTML 元素与文本框一起使用会导致几乎所有内容都包含在文本框中,从而导致 Word 文档非常难看且混乱。

正是因为这个问题,我们忽略了 floatHTML 元素和大多数 HTML 元素的边框。 然而,我们确实尊重一些 HTML 元素的边框,例如表格单元格和图像元素的对齐方式。

这是否意味着您无法并排放置内容? 不。这仍然可以通过使用 列 CSS 属性、HTML 表格和制表位如下所述。

如果您希望捕获的 HTML 文档与屏幕上显示的完全一样,那么最好 将 HTML 转换为 PDF 因为 PDF 文件格式使用绝对定位。

制表位

制表位 是一个特殊的 DOCX 功能,如果 float具有文本对齐方式的 HTML 元素包含在 100% 宽度的 HTML 元素内,该元素本身没有特定的文本对齐方式。 这很重要,因为它意味着正常对齐不应应用于子元素。 这是通过使用完成的 text-align:start。 请注意,制表位在表格或列表中不起作用。

下面显示了一个示例。

<div style="width:100%;text-align:start">
   <div style="width:50%;text-align:left;float:left">Aligned One</div>
   <div style="width:50%;text-align:left;float:left">Aligned Two</div>
</div>

文本语言

使 DOCX 文档中的文本具有特定的语言。 这 HTML HTML 文档的 tag 元素需要有一个 lang 属性。 或者 HTML 文档中的另一个 HTML 元素,例如 P 标签需要指定一个 lang。

如果子 HTML 元素没有指定 lang 标记,则语言将回退到文档默认值。 如果未指定,则使用英语。