跳转至

课时03:纯文本与超文本

学习目标:明确纯文本与超文本(非纯文本)的本质差异,理解 HTML 作为纯文本文件的定位,建立开发者对文件格式与体积的正确认知。


一、纯文本(Plain Text)的定义与特征

1.1 核心定义

纯文本是指仅包含文字字符、不承载任何格式信息或嵌入资源的文件类型。其核心特征:

  • 内容单一性:仅包含文字内容,不支持图片、音频、视频等富媒体元素
  • 格式不可传输:不保存文字的样式信息(如字体、字号、颜色、加粗、对齐方式等)
  • 跨平台一致性:在不同设备或编辑器中打开时,仅显示原始字符,不保留发送方设置的格式

1.2 常见格式

格式 说明
.txt 最基础的纯文本格式
.html 网页标记语言文件,本质为纯文本
.css 层叠样式表文件,本质为纯文本
.js JavaScript 脚本文件,本质为纯文本
.json 数据交换格式文件,本质为纯文本
.md Markdown 标记文件,本质为纯文本

1.3 格式传输实验验证

在文本编辑器中设置文字格式(如 48 号字号、红色、加粗)后保存为 .txt 文件:

  1. 在同一编辑器中重新打开:格式可能被编辑器记忆显示
  2. 在其他设备或编辑器中打开:所有格式丢失,仅显示原始字符
  3. 发送至手机查看:格式完全丢失

结论:纯文本文件本身不保存格式信息,编辑器记忆显示不代表格式被实际保存。


二、超文本(非纯文本)的定义与特征

2.1 核心定义

超文本(Hypertext / Rich Text) 是指包含额外格式标记、样式信息或嵌入资源的文件类型。在广义语境中,"非纯文本"通常指具有排版标记能力的文件格式。

2.2 常见格式

格式 说明 典型应用
.doc / .docx Microsoft Word 文档 办公文档排版
.ppt / .pptx PowerPoint 演示文稿 幻灯片制作
.xls / .xlsx Excel 电子表格 数据表格处理
.pdf 便携式文档格式 跨平台文档分发
.rtf 富文本格式 跨平台基础排版

2.3 非纯文本的空间构成

以 Word 文档为例,即便仅输入少量文字,文件体积通常也显著大于同内容的 .txt 文件:

  • 文本内容本身:与纯文本相同的字符数据
  • 默认样式信息:页面边距、默认字体(如微软雅黑)、默认字号等
  • 排版元数据:段落间距、行高、页眉页脚等格式控制指令
  • 文件结构信息:文档版本、修订记录、作者信息等元数据

实验对比:相同文字内容下,.txt 文件可能仅占用数十字节,而 .docx 文件可能占用 10KB 以上。


三、核心差异对比

对比维度 纯文本 非纯文本(超文本)
内容范围 仅文字字符 文字 + 格式 + 媒体 + 元数据
格式传输 不保存、不传输格式 保存并传输完整样式信息
文件体积 极小(字节级) 较大(千字节级起)
编辑工具 任何文本编辑器 专用软件(如 Word)
跨平台一致性 高度一致 依赖软件版本与兼容性
人类可读性 直接可读 需专用软件解析

四、开发者视角:为什么偏爱纯文本

4.1 技术层面的优势

  1. 轻量高效:纯文本文件体积极小,传输与加载速度快
  2. 版本控制友好:纯文本的差异可被 Git 等版本控制工具精确追踪,便于协作与回溯
  3. 跨平台兼容:任何操作系统、任何设备均可直接读取,无需特定软件
  4. 可编程处理:易于通过脚本(Python、Shell、Node.js)进行自动化处理、批量替换与数据分析

4.2 HTML 是纯文本文件

HTML 文件虽然在浏览器中渲染为富媒体页面,但其源文件本质是纯文本

  • 由文本编辑器编写保存
  • 仅包含标签标记和文字内容
  • 图片、音频等富媒体通过路径引用而非直接嵌入文件
  • 样式由独立的 CSS 文件控制(或内联样式属性描述)

关键认知:HTML 的 "超文本标记语言" 名称中的 "超文本" 指的是通过链接互联的文本网络,而非文件格式层面的 "非纯文本"。HTML 源文件本身属于纯文本范畴。