课时03:纯文本与超文本¶
学习目标:明确纯文本与超文本(非纯文本)的本质差异,理解 HTML 作为纯文本文件的定位,建立开发者对文件格式与体积的正确认知。
一、纯文本(Plain Text)的定义与特征¶
1.1 核心定义¶
纯文本是指仅包含文字字符、不承载任何格式信息或嵌入资源的文件类型。其核心特征:
- 内容单一性:仅包含文字内容,不支持图片、音频、视频等富媒体元素
- 格式不可传输:不保存文字的样式信息(如字体、字号、颜色、加粗、对齐方式等)
- 跨平台一致性:在不同设备或编辑器中打开时,仅显示原始字符,不保留发送方设置的格式
1.2 常见格式¶
| 格式 | 说明 |
|---|---|
.txt |
最基础的纯文本格式 |
.html |
网页标记语言文件,本质为纯文本 |
.css |
层叠样式表文件,本质为纯文本 |
.js |
JavaScript 脚本文件,本质为纯文本 |
.json |
数据交换格式文件,本质为纯文本 |
.md |
Markdown 标记文件,本质为纯文本 |
1.3 格式传输实验验证¶
在文本编辑器中设置文字格式(如 48 号字号、红色、加粗)后保存为 .txt 文件:
- 在同一编辑器中重新打开:格式可能被编辑器记忆显示
- 在其他设备或编辑器中打开:所有格式丢失,仅显示原始字符
- 发送至手机查看:格式完全丢失
结论:纯文本文件本身不保存格式信息,编辑器记忆显示不代表格式被实际保存。
二、超文本(非纯文本)的定义与特征¶
2.1 核心定义¶
超文本(Hypertext / Rich Text) 是指包含额外格式标记、样式信息或嵌入资源的文件类型。在广义语境中,"非纯文本"通常指具有排版标记能力的文件格式。
2.2 常见格式¶
| 格式 | 说明 | 典型应用 |
|---|---|---|
.doc / .docx |
Microsoft Word 文档 | 办公文档排版 |
.ppt / .pptx |
PowerPoint 演示文稿 | 幻灯片制作 |
.xls / .xlsx |
Excel 电子表格 | 数据表格处理 |
.pdf |
便携式文档格式 | 跨平台文档分发 |
.rtf |
富文本格式 | 跨平台基础排版 |
2.3 非纯文本的空间构成¶
以 Word 文档为例,即便仅输入少量文字,文件体积通常也显著大于同内容的 .txt 文件:
- 文本内容本身:与纯文本相同的字符数据
- 默认样式信息:页面边距、默认字体(如微软雅黑)、默认字号等
- 排版元数据:段落间距、行高、页眉页脚等格式控制指令
- 文件结构信息:文档版本、修订记录、作者信息等元数据
实验对比:相同文字内容下,
.txt文件可能仅占用数十字节,而.docx文件可能占用 10KB 以上。
三、核心差异对比¶
| 对比维度 | 纯文本 | 非纯文本(超文本) |
|---|---|---|
| 内容范围 | 仅文字字符 | 文字 + 格式 + 媒体 + 元数据 |
| 格式传输 | 不保存、不传输格式 | 保存并传输完整样式信息 |
| 文件体积 | 极小(字节级) | 较大(千字节级起) |
| 编辑工具 | 任何文本编辑器 | 专用软件(如 Word) |
| 跨平台一致性 | 高度一致 | 依赖软件版本与兼容性 |
| 人类可读性 | 直接可读 | 需专用软件解析 |
四、开发者视角:为什么偏爱纯文本¶
4.1 技术层面的优势¶
- 轻量高效:纯文本文件体积极小,传输与加载速度快
- 版本控制友好:纯文本的差异可被 Git 等版本控制工具精确追踪,便于协作与回溯
- 跨平台兼容:任何操作系统、任何设备均可直接读取,无需特定软件
- 可编程处理:易于通过脚本(Python、Shell、Node.js)进行自动化处理、批量替换与数据分析
4.2 HTML 是纯文本文件¶
HTML 文件虽然在浏览器中渲染为富媒体页面,但其源文件本质是纯文本:
- 由文本编辑器编写保存
- 仅包含标签标记和文字内容
- 图片、音频等富媒体通过路径引用而非直接嵌入文件
- 样式由独立的 CSS 文件控制(或内联样式属性描述)
关键认知:HTML 的 "超文本标记语言" 名称中的 "超文本" 指的是通过链接互联的文本网络,而非文件格式层面的 "非纯文本"。HTML 源文件本身属于纯文本范畴。