关于文本文件的格式------回车换行符(CRLF)

技术2022-05-11 92

以前也看到EditPlus里面文本文件可以设置PC/UNiX/MAC三种格式，UltraEdit中可以设置DOS格式和Unix格式，一直不知道区别在那里。

今天在使用boost::tokenizer按'/n'切割字符时，发现从文件中读到的字符串无法进行正常切割。回想起在用EditPlus打开文件时，会提示文件中包含不合法的回车换行符，是否进行转换云云。看来碰到格式的问题了。当时只好采用别的方法绕了过去。回来查找资料，终于被我找到了。

原来回车(CR)和换行(LF)符都是用来表示“下一行”的。而标准没有规定要使用哪一个。于是产生了三种不同的用法：Dos和windows采用回车+换行(CR+LG)表示下一行（亦即所谓的PC格式，谁让MS最早雄踞PC市场呢，^_^），UNIX采用换行符（LF）表示下一行，MAC机采用回车符（CR）表示下一行。当在不同的系统间传递文件，就要涉及格式的转换。又长见识了。。原始链接如下：Unix和Windows間的文字檔轉換

在用電報通訊的年代，人們發明了一種用7bits把常用的英文和標點編碼的方法 — 這就是至今還在電腦世界應用的ASCII。

電報機每當打印到一行結尾時便需要「跳進下一行」並「回到第一格」，因此ASCII有LF(Line Feed, 0×0A) 和CR(Carriage Return, 0×0D)。在電腦的世其實並不需要用兩個字符代表「下一行」的意思，為了省資源，在設計OS時一些人就決定用其中一個字符代表「下一行」¹，因為大家選擇不同，做成了不同系統的「下一行」符號不同的問題。

這問題常見於在 Windows 上傳一些檔案到 Unix Server 中，如果不經轉換 Unix 會見到一些古怪符號 (顯示成^M的CR字符)。如果己經有一堆Windows的文字檔，怎樣把它們轉換成Unix的文字檔？不用自己寫轉換軟件，你可以使用Unix command tr (translate) 或 sed (Stream Editor)：

# USE tr TO REMOVE CR CHARACTERtr -d '/r' < oldfile > newfile

# USE sed, IN UNIX ENVIRONMENT: convert DOS newlines (CR/LF) to Unix formatsed 's/.$//' # assumes that all lines end with CR/LFsed 's/^M$//' # in bash/tcsh, press Ctrl-V then Ctrl-M

# USE sed, IN UNIX ENVIRONMENT: convert Unix newlines (LF) to DOS formatsed "s/$/`echo -e ///r`/" # command line under kshsed 's/$'"/`echo ///r`/" # command line under bash

专利

最新回复(0)

关于文本文件的格式------回车换行符(CRLF)

以前也看到EditPlus里面文本文件可以设置PC/UNiX/MAC三种格式，UltraEdit中可以设置DOS格式和Unix格式，一直不知道区别在那里。

相關連結：

专利