Unicode vs Ansi

技术2022-05-11 110

以前都是只知道这样用,没仔细想过到底为什么要这样用.刚好碰到篇文章,解释了某些我以前在概念上不大清楚的内容,呵!对我有用就得了,我想大侠的话,你就没必要看这篇文章了吧!原文如下:

Unicode vs Ansi (转贴自:广宇程序园 )

******************************************************************************* Visual Basic 32-bit 版本的字串处理采用 Unicode，也就是说字串在 VB 内部是以Unicode 的格式来存放。何谓 Unicode？简单的说，就是每一个字元都是以 2-byte 的型式表示，而每个「实体字元」就是一个「字元」。因此，Len("大家好")Len("abc")所传回的值都是 3，因为「大」和「a」都是一个字元。但是这对一些中文字串处理，例如纯文字的资料档，却是一个大灾难，因为你必须以byte 来定位每个字元，可是 Unicode 却把一切的处理全搞砸了。例如：Len("Good Morning") 传回 12，而Len("今天天气很好") 传回 6对初学者而言，好不容易能使用 VB 来写程式已经是件了不起的事了，却马上在中文处理上挨了一记闷棍，所受到的打击实在不小。但是不要怕，事实上只要再多了解一些指令，就可以把中文处理的问题解决了。是什麽指令呢？最重要的莫过於 StrConv 了。StrConv 函式的语法为：StrConv(待转换字串, 转换格式)其中转换格式在这里用到的是：vbUnicode 将 Ansi 字串转换为 UnicodevbFromUnicode 将 Unicode 字串转换为 Ansi将字串转成 Ansi 之後，所有的字串处理指令都要加个 B，例如：LeftB, RightB,MidB, ChrB, InstrB, LenB, InputB 等。例用这些指令来处理就行了。当你处理完毕之後，你可以再将它再转回 Unicode，这样就可以使用一般的字串处理指令了。这样讲看得懂吗？如果还是不了解，看看下面的实例说明：[●] 简易使用范例看看下面的基本范例您应该就会对 VB 的字串处理方式有些概念。Private Sub Command1_Click ()Dim sUnicode As StringDim sAnsi As String' Unicode 运算sUnicode = "王小明,A123456789,651023,台北市中山路100号,(02)2345678"Debug.Print Len(sUnicode) ' 传回 44Debug.Print Mid$(sUnicode, 5, 10) ' 传回 A123456789Debug.Print Instr(sUnicode, "台北市") ' 传回 23' 将 Unicode 字串转成 AnsisAnsi = StrConv(sUnicode, vbFromUnicode)' Ansi 运算Debug.Print LenB(sAnsi) ' 传回 54Debug.Print MidB$(sAnsi, 8, 10) ' 传回 ?????，因为忘了转回 UnicodeDebug.Print StrConv(MidB$(sAnsi, 8, 10), vbUnicode) ' 传回 A123456789，请注意转回 Unicode 的动作一定要做Debug.Print InStrB(sAnsi, StrConv("台北市", vbFromUnicode)) ' 传回 23, 不要忘了要把"台北市"也转成 Ansi，否则会找不到End Sub[●] 读入文字档在 VB 的小技巧中，有一个是快速读档法：Private Sub Command1_Click ()Dim sFile As StringOpen "C:/filename.txt" For Input As #1sFile = Input$(LOF(1), #1)Close #1End Sub但是很不幸地，如果你读取的档案内含中文字，那上面这段程式会出现 Input pastend of file 的错误。因为 LOF 传回的是档案的 byte 数，而 Input 函式读取的是字元数，由於档案内含中文，因此档案中的字元数将会小於 byte 数，於是就发生错误了。要解决这个问题，我们就要用到 StrConv 和 InputB 这两个函式了：Private Sub Command1_Click ()Dim sFile As StringOpen "C:/filename.txt" For Input As #1sFile = StrConv(InputB$(LOF(1), #1), vbUnicode)Close #1End Sub上面修正程式先用 InputB 将档案读进来，不过使用 InputB 所读入的档案是 Ansi格式的，所以要再用 StrConv 转成 Unicode 才行。[●] 随机资料档许多文字资料档是以固定位元组的位置来加以区格，例如下面的资料格式：王小民650110台北市中山路100号 (02)1234567张大呆660824花莲县大甲镇广东街23号(03)9876543......像这种类型的档案要如何处理呢？这是就必须用到 Type 以及 byte array 了。Private Type tagRecordUsername(5) As Byte ' 姓名 6 bytesBirthday(5) As Byte ' 生日 6 bytesAddress(21) As Byte ' 地址 22 bytesTEL(11) As Byte ' 电话 12 bytesCrLf(1) As Byte ' 换列字元 2 bytesEnd TypePrivate Sub Command1_Click()Dim uRecord As tagRecordOpen "C:/filename.dat" For Random As #1 Len = LenB(uRecord)Get #1, 2, uRecord ' 取第二笔资料With uRecord ' With ... End With 应该会用吧Debug.Print .Username ' 传回 ???Debug.Print StrConv(.Username, vbUnicode) ' 传回 "张大呆"End WithClose #1End Sub在这个例子中，一定要用到 byte array，因为只有 byte array 才能正确地定位到每个 byte 的位置。以前使用字串来定位的方法已经不适用了，千万要记住！但是使用byte array 所读入的资料是 Ansi 格式，若要处理或是做运算的话，记得还要转成Unicode 格式才行。[●] 使用 Byte Array除了上面必须使用 byte 精确定位的例子之外，纯文字的处理基本上是用不到 bytearray 的。byte array 通常是用在处理 binary 资料

专利

最新回复(0)