java中大小端问题研究
关于大小端在内存中的存储
最近在学习读取音频格式文件的时候碰到一个问题,因为音频文件中有四个字节的int型是以little-endian
形式存储的,需要转换为java中的big-endian
模式。int转byte[]相对简单,只需要做位移缩窄就行了,但是byte[]转int的时候涉及到负数的问题,负数在计算机内中是以补码的形式存在的,容易出现一些问题。
数据是以二进制(0,1)的形式存储在计算机中,每一个这样的数据被称为bit,bit只能是0或者1,将8个bit位定义为一个byte,这样一个byte就能表示2^8个数据。java中1个字节就是1byte,short类型占2byte,int类型占4byte,long类型占8byte,float类型占8byte,double类型占16byte。
下面主要讲一下byte和int之间的转换。
java中没有unsinged类型,也就是byte只能是有符号类型,为了表示正负号,一般使用最高位来表示正负。比如byte i=6
,转为二进制码为0000 0110
,,在内存中存储如下:
1 | +------------------------------+ |
负数的存储相对比较麻烦,是以补码的形式存储的,补码就是对原有的正数所有的位取反码然后加1;
比如byte i=-6
,则相当于对6取反码然后加1;
1 | 0000 0110 取反码为 1111 1001 |
则可以得到最后的结果为11111010
,在内存中存储如下:
1 | +------------------------------+ |
此处可以有一个简单的验证方法,即原码+补码会越位进1。
1 | 0000 0110 |
在内存中存储是以byte为单位的,在byte拼接的过程中就演化除了两种形式:little-endian
,big-endian
little-endian
适用于机器读懂的顺序,它是前边的地址存储低位的byte,后边的地址存储在高位的地址。
安卓的jni中全部采用little-ednain
,int i=6
,转换为2进制表示为0000 0110 0000 0000 0000 0000 0000 0000
在内存中的表示:
1 | +-----------------+---------------+---------------+---------------+ |
big-endian
适用于人类读的顺序,前边的地址存储高位的byte,后边的地址存储低位的地址。
java中int类型的存储方式是big-endian
,int i=6
,转换为2进制表示为0000 0000 0000 0000 0000 0000 0000 0110
,
在内存中的表示:
1 | +-----------------+---------------+---------------+---------------+ |
同样对于int i=-6
的计算也类似于byte的计算,先取反码再加1,然后排序:
1 | big-endian: |
利用位运算来进行大小端转换
接下来讲一下如何在byte[]和int之间转换
1 | int num=1505; |
这样的一个整数,在java内存以二进制形式表示为:
1 | +-----------------+---------------+---------------+---------------+ |
1 | byte[0]=00000000=0; |
这里只说一下最后一个字节是如何算出来的,11100001是一个负数,负数是原码取反加1,想获得源码需要先减1,得到11100000,再取反码得到00011111,计算可得是31,由于是负数所以取-31。
这样就完成了int到byte[]的转换。
想要byte[]转int只需将数组拼接起来即可。在操作的过程中要注意一点,byte执行位运算会自动转换为int型,并且补前边的位的时候是自动补上的符号位。
比如前边的result转换为int后如下:
1 | byte[0]=00000000 00000000 00000000 00000000; |
这个时候我们就需要使用最常见的&0xff
来处理前边的符号位了。
首先写一个简单的程序来将int转换为big-endian的byte:
1 | private static byte[] intToByteBig(int i) { |
假如要转换成little-endian,只需要调整字节排放顺序:
1 | private static byte[] intToByteLittle(int i) { |
同理我们可以得出一个方法来让byte转int:
1 | private static int bigByteToInt(byte[] b) { |
1 | private static int littleByteToInt(byte[] b) { |
关于这个工具类我上传到了我的github,有需要的朋友可以直接复制粘贴。
关于ByteBuffer的使用
其实上边的内容理解了原理就可以了,在java中已经有封装好的类来实现真正的big-endian和little-endian的转换。
ByteBuffer中有一个方法是order(),这个方法接收一个参数,这个参数就可以来进行大小端转换:
- BIG-ENDIAN 在ByteBuffer中以big-endian形式存储
- LITTLE-ENDIAN 在ByteBuffer中以little-endian形式存储
看一段示例代码
1 | public static short littleByteToShort(byte[] data) { |
这个方法是little-endian转换为short。ByteBuffer.allocate(data.length)
分配了2个字节的byteffuer,order(ByteOrder.LITTLE_ENDIAN)
,让bytebuffer以小端形式存储,put(data)
将字节数组存入bytebuffer中,getShort(0)
将bytebuffer读取为short类型,注意参数0必须传入,因为put()方法将指针移动了两个字节,所以传入0是从index为0的地方读取一个short。否则会报越界问题。
关于int和long类型的转换依然如此,如果是big-endian,则order()方法需传入参数BIG-ENDIAN。
1 | public static byte[] shortToLittleByte(short data) { |
这个比较简单,类似于byte[]转short,只是putshort后要调用array来转换为byte[]。
最后也附上这个简单的方法地址,欢迎赋值粘贴:(测试已通过)