摘要:在属性中,和分别用于存储字节码长度和字节码指令,每条指令即一个字节类型。在虚拟机执行时,通过读取中的一个个字节码,并将字节码翻译成相应的指令。另外,虽然是一个类型的值,但是实际上一个方法不允许超过条字节码指令。
最近在写一个私人项目,名字叫做SmallVM,SmallVM的目的在于通过实现一个轻量级的Java虚拟机,加深对Java虚拟机的认知和理解。在Java虚拟机加载类的过程中,需要对Class文件进行解析,我曾经多带带实现过一个Java版的Class字节解析器ClassAnalyzer,相比于Java版,新版(Golang版)更加健壮,思路也更加清晰。本文即阐述我实现Class字节解析器的思路。
Class文件作为类或者接口信息的载体,每个Class文件都完整的定义了一个类。为了使Java程序可以“编写一次,处处运行”,Java虚拟机规范对Class文件进行了严格的规定。构成Class文件的基本数据单位是字节,这些字节之间不存在任何分隔符,这使得整个Class文件中存储的内容几乎全部是程序运行的必要数据,单个字节无法表示的数据由多个连续的字节来表示。
根据Java虚拟机规范,Class文件采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:无符号数和表。Java虚拟机规范定义了u1、u2、u4和u8来分别表示1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者是字符串。表是由多个无符号数或者其它表作为数据项构成的复合数据类型,表用于描述有层次关系的复合结构的数据,因此整个Class文件本质上就是一张表。在SmallVM中u1、u2、u4和u8分别对应于uint8、uint16、uint32和uint64,Class文件被描述为如下结构体。
type ClassFile struct { magic uint32 minorVersion uint16 majorVersion uint16 constantPoolCount uint16 constantPool []constantpool.ConstantInfo accessFlags uint16 thisClass uint16 superClass uint16 interfacesCount uint16 interfaces []uint16 fieldsCount uint16 fields []FieldInfo methodsCount uint16 methods []MethodInfo attributesCount uint16 attributes []attribute.AttributeInfo } type FieldInfo struct { accessFlags uint16 nameIndex uint16 descriptorIndex uint16 attributesCount uint16 attributes []attribute.AttributeInfo } type MethodInfo struct { accessFlags uint16 nameIndex uint16 descriptorIndex uint16 attributesCount uint16 attributes []attribute.AttributeInfo }如何解析
组成Class文件的各个数据项中,例如魔数、Class文件的版本、访问标志、类索引和父类索引等数据项,它们在每个Class文件中都占用固定数量的字节,在解析时只需要读取相应数量的字节。除此之外,需要灵活处理的主要包括4部分:常量池、字段表集合、方法表集合和属性表集合。字段和方法都可以具备自己的属性,Class本身也有相应的属性,因此,在解析字段表集合和方法表集合的同时也包含了属性表的解析。
常量池占据了Class文件很大一部分的数据,用于存储所有的常量信息,包括数字和字符串常量、类名、接口名、字段名和方法名等。Java虚拟机规范定义了多种常量类型,每一种常量类型都有自己的结构。常量池本身是一个表,在解析时有几点需要注意。
每个常量类型都通过一个u1类型的tag来标识。
表头给出的常量池大小(constantPoolCount)比实际大1,例如,如果constantPoolCount等于47,那么常量池中有46项常量。
常量池的索引范围从1开始,例如,如果constantPoolCount等于47,那么常量池的索引范围为1~46。设计者将第0项空出来的目的是用于表达“不引用任何一个常量池项目”。
如果一个CONSTANT_Long_info或CONSTANT_Double_info结构的项在常量池中的索引为n,则常量池中下一个有效的项的索引为n+2,此时常量池中索引为n+1的项有效但必须被认为不可用。
CONSTANT_Utf8_info型常量的结构中包含u1类型的tag、u2类型的length和由length个u1类型组成的bytes,这length字节的连续数据是一个使用MUTF-8(Modified UTF-8)编码的字符串。MUTF-8与UTF-8并不兼容,主要区别有两点:一是null字符会被编码成2字节(0xC0和0x80);二是补充字符是按照UTF-16拆分为代理对分别编码的,相关细节可以看这里(变种UTF-8)。
属性表用于描述某些场景专有的信息,Class文件、字段表和方法表都有相应的属性表集合。Java虚拟机规范定义了多种属性,SmallVM目前实现了对常用属性的解析。和常量类型的数据项不同,属性并没有一个tag来标识属性的类型,但是每个属性都包含有一个u2类型的attribute_name_index,attribute_name_index指向常量池中的一个CONSTANT_Utf8_info类型的常量,该常量包含着属性的名称。在解析属性时,SmallVM正是通过attribute_name_index指向的常量对应的属性名称来得知属性的类型。
字段表用于描述类或者接口中声明的变量,字段包括类级变量以及实例级变量。字段表的结构包含一个u2类型的access_flags、一个u2类型的name_index、一个u2类型的descriptor_index、一个u2类型的attributes_count和attributes_count个attribute_info类型的attributes。我们已经介绍了属性表的解析,attributes的解析方式与属性表的解析方式一致。
Class的文件方法表采用了和字段表相同的存储格式,只是access_flags对应的含义有所不同。方法表包含着一个重要的属性:Code属性。Code属性存储了Java代码编译成的字节码指令,在SmallVM中,Code对应的结构体如下所示(仅列出了类属性)。
type Code struct { pool []constantpool.ConstantInfo attributeNameIndex uint16 attributeLength uint32 maxStack uint16 maxLocals uint16 codeLength uint32 code []byte exceptionTableLength uint16 exceptionTable []ExceptionInfo attributesCount uint16 attributes []AttributeInfo } type ExceptionInfo struct { startPc uint16 endPc uint16 handlerPc uint16 catchType uint16 }
在Code属性中,codeLength和code分别用于存储字节码长度和字节码指令,每条指令即一个字节(u1类型)。在虚拟机执行时,通过读取code中的一个个字节码,并将字节码翻译成相应的指令。另外,虽然codeLength是一个u4类型的值,但是实际上一个方法不允许超过65535条字节码指令。
代码实现整个Class字节解析器的源码已放在了GitHub上,字节解析器仅仅是SmallVM的一个小模块,对应的目录为src/classfile。另外,可以参考ClassAnalyzer的README,我以一个类的Class文件为例,对该Class文件的每个字节进行了分析,希望对大家的理解有所帮助。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/66899.html
摘要:在上篇文章实现简单爬虫框架单任务版爬虫中我们实现了一个简单的单任务版爬虫,对于单任务版爬虫,每次都要请求页面,然后解析数据,然后才能请求下一个页面。在上篇文章Golang实现简单爬虫框架(2)——单任务版爬虫中我们实现了一个简单的单任务版爬虫,对于单任务版爬虫,每次都要请求页面,然后解析数据,然后才能请求下一个页面。整个过程中,获取网页数据速度比较慢,那么我们就把获取数据模块做成并发执行。在...
摘要:在上篇文章实现简单爬虫框架单任务版爬虫中我们实现了一个简单的单任务版爬虫,对于单任务版爬虫,每次都要请求页面,然后解析数据,然后才能请求下一个页面。在上篇文章Golang实现简单爬虫框架(2)——单任务版爬虫中我们实现了一个简单的单任务版爬虫,对于单任务版爬虫,每次都要请求页面,然后解析数据,然后才能请求下一个页面。整个过程中,获取网页数据速度比较慢,那么我们就把获取数据模块做成并发执行。在...
摘要:它负责将的字节码形式转换成内存形式的对象。先使用工具对字节码文件进行加密,运行时使用定制的先解密文件内容再加载这些解密后的字节码。的方法是需要子类来覆盖的,不同的加载器将使用不同的逻辑来获取目标类的字节码。 ClassLoader 详解 ClassLoader 做什么的? 延迟加载 各司其职 ClassLoader 传递性 双亲委派 Class.forName 自定义加载器 Clas...
摘要:用一张思维导图尽可能囊括一下的类加载过程的全流程。本文参考自来自周志明深入理解虚拟机第版,拓展内容建议读者可以阅读下这本书。 用一张思维导图尽可能囊括一下JVM的类加载过程的全流程。 本文参考自来自周志明《深入理解Java虚拟机(第2版)》,拓展内容建议读者可以阅读下这本书。 showImg(http://ocxhn1mzz.bkt.clouddn.com/class%20loadin...
摘要:一类加载器什么是类加载器,作用是什么类加载器就加载字节码文件类加载器的种类类加载器有三种,不同类加载器加载不同的引导类加载器加载都是最基础的文件扩展类加载器加载都是基础的文件应用类加载器三方包和自己编写文件怎么获得类加载器重点字节码对象二注 一、类加载器1.什么是类加载器,作用是什么?类加载器就加载字节码文件(.class) 2.类加载器的种类类加载器有三种,不同类加载器加载不同的 1...
阅读 2010·2021-11-15 18:09
阅读 901·2021-09-06 15:13
阅读 2643·2021-08-23 09:43
阅读 2024·2019-08-30 15:54
阅读 2219·2019-08-30 13:56
阅读 2485·2019-08-26 11:31
阅读 3079·2019-08-26 10:56
阅读 705·2019-08-26 10:28