天天看点

40道一线互联网公司高频面试题(附答案!)

java 基础 40

语言特性 12

q1:java 语言的优点?

① 平台无关性,摆脱硬件束缚,"一次编写,到处运行"。

② 相对安全的内存管理和访问机制,避免大部分内存泄漏和指针越界。

③ 热点代码检测和运行时编译及优化,使程序随运行时间增长获得更高性能。

④ 完善的应用程序接口,支持第三方类库。

q2:java 如何实现平台无关?

jvm: java 编译器可生成与计算机体系结构无关的字节码指令,字节码文件不仅可以轻易地在任何机器上解释执行,还可以动态地转换成本地机器代码,转换是由 jvm 实现的,jvm 是平台相关的,屏蔽了不同操作系统的差异。

语言规范: 基本数据类型大小有明确规定,例如 int 永远为 32 位,而 c/c++ 中可能是 16 位、32 位,也可能是编译器开发商指定的其他大小。java 中数值类型有固定字节数,二进制数据以固定格式存储和传输,字符串采用标准的 unicode 格式存储。

q3:jdk 和 jre 的区别?

jdk: java development kit,开发工具包。提供了编译运行 java 程序的各种工具,包括编译器、jre 及常用类库,是 java 核心。

jre: java runtime environment,运行时环境,运行 java 程序的必要环境,包括 jvm、核心类库、核心配置工具。

q4:java 按值调用还是引用调用?

按值调用指方法接收调用者提供的值,按引用调用指方法接收调用者提供的变量地址。

java 总是按值调用,方法得到的是所有参数值的副本,传递对象时实际上方法接收的是对象引用的副本。方法不能修改基本数据类型的参数,如果传递了一个 int 值 ,改变值不会影响实参,因为改变的是值的一个副本。

可以改变对象参数的状态,但不能让对象参数引用一个新的对象。如果传递了一个 int 数组,改变数组的内容会影响实参,而改变这个参数的引用并不会让实参引用新的数组对象。

q5:浅拷贝和深拷贝的区别?

浅拷贝: 只复制当前对象的基本数据类型及引用变量,没有复制引用变量指向的实际对象。修改克隆对象可能影响原对象,不安全。

深拷贝: 完全拷贝基本数据类型和引用数据类型,安全。

q6:什么是反射?

在运行状态中,对于任意一个类都能知道它的所有属性和方法,对于任意一个对象都能调用它的任意方法和属性,这种动态获取信息及调用对象方法的功能称为反射。缺点是破坏了封装性以及泛型约束。反射是框架的核心,spring 大量使用反射。

q7:class 类的作用?如何获取一个 class 对象?

在程序运行期间,java 运行时系统为所有对象维护一个运行时类型标识,这个信息会跟踪每个对象所属的类,虚拟机利用运行时类型信息选择要执行的正确方法,保存这些信息的类就是 class,这是一个泛型类。

获取 class 对象:① 类名.class 。②对象的 getclass方法。③ class.forname(类的全限定名)。

q8:什么是注解?什么是元注解?

注解是一种标记,使类或接口附加额外信息,帮助编译器和 jvm 完成一些特定功能,例如 @override 标识一个方法是重写方法。

元注解是自定义注解的注解,例如:

@target:约束作用位置,值是 elementtype 枚举常量,包括 method 方法、variable 变量、type 类/接口、parameter 方法参数、constructors 构造方法和 loacl_variable 局部变量等。

@rentention:约束生命周期,值是 retentionpolicy 枚举常量,包括 source 源码、class 字节码和 runtime 运行时。

@documented:表明这个注解应该被 javadoc 记录。

q9:什么是泛型,有什么作用?

泛型本质是参数化类型,解决不确定对象具体类型的问题。泛型在定义处只具备执行 object 方法的能力。

泛型的好处:① 类型安全,放置什么出来就是什么,不存在 classcastexception。② 提升可读性,编码阶段就显式知道泛型集合、泛型方法等处理的对象类型。③ 代码重用,合并了同类型的处理代码。

q10:泛型擦除是什么?

泛型用于编译阶段,编译后的字节码文件不包含泛型类型信息,因为虚拟机没有泛型类型对象,所有对象都属于普通类。例如定义 list 或 list,在编译后都会变成 list 。

定义一个泛型类型,会自动提供一个对应原始类型,类型变量会被擦除。如果没有限定类型就会替换为 object,如果有限定类型就会替换为第一个限定类型,例如 `` 会使用 a 类型替换 t。

q11:jdk8 新特性有哪些?

lambda 表达式:允许把函数作为参数传递到方法,简化匿名内部类代码。

函数式接口:使用 @functionalinterface 标识,有且仅有一个抽象方法,可被隐式转换为 lambda 表达式。

方法引用:可以引用已有类或对象的方法和构造方法,进一步简化 lambda 表达式。

接口:接口可以定义 default 修饰的默认方法,降低了接口升级的复杂性,还可以定义静态方法。

注解:引入重复注解机制,相同注解在同地方可以声明多次。注解作用范围也进行了扩展,可作用于局部变量、泛型、方法异常等。

类型推测:加强了类型推测机制,使代码更加简洁。

optional 类:处理空指针异常,提高代码可读性。

stream 类:引入函数式编程风格,提供了很多功能,使代码更加简洁。方法包括 foreach 遍历、count 统计个数、filter 按条件过滤、limit 取前 n 个元素、skip 跳过前 n 个元素、map 映射加工、concat 合并 stream 流等。

日期:增强了日期和时间 api,新的 java.time 包主要包含了处理日期、时间、日期/时间、时区、时刻和时钟等操作。

javascript:提供了一个新的 javascript 引擎,允许在 jvm上运行特定 javascript 应用。

q12:异常有哪些分类?

所有异常都是 throwable 的子类,分为 error 和 exception。error 是 java 运行时系统的内部错误和资源耗尽错误,例如 stackoverflowerror 和 outofmemoryerror,这种异常程序无法处理。

exception 分为受检异常和非受检异常,受检异常需要在代码中显式处理,否则会编译出错,非受检异常是运行时异常,继承自 runtimeexception。

受检异常:① 无能为力型,如字段超长导致的 sqlexception。② 力所能及型,如未授权异常 unauthorizedexception,程序可跳转权限申请页面。常见受检异常还有 filenotfoundexception、classnotfoundexception、ioexception等。

非受检异常:① 可预测异常,例如 indexoutofboundsexception、nullpointerexception、classcastexception 等,这类异常应该提前处理。② 需捕捉异常,例如进行 rpc 调用时的远程服务超时,这类异常客户端必须显式处理。③ 可透出异常,指框架或系统产生的且会自行处理的异常,例如 spring 的 nosuchrequesthandingmethodexception,spring 会自动完成异常处理,将异常自动映射到合适的状态码。

数据类型 5

q1:java 有哪些基本数据类型?

数据类型 内存大小 默认值 取值范围

字节 1个 (字节)0 -128 ~ 127

短 2个 (短)0 -215 ~ 215-1

整型 4个 0 -231 ~ 231-1

long 8层 0升 -263 ~ 263-1

浮动 4个 0.0f ±3.4e+38(有效位数 6~7 位)

双 8层 0.0d ±1.7e+308(有效位数 15 位)

烧焦 英文 1b,中文 utf-8 占 3b,gbk 占 2b。 '\ u0000' '\ u0000'〜'\ uffff'

布尔值 单个变量 4b / 数组 1b 假 真假

jvm 没有 boolean 赋值的专用字节码指令,boolean f = false 就是使用 iconst_0 即常数 0 赋值。单个 boolean 变量用 int 代替,boolean 数组会编码成 byte 数组。

q2:自动装箱/拆箱是什么?

每个基本数据类型都对应一个包装类,除了 int 和 char 对应 integer 和 character 外,其余基本数据类型的包装类都是首字母大写即可。

自动装箱: 将基本数据类型包装为一个包装类对象,例如向一个泛型为 integer 的集合添加 int 元素。

自动拆箱: 将一个包装类对象转换为一个基本数据类型,例如将一个包装类对象赋值给一个基本数据类型的变量。

比较两个包装类数值要用 equals ,而不能用 == 。

q3:string 是不可变类为什么值可以修改?

string 类和其存储数据的成员变量 value 字节数组都是 final 修饰的。对一个 string 对象的任何修改实际上都是创建一个新 string 对象,再引用该对象。只是修改 string 变量引用的对象,没有修改原 string 对象的内容。

q4:字符串拼接的方式有哪些?

① 直接用 + ,底层用 stringbuilder 实现。只适用小数量,如果在循环中使用 + 拼接,相当于不断创建新的 stringbuilder 对象再转换成 string 对象,效率极差。

② 使用 string 的 concat 方法,该方法中使用 arrays.copyof 创建一个新的字符数组 buf 并将当前字符串 value 数组的值拷贝到 buf 中,buf 长度 = 当前字符串长度 + 拼接字符串长度。之后调用 getchars 方法使用 system.arraycopy 将拼接字符串的值也拷贝到 buf 数组,最后用 buf 作为构造参数 new 一个新的 string 对象返回。效率稍高于直接使用 +。

③ 使用 stringbuilder 或 stringbuffer,两者的 append 方法都继承自 abstractstringbuilder,该方法首先使用 arrays.copyof 确定新的字符数组容量,再调用 getchars 方法使用 system.arraycopy 将新的值追加到数组中。stringbuilder 是 jdk5 引入的,效率高但线程不安全。stringbuffer 使用 synchronized 保证线程安全。

q5:string a = "a" + new string("b") 创建了几个对象?

常量和常量拼接仍是常量,结果在常量池,只要有变量参与拼接结果就是变量,存在堆。

使用字面量时只创建一个常量池中的常量,使用 new 时如果常量池中没有该值就会在常量池中新创建,再在堆中创建一个对象引用常量池中常量。因此 string a = "a" + new string("b") 会创建四个对象,常量池中的 a 和 b,堆中的 b 和堆中的 ab。

面向对象 10

q1:谈一谈你对面向对象的理解

面向过程让计算机有步骤地顺序做一件事,是过程化思维,使用面向过程语言开发大型项目,软件复用和维护存在很大问题,模块之间耦合严重。面向对象相对面向过程更适合解决规模较大的问题,可以拆解问题复杂度,对现实事物进行抽象并映射为开发对象,更接近人的思维。

例如开门这个动作,面向过程是 open(door door),动宾结构,door 作为操作对象的参数传入方法,方法内定义开门的具体步骤。面向对象的方式首先会定义一个类 door,抽象出门的属性(如尺寸、颜色)和行为(如 open 和 close),主谓结构。

面向过程代码松散,强调流程化解决问题。面向对象代码强调高内聚、低耦合,先抽象模型定义共性行为,再解决实际问题。

q2:面向对象的三大特性?

封装是对象功能内聚的表现形式,在抽象基础上决定信息是否公开及公开等级,核心问题是以什么方式暴漏哪些信息。主要任务是对属性、数据、敏感行为实现隐藏,对属性的访问和修改必须通过公共接口实现。封装使对象关系变得简单,降低了代码耦合度,方便维护。

迪米特原则就是对封装的要求,即 a 模块使用 b 模块的某接口行为,对 b 模块中除此行为外的其他信息知道得应尽可能少。不直接对 public 属性进行读取和修改而使用 getter/setter 方法是因为假设想在修改属性时进行权限控制、日志记录等操作,在直接访问属性的情况下无法实现。如果将 public 的属性和行为修改为 private 一般依赖模块都会报错,因此不知道使用哪种权限时应优先使用 private。

继承用来扩展一个类,子类可继承父类的部分属性和行为使模块具有复用性。继承是"is-a"关系,可使用里氏替换原则判断是否满足"is-a"关系,即任何父类出现的地方子类都可以出现。如果父类引用直接使用子类引用来代替且可以正确编译并执行,输出结果符合子类场景预期,那么说明两个类符合里氏替换原则。

多态以封装和继承为基础,根据运行时对象实际类型使同一行为具有不同表现形式。多态指在编译层面无法确定最终调用的方法体,在运行期由 jvm 动态绑定,调用合适的重写方法。由于重载属于静态绑定,本质上重载结果是完全不同的方法,因此多态一般专指重写。

q3:重载和重写的区别?

重载指方法名称相同,但参数类型个数不同,是行为水平方向不同实现。对编译器来说,方法名称和参数列表组成了一个唯一键,称为方法签名,jvm 通过方法签名决定调用哪种重载方法。不管继承关系如何复杂,重载在编译时可以根据规则知道调用哪种目标方法,因此属于静态绑定。

jvm 在重载方法中选择合适方法的顺序:① 精确匹配。② 基本数据类型自动转换成更大表示范围。③ 自动拆箱与装箱。④ 子类向上转型。⑤ 可变参数。

重写指子类实现接口或继承父类时,保持方法签名完全相同,实现不同方法体,是行为垂直方向不同实现。

元空间有一个方法表保存方法信息,如果子类重写了父类的方法,则方法表中的方法引用会指向子类实现。父类引用执行子类方法时无法调用子类存在而父类不存在的方法。

重写方法访问权限不能变小,返回类型和抛出的异常类型不能变大,必须加 @override 。

q4:类之间有哪些关系?

类关系 描述 权力强侧 举例

继承 父子类之间的关系:is-a 父类 小狗继承于动物

实现 接口和实现类之间的关系:can-do 接口 小狗实现了狗叫接口

组合 比聚合更强的关系:contains-a 整体 头是身体的一部分

聚合 暂时组装的关系:has-a 组装方 小狗和绳子是暂时的聚合关系

依赖 一个类用到另一个:depends-a 被依赖方 人养小狗,人依赖于小狗

关联 平等的使用关系:links-a 平等 人使用卡消费,卡可以提取人的信息

q5:object 类有哪些方法?

equals:检测对象是否相等,默认使用 == 比较对象引用,可以重写 equals 方法自定义比较规则。equals 方法规范:自反性、对称性、传递性、一致性、对于任何非空引用 x,x.equals(null) 返回 false。

hashcode:散列码是由对象导出的一个整型值,没有规律,每个对象都有默认散列码,值由对象存储地址得出。字符串散列码由内容导出,值可能相同。为了在集合中正确使用,一般需要同时重写 equals 和 hashcode,要求 equals 相同 hashcode 必须相同,hashcode 相同 equals 未必相同,因此 hashcode 是对象相等的必要不充分条件。

tostring:打印对象时默认的方法,如果没有重写打印的是表示对象值的一个字符串。

*clone:clone 方法声明为 protected,类只能通过该方法克隆它自己的对象,如果希望其他类也能调用该方法必须定义该方法为 public。如果一个对象的类没有实现 cloneable 接口,该对象调用 clone 方抛出一个 clonenotsupport 异常。默认的 clone 方法是浅拷贝,一般重写 clone 方法需要实现 cloneable 接口并指定访问修饰符为 public。

finalize:确定一个对象死亡至少要经过两次标记,如果对象在可达性分析后发现没有与 gc roots 连接的引用链会被第一次标记,随后进行一次筛选,条件是对象是否有必要执行 finalize 方法。假如对象没有重写该方法或方法已被虚拟机调用,都视为没有必要执行。如果有必要执行,对象会被放置在 f-queue 队列,由一条低调度优先级的 finalizer 线程去执行。虚拟机会触发该方法但不保证会结束,这是为了防止某个对象的 finalize 方法执行缓慢或发生死循环。只要对象在 finalize 方法中重新与引用链上的对象建立关联就会在第二次标记时被移出回收集合。由于运行代价高昂且无法保证调用顺序,在 jdk 9 被标记为过时方法,并不适合释放资源。

getclass:返回包含对象信息的类对象。

wait / notify / notifyall:阻塞或唤醒持有该对象锁的线程。

q6:内部类的作用是什么,有哪些分类?

内部类可对同一包中其他类隐藏,内部类方法可以访问定义这个内部类的作用域中的数据,包括 private 数据。

内部类是一个编译器现象,与虚拟机无关。编译器会把内部类转换成常规的类文件,用 $ 分隔外部类名与内部类名,其中匿名内部类使用数字编号,虚拟机对此一无所知。

静态内部类: 属于外部类,只加载一次。作用域仅在包内,可通过 外部类名.内部类名 直接访问,类内只能访问外部类所有静态属性和方法。hashmap 的 node 节点,reentrantlock 中的 sync 类,arraylist 的 sublist 都是静态内部类。内部类中还可以定义内部类,如 threadloacl 静态内部类 threadloaclmap 中定义了内部类 entry。

成员内部类: 属于外部类的每个对象,随对象一起加载。不可以定义静态成员和方法,可访问外部类的所有内容。

局部内部类: 定义在方法内,不能声明访问修饰符,只能定义实例成员变量和实例方法,作用范围仅在声明类的代码块中。

匿名内部类: 只用一次的没有名字的类,可以简化代码,创建的对象类型相当于 new 的类的子类类型。用于实现事件监听和其他回调。

q7:访问权限控制符有哪些?

访问权限控制符 本类 封装形式 包外子类 任何地方

上市 √ √ √ √

受保护的 √ √ √ ×

无 √ √ × ×

私人的 √ × × ×

q8:接口和抽象类的异同?

接口和抽象类对实体类进行更高层次的抽象,仅定义公共行为和特征。

语法维度 抽象类 接口

成员变量 无特殊要求 默认 public static final 常量

构造方法 有构造方法,不能实例化 没有构造方法,不能实例化

方法 抽象类可以没有抽象方法,但有抽象方法一定是抽象类。 默认 public abstract,jdk8 支持默认/静态方法,jdk9 支持私有方法。

继承 单继承 多继承

q9:接口和抽象类应该怎么选择?

抽象类体现 is-a 关系,接口体现 can-do 关系。与接口相比,抽象类通常是对同类事物相对具体的抽象。

抽象类是模板式设计,包含一组具体特征,例如某汽车,底盘、控制电路等是抽象出来的共同特征,但内饰、显示屏、座椅材质可以根据不同级别配置存在不同实现。

接口是契约式设计,是开放的,定义了方法名、参数、返回值、抛出的异常类型,谁都可以实现它,但必须遵守接口的约定。例如所有车辆都必须实现刹车这种强制规范。

接口是顶级类,抽象类在接口下面的第二层,对接口进行了组合,然后实现部分接口。当纠结定义接口和抽象类时,推荐定义为接口,遵循接口隔离原则,按维度划分成多个接口,再利用抽象类去实现这些,方便后续的扩展和重构。

例如 plane 和 bird 都有 fly 方法,应把 fly 定义为接口,而不是抽象类的抽象方法再继承,因为除了 fly 行为外 plane 和 bird 间很难再找到其他共同特征。

q10:子类初始化的顺序

① 父类静态代码块和静态变量。② 子类静态代码块和静态变量。③ 父类普通代码块和普通变量。④ 父类构造方法。⑤ 子类普通代码块和普通变量。⑥ 子类构造方法。

集合 7

q1:说一说 arraylist

arraylist 是容量可变的非线程安全列表,使用数组实现,集合扩容时会创建更大的数组,把原有数组复制到新数组。支持对元素的快速随机访问,但插入与删除速度很慢。arraylist 实现了 randomacess 标记接口,如果一个类实现了该接口,那么表示使用索引遍历比迭代器更快。

elementdata是 arraylist 的数据域,被 transient 修饰,序列化时会调用 writeobject 写入流,反序列化时调用 readobject 重新赋值到新对象的 elementdata。原因是 elementdata 容量通常大于实际存储元素的数量,所以只需发送真正有实际值的数组元素。

size 是当前实际大小,elementdata 大小大于等于 size。

**modcount **记录了 arraylist 结构性变化的次数,继承自 abstractlist。所有涉及结构变化的方法都会增加该值。expectedmodcount 是迭代器初始化时记录的 modcount 值,每次访问新元素时都会检查 modcount 和 expectedmodcount 是否相等,不相等就会抛出异常。这种机制叫做 fail-fast,所有集合类都有这种机制。

q2:说一说 linkedlist

linkedlist 本质是双向链表,与 arraylist 相比插入和删除速度更快,但随机访问元素很慢。除继承 abstractlist 外还实现了 deque 接口,这个接口具有队列和栈的性质。成员变量被 transient 修饰,原理和 arraylist 类似。

linkedlist 包含三个重要的成员:size、first 和 last。size 是双向链表中节点的个数,first 和 last 分别指向首尾节点的引用。

linkedlist 的优点在于可以将零散的内存单元通过附加引用的方式关联起来,形成按链路顺序查找的线性结构,内存利用率较高。

q3:set 有什么特点,有哪些实现?

set 不允许元素重复且无序,常用实现有 hashset、linkedhashset 和 treeset。

hashset 通过 hashmap 实现,hashmap 的 key 即 hashset 存储的元素,所有 key 都使用相同的 value ,一个名为 present 的 object 类型常量。使用 key 保证元素唯一性,但不保证有序性。由于 hashset 是 hashmap 实现的,因此线程不安全。

hashset 判断元素是否相同时,对于包装类型直接按值比较。对于引用类型先比较 hashcode 是否相同,不同则代表不是同一个对象,相同则继续比较 equals,都相同才是同一个对象。

linkedhashset 继承自 hashset,通过 linkedhashmap 实现,使用双向链表维护元素插入顺序。

treeset 通过 treemap 实现的,添加元素到集合时按照比较规则将其插入合适的位置,保证插入后的集合仍然有序。

q4:treemap 有什么特点?

treemap 基于红黑树实现,增删改查的平均和最差时间复杂度均为 o(logñ) ,最大特点是 key 有序。key 必须实现 comparable 接口或提供的 comparator 比较器,所以 key 不允许为 null。

hashmap 依靠 hashcode 和 equals 去重,而 treemap 依靠 comparable 或 comparator。treemap 排序时,如果比较器不为空就会优先使用比较器的 compare 方法,否则使用 key 实现的 comparable 的 compareto 方法,两者都不满足会抛出异常。

treemap 通过 put 和 deleteentry 实现增加和删除树节点。插入新节点的规则有三个:① 需要调整的新节点总是红色的。② 如果插入新节点的父节点是黑色的,不需要调整。③ 如果插入新节点的父节点是红色的,由于红黑树不能出现相邻红色,进入循环判断,通过重新着色或左右旋转来调整。treemap 的插入操作就是按照 key 的对比往下遍历,大于节点值向右查找,小于向左查找,先按照二叉查找树的特性操作,后续会重新着色和旋转,保持红黑树的特性。

q5:hashmap 有什么特点?

jdk8 之前底层实现是数组 + 链表,jdk8 改为数组 + 链表/红黑树,节点类型从entry 变更为 node。主要成员变量包括存储数据的 table 数组、元素数量 size、加载因子 loadfactor。

table 数组记录 hashmap 的数据,每个下标对应一条链表,所有哈希冲突的数据都会被存放到同一条链表,node/entry 节点包含四个成员变量:key、value、next 指针和 hash 值。

hashmap 中数据以键值对的形式存在,键对应的 hash 值用来计算数组下标,如果两个元素 key 的 hash 值一样,就会发生哈希冲突,被放到同一个链表上,为使查询效率尽可能高,键的 hash 值要尽可能分散。

hashmap 默认初始化容量为 16,扩容容量必须是 2 的幂次方、最大容量为 1<< 30 、默认加载因子为 0.75。

q6:hashmap 相关方法的源码?

jdk8 之前

hash:计算元素 key 的散列值

① 处理 string 类型时,调用 stringhash32 方法获取 hash 值。

② 处理其他类型数据时,提供一个相对于 hashmap 实例唯一不变的随机值 hashseed 作为计算初始量。

③ 执行异或和无符号右移使 hash 值更加离散,减小哈希冲突概率。

indexfor:计算元素下标

将 hash 值和数组长度-1 进行与操作,保证结果不会超过 table 数组范围。

get:获取元素的 value 值

① 如果 key 为 null,调用 getfornullkey 方法,如果 size 为 0 表示链表为空,返回 null。如果 size 不为 0 说明存在链表,遍历 table[0] 链表,如果找到了 key 为 null 的节点则返回其 value,否则返回 null。

② 如果 key 为 不为 null,调用 getentry 方法,如果 size 为 0 表示链表为空,返回 null 值。如果 size 不为 0,首先计算 key 的 hash 值,然后遍历该链表的所有节点,如果节点的 key 和 hash 值都和要查找的元素相同则返回其 entry 节点。

③ 如果找到了对应的 entry 节点,调用 getvalue 方法获取其 value 并返回,否则返回 null。

put:添加元素

① 如果 key 为 null,直接存入 table[0]。

② 如果 key 不为 null,计算 key 的 hash 值。

③ 调用 indexfor 计算元素存放的下标 i。

④ 遍历 table[i] 对应的链表,如果 key 已存在,就更新 value 然后返回旧 value。

⑤ 如果 key 不存在,将 modcount 值加 1,使用 addentry 方法增加一个节点并返回 null。

resize:扩容数组

① 如果当前容量达到了最大容量,将阈值设置为 integer 最大值,之后扩容不再触发。

② 否则计算新的容量,将阈值设为 newcapacity x loadfactor 和 最大容量 + 1 的较小值。

③ 创建一个容量为 newcapacity 的 entry 数组,调用 transfer 方法将旧数组的元素转移到新数组。

transfer:转移元素

① 遍历旧数组的所有元素,调用 rehash 方法判断是否需要哈希重构,如果需要就重新计算元素 key 的 hash 值。

② 调用 indexfor 方法计算元素存放的下标 i,利用头插法将旧数组的元素转移到新数组。

jdk8

如果 key 为 null 返回 0,否则就将 key 的 hashcode 方法返回值高低16位异或,让尽可能多的位参与运算,让结果的 0 和 1 分布更加均匀,降低哈希冲突概率。

① 调用 putval 方法添加元素。

② 如果 table 为空或长度为 0 就进行扩容,否则计算元素下标位置,不存在就调用 newnode 创建一个节点。

③ 如果存在且是链表,如果首节点和待插入元素的 hash 和 key 都一样,更新节点的 value。

④ 如果首节点是 treenode 类型,调用 puttreeval 方法增加一个树节点,每一次都比较插入节点和当前节点的大小,待插入节点小就往左子树查找,否则往右子树查找,找到空位后执行两个方法:balanceinsert 方法,插入节点并调整平衡、moveroottofront 方法,由于调整平衡后根节点可能变化,需要重置根节点。

⑤ 如果都不满足,遍历链表,根据 hash 和 key 判断是否重复,决定更新 value 还是新增节点。如果遍历到了链表末尾则添加节点,如果达到建树阈值 7,还需要调用 treeifybin 把链表重构为红黑树。

⑥ 存放元素后将 modcount 加 1,如果 ++size > threshold ,调用 resize 扩容。

get :获取元素的 value 值

① 调用 getnode 方法获取 node 节点,如果不是 null 就返回其 value 值,否则返回 null。

② getnode 方法中如果数组不为空且存在元素,先比较第一个节点和要查找元素的 hash 和 key ,如果都相同则直接返回。

③ 如果第二个节点是 treenode 类型则调用 gettreenode 方法进行查找,否则遍历链表根据 hash 和 key 查找,如果没有找到就返回 null。

重新规划长度和阈值,如果长度发生了变化,部分数据节点也要重新排列。

重新规划长度

① 如果当前容量 oldcap > 0 且达到最大容量,将阈值设为 integer 最大值,return 终止扩容。

② 如果未达到最大容量,当 oldcap << 1 不超过最大容量就扩大为 2 倍。

③ 如果都不满足且当前扩容阈值 oldthr > 0,使用当前扩容阈值作为新容量。

④ 否则将新容量置为默认初始容量 16,新扩容阈值置为 12。

重新排列数据节点

① 如果节点为 null 不进行处理。

② 如果节点不为 null 且没有next节点,那么通过节点的 hash 值和 新容量-1 进行与运算计算下标存入新的 table 数组。

③ 如果节点为 treenode 类型,调用 split 方法处理,如果节点数 hc 达到6 会调用 untreeify 方法转回链表。

④ 如果是链表节点,需要将链表拆分为 hash 值超出旧容量的链表和未超出容量的链表。对于hash & oldcap == 0 的部分不需要做处理,否则需要放到新的下标位置上,新下标 = 旧下标 + 旧容量。

q7:hashmap 为什么线程不安全?

jdk7 存在死循环和数据丢失问题。

数据丢失:

并发赋值被覆盖: 在 createentry 方法中,新添加的元素直接放在头部,使元素之后可以被更快访问,但如果两个线程同时执行到此处,会导致其中一个线程的赋值被覆盖。

已遍历区间新增元素丢失: 当某个线程在 transfer 方法迁移时,其他线程新增的元素可能落在已遍历过的哈希槽上。遍历完成后,table 数组引用指向了 newtable,新增元素丢失。

新表被覆盖: 如果 resize 完成,执行了 table = newtable,则后续元素就可以在新表上进行插入。但如果多线程同时 resize ,每个线程都会 new 一个数组,这是线程内的局部对象,线程之间不可见。迁移完成后resize 的线程会赋值给 table 线程共享变量,可能会覆盖其他线程的操作,在新表中插入的对象都会被丢弃。

死循环: 扩容时 resize 调用 transfer 使用头插法迁移元素,虽然 newtable 是局部变量,但原先 table 中的 entry 链表是共享的,问题根源是 entry 的 next 指针并发修改,某线程还没有将 table 设为 newtable 时用完了 cpu 时间片,导致数据丢失或死循环。

jdk8 在 resize 方法中完成扩容,并改用尾插法,不会产生死循环,但并发下仍可能丢失数据。可用 concurrenthashmap 或 collections.synchronizedmap 包装成同步集合。

io风格6

q1:同步/异步/阻塞/非阻塞 io 的区别?

同步和异步是通信机制,阻塞和非阻塞是调用状态。

同步 io 是用户线程发起 io 请求后需要等待或轮询内核 io 操作完成后才能继续执行。异步 io 是用户线程发起 io 请求后可以继续执行,当内核 io 操作完成后会通知用户线程,或调用用户线程注册的回调函数。

阻塞 io 是 io 操作需要彻底完成后才能返回用户空间 。非阻塞 io 是 io 操作调用后立即返回一个状态值,无需等 io 操作彻底完成。

q2:什么是 bio?

bio 是同步阻塞式 io,jdk1.4 之前的 io 模型。服务器实现模式为一个连接请求对应一个线程,服务器需要为每一个客户端请求创建一个线程,如果这个连接不做任何事会造成不必要的线程开销。可以通过线程池改善,这种 io 称为伪异步 io。适用连接数目少且服务器资源多的场景。

q3:什么是 nio?

nio 是 jdk1.4 引入的同步非阻塞 io。服务器实现模式为多个连接请求对应一个线程,客户端连接请求会注册到一个多路复用器 selector ,selector 轮询到连接有 io 请求时才启动一个线程处理。适用连接数目多且连接时间短的场景。

同步是指线程还是要不断接收客户端连接并处理数据,非阻塞是指如果一个管道没有数据,不需要等待,可以轮询下一个管道。

核心组件:

selector: 多路复用器,轮询检查多个 channel 的状态,判断注册事件是否发生,即判断 channel 是否处于可读或可写状态。使用前需要将 channel 注册到 selector,注册后会得到一个 selectionkey,通过 selectionkey 获取 channel 和 selector 相关信息。

channel: 双向通道,替换了 bio 中的 stream 流,不能直接访问数据,要通过 buffer 来读写数据,也可以和其他 channel 交互。

buffer: 缓冲区,本质是一块可读写数据的内存,用来简化数据读写。buffer 三个重要属性:position 下次读写数据的位置,limit 本次读写的极限位置,capacity 最大容量。

使用步骤:向 buffer 写数据,调用 flip 方法转为读模式,从 buffer 中读数据,调用 clear 或 compact 方法清空缓冲区。

flip 将写转为读,底层实现原理把 position 置 0,并把 limit 设为当前的 position 值。

clear 将读转为写模式(用于读完全部数据的情况,把 position 置 0,limit 设为 capacity)。

compact 将读转为写模式(用于存在未读数据的情况,让 position 指向未读数据的下一个)。

通道方向和 buffer 方向相反,读数据相当于向 buffer 写,写数据相当于从 buffer 读。

q4:什么是 aio?

aio 是 jdk7 引入的异步非阻塞 io。服务器实现模式为一个有效请求对应一个线程,客户端的 io 请求都是由操作系统先完成 io 操作后再通知服务器应用来直接使用准备好的数据。适用连接数目多且连接时间长的场景。

异步是指服务端线程接收到客户端管道后就交给底层处理io通信,自己可以做其他事情,非阻塞是指客户端有数据才会处理,处理好再通知服务器。

实现方式包括通过 future 的 get 方法进行阻塞式调用以及实现 completionhandler 接口,重写请求成功的回调方法 completed 和请求失败回调方法 failed。

q5:java.io 包下有哪些流?

主要分为字符流和字节流,字符流一般用于文本文件,字节流一般用于图像或其他文件。

字符流包括了字符输入流 reader 和字符输出流 writer,字节流包括了字节输入流 inputstream 和字节输出流 outputstream。字符流和字节流都有对应的缓冲流,字节流也可以包装为字符流,缓冲流带有一个 8kb 的缓冲数组,可以提高流的读写效率。除了缓冲流外还有过滤流 filterreader、字符数组流 chararrayreader、字节数组流 bytearrayinputstream、文件流 fileinputstream 等。

q6:序列化和反序列化是什么?

java 对象 jvm 退出时会全部销毁,如果需要将对象及状态持久化,就要通过序列化实现,将内存中的对象保存在二进制流中,需要时再将二进制流反序列化为对象。对象序列化保存的是对象的状态,因此属于类属性的静态变量不会被序列化。

常见的序列化有三种:

java 原生序列化

实现 serializabale 标记接口,java 序列化保留了对象类的元数据(如类、成员变量、继承类信息)以及对象数据,兼容性最好,但不支持跨语言,性能一般。序列化和反序列化必须保持序列化 id 的一致,一般使用 private static final long serialversionuid 定义序列化 id,如果不设置编译器会根据类的内部实现自动生成该值。如果是兼容升级不应该修改序列化 id,防止出错,如果是不兼容升级则需要修改。

hessian 序列化

hessian 序列化是一种支持动态类型、跨语言、基于对象传输的网络协议。java 对象序列化的二进制流可以被其它语言反序列化。hessian 协议的特性:① 自描述序列化类型,不依赖外部描述文件,用一个字节表示常用基础类型,极大缩短二进制流。② 语言无关,支持脚本语言。③ 协议简单,比 java 原生序列化高效。hessian 会把复杂对象所有属性存储在一个 map 中序列化,当父类和子类存在同名成员变量时会先序列化子类再序列化父类,因此子类值会被父类覆盖。

json 序列化

json 序列化就是将数据对象转换为 json 字符串,在序列化过程中抛弃了类型信息,所以反序列化时只有提供类型信息才能准确进行。相比前两种方式可读性更好,方便调试。

序列化通常会使用网络传输对象,而对象中往往有敏感数据,容易遭受攻击,jackson 和 fastjson 等都出现过反序列化漏洞,因此不需要进行序列化的敏感属性传输时应加上 transient 关键字。transient 的作用就是把变量生命周期仅限于内存而不会写到磁盘里持久化,变量会被设为对应数据类型的零值。

继续阅读