Android Arm 编译优化选项评测

用不同测试用例具体测试 softfp, armv7-a, cortax 等优化选项，看选项不同性能差别多大。首先设计下面几个测试用例，包含字符串处理、复杂逻辑、整数运算、浮点运算几个方面：

compress：进行 LZO/LZW 大规模压缩，测试搜索，字符串匹配，复杂分支等性能
resample：进行一系列整数 DSP 运算，包括 resample 和 fir low pass
int add：一亿次整数加法
int mul：一亿次整数乘法
int div：一亿次整数除法
float add：一亿次浮点加法
float mul：一亿次浮点乘法
float div：一亿次浮点除法
const div：一亿次整数除以常数255
matrix：若干次矩阵乘法运算，同时考察浮点数乘法加法
normalize：若干次矢量归一化运算，同时考察浮点数乘法，除法，加法，sqrt

其次对安卓的几个 gcc 的编译选项进行分别测试：

-mfloat-abi=softfp，如果有硬件浮点处理器将会使用硬件，如果没有会转移到软件模拟
-march=armv7-a，生成适合 armv7a 架构的代码
-mtune=cortex-9，代码生成按照 cortex-9 进行调优
–mfpu=neon，使用 neon 进行硬件浮点运算，决定 softfp 的硬件方式到底用这个
-mfpu=vfp，使用 vfp 进行硬件浮点运算，决定 softfp 的硬件方式用这个

测试硬件：

桌面电脑：Intel® Core™ i5-2520M CPU @ 2.50GHz
安卓手机：三星，双核 CPU 1.73GHz armv7-a cortex-9

结果如下：

Desktop PC -O2:  
compress : 120 ms  
resample : 290 ms  
int add : 78 ms  
int mul : 86 ms  
int div : 459 ms  
float add: 76 ms  
float mul: 69 ms  
float div: 797 ms  
const div: 190 ms  
matrix : 166 ms  
normalize: 177 ms

samsung -O2:  
compress : 577 ms  
resample : 576 ms  
int add : 291 ms  
int mul : 332 ms  
int div : 2267 ms  
float add: 3080 ms  
float mul: 1792 ms  
float div: 7103 ms  
const div: 779 ms  
matrix : 9280 ms  
normalize: 5721 ms

samsung -O2, -mfloat-abi=softfp:  
compress : 540 ms  
resample : 558 ms  
int add : 291 ms  
int mul : 333 ms  
int div : 2268 ms  
float add: 266 ms  
float mul: 270 ms  
float div: 986 ms  
const div: 780 ms  
matrix : 301 ms  
normalize: 702 ms

samsung -O2, -mfloat-abi=softfp, -march=armv7-a:  
compress : 497 ms  
resample : 489 ms  
int add : 537 ms  
int mul : 331 ms  
int div : 2342 ms  
float add: 266 ms  
float mul: 270 ms  
float div: 986 ms  
const div: 703 ms  
matrix : 371 ms  
normalize: 701 ms

samsung -O2, -mfloat-abi=softfp, -march=armv7-a, -mtune=cortex-a9:  
compress : 493 ms  
resample : 517 ms  
int add : 626 ms  
int mul : 408 ms  
int div : 2381 ms  
float add: 266 ms  
float mul: 271 ms  
float div: 987 ms  
const div: 703 ms  
matrix : 302 ms  
normalize: 701 ms

samsung -O2, -mfloat-abi=softfp, -march=armv7-a, -mtune=cortex-a9, -mfpu=neon:  
compress : 498 ms  
resample : 474 ms  
int add : 514 ms  
int mul : 330 ms  
int div : 2511 ms  
float add: 267 ms  
float mul: 269 ms  
float div: 987 ms  
const div: 711 ms  
matrix : 302 ms  
normalize: 672 ms

samsung -O2, -mfloat-abi=softfp, -march=armv7-a, -mtune=cortex-a9, -mfpu=vfpv4:  
compress : 738 ms  
resample : 616 ms  
int add : 590 ms  
int mul : 360 ms  
int div : 2458 ms  
float add: 270 ms  
float mul: 274 ms  
float div: 996 ms  
const div: 718 ms  
matrix : 306 ms  
normalize: 687 ms

同PC的各项性能比较，手机上的执行时间除以PC的时间

结果分析：

换了几款手机，测试结果差别不大（各个项目比例区别不大），

主流手机中，浮点数加减乘除皆快过整数加减乘除，很多库的定点数编译选项应该关闭了

最重要的编译选项是 –mfloat-abi=softfp，加上后浮点性能从默认软件模拟方式提升十倍。

增加：-march=armv7-a 计算压缩有 8%-10%左右提高，但是整数加法性能明显下降。

-mtune=cortex-a9 提高基本看不出来

Android Arm 编译优化选项评测

See Also

最近文章

分类

标签

其它