IEEE 754浮点加法/舍入
IEEE 754 Floating Point Add/Rounding

我不明白如何添加IEEE 754浮点(主要是指数的“重新对齐”)。对于舍入,守卫,圆形和粘滞又是如何起作用的? 如何舍入...

给定两个双打,如何确定他们的商是否确切?
Given two doubles, how to determine if their quotient is exact?

给定两个双值p和q,我怎样才能确定它们的商数:double result = p / q; 是p和q的二进制值的准确结果? 也就是说,无论结果是不是......

为什么0.1f的最后二进制位四舍五入为1?
Why is 0.1f's last binary bit rounded to 1?

我在大学学习操作系统课程,最近我们学习了如何在内存中表示浮点数。 我们的功课是关于将浮动数字(浮动)转换为他们的...

IEEE 754中表示的最大浮点数
max float represented in IEEE 754

我想知道IEEE 754中表示的最大浮点数是:(1.11111111111111111111111)_b * 2 ^ [(11111111)_b-127]这里_b表示二进制表示。 但是,这个值是3.403201383 * 10 ^ 38,这是......

浮点精度位
Float precision bits

在这篇wiki文章中,它显示了23位精度,8位指数和1位符号。浮点类型中隐藏的第24位为7位有效位数(23 + 1)。

可能影响双精度的最大小数位数
Maximum number of decimal digits that can affect a double

考虑形式为d1.d2d3d4d5 ... dnExxx的十进制表示形式,其中xxx是任意指数,并且d1和dn都不为零。 是否已知最大值n,以便存在小数点...

为什么console.log只显示0.1 + 0.2 = 0.30000000000000004产生的部分数字
Why console.log shows only part of the number resulting from 0.1+0.2=0.30000000000000004

这个问题还没有问stackoverlow呢! 我不问为什么0.1 + 0.2不等于0.3,我问的是非常不同的东西! 在将其标记为重复之前,请先阅读该问题。 我写了...

如何遍历浮点数的精确表示?
How to loop over exact representations of floating point numbers?

我正试图从一个浮点数到另一个浮点数。 说,我需要从std :: numeric_limits <float> :: epsilon()循环到1,这两个数字都是完全可代表的IEEE754数字。 ...

鉴于我们不对他们进行任何操作,严格比较花车是否安全?
Is it safe to compare floats strictly, given we do no operations on them?

通常情况下,当我们想测试分数时,我们会考虑一些不确定因素,因为IEEE754的近似特性。 如果(fabs(one_float - other_float)<...

为什么可以打印少于DBL_MIN的双数?
why a double number less than DBL_MIN can be printed?

我将0.4543543234343654632452452525254e-323赋值给一个双变量a并将其打印出来,尽管它小于DBL_MIN,但它仍然可以被分配和打印。 DBL_MAX:1.79769e + 308 FLT_MAX:3.40282e + ...

浮点精度再次
Floating point accuracy again

昨天我问了一个关于为什么我在浮点运算中失去准确性的问题。 我收到了一个关于这是由于在x87寄存器中存在中间结果的答案。 这是 ...

在IEEE754中是否存在一个中立元素?
Is there a neutral element in IEEE754 with regards to addition

考虑下面的代码片段double id =?; 双水库; long unsigned * res_u =(long unsigned *)&res; 长未签名的我; for(i = 0; i <(long unsigned)-1; i ++){double * d1 =(double *)...

fma()如何实现
How is fma() implemented

根据文档,在math.h中有一个fma()函数。 这非常好,我知道FMA如何工作以及如何使用它。 但是,我不太确定这是如何在...中实施的。

无需依赖FPU舍入模式将double转换为float
Converting double to float without relying on the FPU rounding mode

有没有人有方便的代码片段将IEEE 754双转换为直接劣等(或优于)浮点数,而不会改变或假设任何有关FPU当前舍入的内容......

在Swift中获取浮点数的原始字节
Get raw bytes of a float in Swift

我如何读Swift中Float或Double的原始字节? 示例:let x = Float(1.5)let bytes1:UInt32 = getRawBytes(x)let bytes2:UInt32 = 0b00111111110000000000000000000000我想要bytes1和...

为什么是float.MaxValue 0xFF 0xFF 0x7F 0x7F而不是0x7F,0xFF,0xFF,0xFF像ints?
Why is float.MaxValue 0xFF 0xFF 0x7F 0x7F and not 0x7F, 0xFF, 0xFF, 0xFF like ints?

我想这需要一点额外的信息。 但是,为什么这样呢? (这假定23位浮点类型是基于IEEE 754 32位二进制浮点和Little Endianness。)在32位整数中,它是......

从保存大于Double.MaxValue的值的字符串解析double
Parsing a double from a string which holds a value greater than Double.MaxValue

考虑下面的Java代码:String toParse =“1.7976931348623157E308”; //在java中double的最大值double parsed = Double.parseDouble(toParse); 的System.out.println(解析); 为了 ...

IEEE的“双倍”精确文本表示
Exact textual representation of an IEEE "double"

我需要用人类可读的文本格式来表示一个IEEE 754-1985双精度(64位)浮点数,条件是文本形式可以被解析回到完全相同(按位)...

tcl_precision的状态是什么?
What is the status of tcl_precision?

我在日常工作中不使用Tcl。 但是,我有一位偶尔与客户交流的同事,他希望我们的工具的扩展语言更像Tcl(!)。 他提出的一个话题是......

如何以2字节保存浮点数?
How do I save a floating-point number in 2 bytes?

是的,我知道IEEE-754半精度标准,是的,我知道在现场完成的工作。 简而言之,我试图保存一个简单的浮点数(比如52.1或1.25)......

javascript如何以这样的精度打印0.1?
How does javascript print 0.1 with such accuracy?

我听说javascript数字是IEEE 754浮点数,这解释了为什么> 0.3 - 0.2 0.09999999999999998,但我不明白> 0.1 0.1我认为0.1不能准确地...

具有负数和非整数幂的Math.pow
Math.pow with negative numbers and non-integer powers

Math.pow的ECMAScript规范具有以下特殊规则:如果x <0且x是有限且y是有限且y不是整数,则结果为NaN。 (HTTP://es5.github.com/#x15 ....

IEEE 754 / iec 559
IEEE 754/iec 559

IEEE 754浮点格式是否跨平台很好地定义? 就位格式和字节顺序而言? 我愿意将以下代码添加到我的代码中(用于初始版本):static_assert(...

添加后舍入浮点数(保护位,粘性位和圆位)
Rounding Floating Point Numbers after addition (guard, sticky, and round bits)

我还没能在网络上的任何地方找到一个很好的解释,所以我希望这里有人能为我解释。 我想添加两个二进制数字:1.0012 * 22 1.010,0000,...

谐波平均值计算与浮点精度
Harmonic Mean Calculation and Float Precision

我正在PHP中实现Pythagorean方法,算术和几何方法是一块蛋糕,但我很难得出一个可靠的调和平均实现。 这是 ...

什么是最大的非规格化和标准化数字?(64bit,IEE 754-1985)
Whats the largest denormalized and normalized number?(64bit, IEE 754-1985)

我正在使用浮点算法,因为我很想理解这个主题! 我知道这些数字可以用科学记数法表示。 所以对于这两个数字指数...

在Numpy中NaN比较相等
NaNs comparing equal in Numpy

考虑下面的脚本:import numpy as np a = np.array([np.nan],dtype = float)b = np.array([np.nan],dtype = float)print a == ba = np.array ([np.nan],dtype = object)b = np.array([np.nan],...

128位“long-float”有用吗?
Is 128-bit "long-float" useful?

前几天我意识到最常见的lisp有128位“long-float”。 因此,最积极的长期浮动是:8.8080652584198167656 * 10 ^ 646456992,而最积极的双重浮动是1 ....

所有单精度数字都可用双精度格式表示吗?
Are all single-precision numbers representable in the double-precision format?

给定以IEEE-754单精度格式表示的任意数字(通常在某些语言/平台中称为float),我可以确定数字可以精确地表示在......

什么时候denormals实际上有用?
When are denormals actually useful?

每当我搜索术语'非正常数字'或'非正常'时,我只会找到如何检测它们并将它们舍入为零的方法。 显然,没有人真的喜欢他们,因为与他们打交道会招致......

将二进制转换为浮点值的计算器 - 我做错了什么?
Calculator to convert binary to float value -- what am I doing wrong?

我有以下代码,它以二进制形式将6个浮点数写入磁盘并读取它们:#include <iostream> #include <cstdio> int main(){int numSegs = 2; int numVars = 3; ...

Java中的0.0和-0.0(IEEE 754)
0.0 and -0.0 in Java (IEEE 754)

Java与IEEE 754完全兼容吗? 但是我对java如何决定浮点数加法和减法的符号感到困惑。 这是我的测试结果:double a = -1.5; 双b = 0.0; ...

为什么10/3在C中确切吗?
Why 10/3 it's exact in C?

看看这个代码。 10/3返回3.3333332538604736328125000当我在计算器中乘以3时,我得到9.99,但如果通过代码做同样的事情,我会得到10.00。 它的可行性如何? #包括&...

将双常数定义为十六进制?
define double constant as hexadecimal?

我想将最接近的数字设置为低于1.0的浮点数。 通过阅读维基百科关于IEEE-754的文章,我设法发现1.0的二进制表示为3FF0000000000000,...

浮点算术错误
Floating Point Arithmetic error

我使用下面的函数来近似一个点上函数的导数:def prime_x(f,x,h):如果不是f(x + h)== f(x)而不是h == 0.0:return (f(x + h) - f(x))/ h ...

我能保证C ++编译器不会对我的计算进行重新排序吗?
Can I guarantee the C++ compiler will not reorder my calculations?

我目前正在阅读优秀的Double-Double和Quad-Double算术库,在前几行我会注意到他们按照以下方式执行了一笔数额:std :: pair <...

IEEE 754浮点加法和乘法的互换性
Interchangeability of IEEE 754 floating-point addition and multiplication

增加的x + x在IEEE 754(IEC 559)浮点标准中乘以2 * x是可以互换的,或者更一般地说,是否有任何保证case_add和case_mul总是...

将十六进制字符串表示形式转换为在Python中浮动
Converting hex string representation to float in python

我有形式的数据(IEEE 745十六进制)0x1.5c28f5c28f5c3p-1我将如何将其转换为Python中的float? 这是一个标准模块吗? 问候,亚历克斯

标准对于std :: pow,std :: log等cmath函数有什么看法?
What does standard say about cmath functions like std::pow, std::log etc?

标准是否保证函数在所有实现中返回完全相同的结果? 举例来说,32位IEEE浮点数的pow(float,float)。 是所有实现的结果...

用红宝石算术
Arithmetic in ruby

为什么此代码在ruby中7.30 - 7.20返回0.0999999999999996,而不是0.10? 但是,如果我会写7.30 - 7.16,例如,一切都会好的,我会得到0.14。 什么问题,我该如何解决?

在WebGL中从Float32Array转换为Uint16Array
Conversion from Float32Array to Uint16Array in WebGL

我有Float32Array纹理可以正确显示通过WebGL。 但是,当我试图将它们转换为Uint16Array时,会发生问题。 这是我的转换部分。 var ...

PHP实际使用IEEE-754浮点数吗?
Does PHP actually use IEEE-754 floating point numbers?

IEEE-754浮点标准说:有四种互斥关系是可能的:小于,等于,大于和无序。 最后一种情况出现在至少一个操作数是NaN的情况下。 ...

如何在Lua中测试-1。#IND(indeterminate)?
How to test for -1.#IND (indeterminate) in Lua?

Irrelavent为这个问题辩护:我得到一个错误调用Lua格式:整数溢出尝试存储-1。#IND变量的类型(n)确实是一个数字,我可以格式化为...

Haskell将(0/0)设置为qnan
Haskell sets (0/0) as qnan

我注意到Haskell(来自Windows上的Haskell Platform的ghci 7.10.2)翻转了我在C ++中看到的QNAN(0/0 :: Double)上的符号(经过测试的MSVS C ++ 2013和cygwin gcc 4.9.2)。 Haskell生产...

80位浮点数和次正常数
80-bit floating point and subnormal numbers

我正试图将80位扩展精度浮点数(在缓冲区中)转换为2倍。 缓冲区基本上包含一个x87寄存器的内容。 这个问题帮助我开始......

查找具有相同内部表示形式的float / double的最小/最大值
Find min/max of a float/double that has the same internal representation

刷新浮点数(也PDF),IEEE-754和参与这个关于浮点舍入转换为字符串时的讨论,让我去修补一下:我怎样才能得到最大值和最小值......

如何将浮点数转换为double(都存储在IEEE-754表示中)而不会丢失精度?
How to convert float to double(both stored in IEEE-754 representation) without losing precision?

我的意思是,例如,我有以IEEE-754单精度编码的以下数字:“0100 0001 1011 1110 1100 1100 1100 1100”(十进制大约为23.85)上面的二进制数被存储...

3 * x + x总是精确吗?
Is 3*x+x always exact?

假设严格的IEEE 754(没有多余的精确度)并舍入到最接近的偶数模式,是3 * x + x总是== 4 * x(因此在没有溢出的情况下精确),为什么? 我无法展示反例,所以......

非常大数字的正弦标准
Standard for the sine of very large numbers

我正在用TeX编写一个(几乎)符合IEEE 854的浮点实现(它只支持32位整数)。 本标准只规定了+, - ,*,/,比较结果......

是否有用于Java浮点基元的IEEE 754标准实现?
Is there any IEEE 754 standard implementations for Java floating point primitives?

如果Java使用IEEE 754标准来实现其浮点运算,我很感兴趣。 在这里,我在文档中看到了这种事情:在IEEE 754-2008中定义的操作As I ...