El sistema vocálico español es notable por su simplicidad y estabilidad, especialmente en comparación con otras lenguas románicas como el francés (16 vocales) o el portugués (9 vocales orales más nasales). Consta de cinco fonemas vocálicos: /a, e, i, o, u/, organizados según dos criterios articulatorios: el grado de abertura (movimiento vertical de la mandíbula) y la localización (posición de la lengua en el eje anteroposterior). Las vocales altas o cerradas son /i/ (anterior) y /u/ (posterior); las medias son /e/ (anterior) y /o/ (posterior); y la baja o abierta es /a/ (central). Esta clasificación se representa en el triángulo vocálico, cuyo modelo más influyente para el español es el de Antonio Quilis (Tratado de fonología y fonética españolas).
Aunque el sistema fonológico tiene solo cinco unidades, el habla produce numerosas variantes alofónicas condicionadas por el contexto. La nasalización afecta a vocales contiguas a consonantes nasales (mano ['mãno]). El contacto con la yod /j/ o la wau /w/ tiende a cerrar la vocal contigua, mientras que la /r/ vibrante puede abrirla ligeramente. En algunos dialectos, como el andaluz oriental, la aspiración de la /-s/ final ha provocado un desdoblamiento fonológico de las vocales, distinguiendo entre vocales abiertas y cerradas con valor distintivo, fenómeno que aproxima el sistema a las lenguas románicas con mayor riqueza vocálica.
Los grupos vocálicos son fundamentales en la fonología del español. El diptongo es la secuencia de dos vocales en la misma sílaba, pudiendo ser creciente (cerrada + abierta/media: piano) o decreciente (abierta/media + cerrada: paisaje). El triptongo combina tres vocales en una sílaba (cerrada + abierta/media + cerrada: buey). El hiato es la secuencia de dos vocales contiguas en sílabas distintas (teatro, caída). En el habla continua, la sinalefa (unión de vocal final e inicial entre palabras en una sílaba) y la sinéresis (reducción de hiato a diptongo) demuestran la primacía del ritmo silábico del español.
El inventario de fonemas consonánticos del español estándar, basado en la norma castellana septentrional, consta de 19 fonemas que se clasifican según tres parámetros articulatorios: modo de articulación, punto de articulación y sonoridad. Por el modo de articulación se distinguen: oclusivas, con cierre total y momentáneo (/p, t, k, b, d, g/); fricativas, con estrechamiento que produce fricción (/f, θ, s, ʝ, x/); la africada, con oclusión seguida de fricción (/t͡ʃ/); nasales, donde el aire sale por la cavidad nasal (/m, n, ɲ/); laterales, donde el aire sale por los lados de la lengua (/l, ʎ/); y vibrantes, con vibración de la punta de la lengua (/ɾ/ simple, /r/ múltiple).
Por el punto de articulación se clasifican en: bilabiales (/p, b, m/), labiodental (/f/), interdental (/θ/), dentales (/t, d/), alveolares (/s, n, l, ɾ, r/), palatales (/t͡ʃ, ʝ, ɲ, ʎ/) y velares (/k, g, x/). Según la sonoridad: sordas (/p, t, k, f, θ, s, t͡ʃ, x/) y sonoras (/b, d, g, ʝ, m, n, ɲ, l, ʎ, ɾ, r/).
Uno de los rasgos más característicos del consonantismo español es la existencia de alófonos aproximantes para los fonemas oclusivos sonoros. El fonema /b/ se realiza como oclusivo [b] tras pausa o nasal (barco, ambiente) y como aproximante bilabial [β] en el resto de contextos (lobo, alba). Análogamente, /d/ se realiza como [d] tras pausa, nasal o lateral, y como aproximante dental [ð] entre vocales (cada, padre); /g/ se realiza como [g] tras pausa o nasal, y como aproximante velar [ɣ] en los demás contextos (lago, algo). La asimilación del punto de articulación es también un fenómeno extendido, especialmente en las nasales implosivas: /n/ puede realizarse como alveolar [n], dental [n̪], velar [ŋ] o labial [m] según la consonante siguiente.
El español presenta una notable diversidad dialectal en el plano fónico, que afecta principalmente al sistema consonántico y reduce el inventario de 19 fonemas de la norma castellana septentrional en la mayoría de sus variedades. El seseo es la neutralización de la oposición /θ/-/s/ en favor de /s/, de modo que caza y casa se pronuncian ['kasa]. Es general en toda Hispanoamérica, Canarias y amplias zonas de Andalucía. El ceceo, realizando ambos como /θ/ (['kaθa]), es minoritario y se localiza en el sur de Andalucía. La distinción /θ/-/s/ es propia del centro y norte peninsular.
El yeísmo es la neutralización de /ʎ/ (lateral palatal, ll) y /ʝ/ (fricativo palatal, y) en favor de /ʝ/, convirtiendo calló y cayó en homófonos. Es un fenómeno en expansión, hoy mayoritario en casi todo el mundo hispánico. En la zona rioplatense, el fonema resultante se realiza como fricativa postalveolar sonora [ʒ] o sorda [ʃ], fenómeno denominado rehilamiento o sheísmo. La aspiración y pérdida de /s/ implosiva, característica de las «tierras bajas» (Caribe, costas, Río de la Plata, sur de España y Canarias), supone que la /s/ final de sílaba se debilita como aspiración [h] o se elide completamente.
La neutralización de /r/ y /l/ implosivas afecta al Caribe y Andalucía, pudiendo dar lugar al lambdacismo (arma > ['alma]), rotacismo (calma > ['karma]) o geminación consonántica (puerta > ['pwet:a]). La velarización de /n/ final (['paŋ] por pan) se extiende por Galicia, Andalucía y gran parte de América. La pronunciación del fonema velar /x/ varía entre una fricativa velar fuerte [x] en Castilla y una aspiración glotal suave [h] en el sur de España, Canarias y la mayor parte de Hispanoamérica. Un hablante seseante y yeísta opera con un sistema reducido de 17 fonemas, frente a los 19 del sistema estándar peninsular.
Los rasgos prosódicos o suprasegmentales son aquellos que no afectan a un único fonema, sino a unidades superiores como la sílaba, la palabra o la oración. En español, los más importantes son el acento y la entonación. El acento es la mayor prominencia con que se pronuncia una sílaba tónica frente a las átonas dentro de una palabra. A diferencia de las lenguas de acento fijo (como el francés, donde recae siempre en la última sílaba), el español tiene acento libre, es decir, fonológicamente distintivo: su posición puede diferenciar significados (canto/cantó, público/publico/publicó). El acento cumple tres funciones: distintiva (diferencia significados), culminativa (señala la presencia de una unidad acentual) y demarcativa (ayuda a identificar límites de palabra).
Según la posición de la sílaba tónica, las palabras se clasifican en oxítonas o agudas (última sílaba: canción), paroxítonas o llanas (penúltima: mesa) y proparoxítonas o esdrújulas (antepenúltima: teléfono). Las paroxítonas son con diferencia el patrón acentual más frecuente en español. La entonación es la línea melódica o curva melódica con la que se pronuncia un enunciado. Su unidad de análisis es el grupo fónico, segmento comprendido entre dos pausas.
La figura clave en el estudio de la entonación española es Tomás Navarro Tomás, autor del Manual de entonación española (1944). La entonación cumple dos funciones fundamentales: la función lingüística o distintiva, que permite diferenciar modalidades oracionales (la misma secuencia de fonemas puede ser aseveración, pregunta o exclamación según su curva melódica), y la función expresiva o emotiva, que manifiesta la actitud del hablante (sorpresa, ironía, enfado). La parte final de la curva melódica, denominada tonema por Navarro Tomás, es la más significativa: distinguió tres tonemas básicos: cadencia (descenso, oraciones enunciativas), anticadencia (ascenso, interrogativas absolutas) y suspensión (mantenimiento del tono, enunciados incompletos o enumeraciones).