TI сосет по 256 бит, причем код и данные в одном цикле никогда не загружаются - разные фазы конвейра. Но я не к тому - я в плане ядра и DMA спрашиваю. Если у Вас однопортовка внутренняя, то банки как раз уменьшат число сталлов между ядром(ну или контроллерами кэша L1) и DMA.